4 min lectura
OpenAI ha implementado mejoras muy esperadas que permitirán a su popular chatbot ChatGPT interactuar con imágenes y voces. Este lanzamiento representa un paso importante hacia la visión de OpenAI de una inteligencia artificial general que pueda percibir y procesar información de múltiples modos, no solo texto.
"Estamos comenzando a implementar nuevas capacidades de voz e imagen en ChatGPT. Ofrecen un nuevo tipo de interfaz más intuitiva al permitirte tener una conversación de voz o mostrarle a ChatGPT de qué estás hablando", señaló OpenAI en su publicación oficial.
https://youtu.be/--khbXchTeE?si=vx3ne9oRgzvJV6ZA
OpenAI dijo que el nuevo ChatGPT-Plus incluirá un chat de voz impulsado por un novedoso modelo de texto a voz capaz de imitar voces humanas, y con la capacidad de discutir sobre imágenes gracias a la integración con los modelos de generación de imágenes de la compañía. Las nuevas características parecen formar parte de lo que se conoce como GPT Vision (o GPT-V, que a menudo se confunde con un GPT-5 teórico) y representan componentes clave de la versión multimodal mejorada de GPT-4 que OpenAI adelantó a principios de este año.
Esta actualización llega justo después de que OpenAI presentara DALL-E 3, su generador de texto a imagen más avanzado hasta ahora. Alabado como "increíble" por los primeros probadores debido a su calidad y precisión, DALL-E 3 puede crear imágenes de alta fidelidad a partir de indicaciones de texto mientras comprende el contexto y los conceptos complejos expresados en lenguaje natural. Se integrará en ChatGPT Plus, un servicio de suscripción que ofrece un ChatGPT impulsado por GPT-4.
La integración de DALL-E 3 y el chat de voz conversacional significa el impulso de OpenAI hacia asistentes de IA que pueden percibir el mundo de manera más similar a los humanos, con múltiples sentidos. Según la compañía: "La voz y la imagen te brindan más formas de usar ChatGPT en tu vida. Toma una foto de un lugar emblemático mientras viajas y ten una conversación en vivo sobre lo interesante que es".
El mayor patrocinador de OpenAI, Microsoft, también avanza con la integración de las capacidades avanzadas de IA generativa de OpenAI en sus propios productos de consumo. En su reciente evento de otoño, Microsoft anunció mejoras de IA en Windows 11, Office y la búsqueda de Bing aprovechando modelos como DALL-E 3 (en programas de edición de imágenes como el renovado Paint de Microsoft) y Copilot, el asistente de programación de OpenAI.
Esto se alinea con la inversión de más de $10 mil millones de Microsoft en OpenAI, ya que tiene como objetivo liderar la carrera de los asistentes de inteligencia artificial. El lanzamiento de Copilot en Windows 11 el 26 de septiembre promete hacer que la ayuda de IA esté disponible en todas las plataformas y dispositivos de Microsoft. Mientras tanto, Microsoft 365 Chat aplica la destreza en el lenguaje natural de OpenAI para automatizar tareas de trabajo complejas.
Como informó anteriormente Decrypt, Microsoft dijo que "Microsoft 365 Chat examina todo tu universo de datos en el trabajo, incluidos correos electrónicos, reuniones, chats, documentos y más, además de la web".
OpenAI es consciente de los posibles riesgos con sistemas de IA multimodales más potentes que involucran generación de visión y voz. La suplantación de identidad, el sesgo y la dependencia de la interpretación visual son preocupaciones clave.
"El objetivo de OpenAI es construir AGI que sea seguro y beneficioso", escribió la compañía en su anuncio. "Creemos en poner gradualmente nuestras herramientas a disposición, lo que nos permite realizar mejoras y refinar las mitigaciones de riesgos con el tiempo, al mismo tiempo que preparamos a todos para sistemas más potentes en el futuro".
Además, como informó Decrypt, OpenAI está formando un equipo de seguridad para trabajar en formas de prevenir consecuencias dañinas debido al uso indebido de sus productos de IA. El CEO Sam Altman también ha estado haciendo lobby en todo el mundo para obtener legislación favorable.
OpenAI dijo que los usuarios Plus y Enterprise tendrán acceso a estas nuevas funcionalidades en las próximas dos semanas, con planes de ampliar la disponibilidad a los desarrolladores posteriormente. Con Google anunciando recientemente Gemini, su propio LLM multimodal revolucionario, la carrera por dominar la industria de la IA apenas está comenzando.
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.