OpenAI Revela Chatbot de Voz y Promociona Nuevo Modelo de IA GPT-4o

La demostración en vivo de las nuevas capacidades conversacionales alimentó comparaciones con el compañero virtual representado en la película “Her”.

Por Jason Nelson

May 14, 2024

6 min lectura

Image: photosince/Shutterstock

Add on Google

En Resumen

OpenAI presentó el modelo de IA GPT-4o durante una actualización de productos de primavera.
El equipo destacó mejoras en la experiencia de usuario, simplificando el enfoque de la inteligencia artificial generativa.
El nuevo modelo, disponible para usuarios de pago y gratuitos, enfatiza la interacción natural y el acceso sin fricciones.

El desarrollador de ChatGPT OpenAI anunció hoy su último modelo de IA, GPT-4o—la "O" significa "omnimodel"—durante una actualización de productos de primavera en vivo, junto con una serie de actualizaciones de productos, incluido un chatbot de voz.

OpenAI actualizó sus aplicaciones móviles inmediatamente después de sus anuncios y también lanzó una aplicación de escritorio para ChatGPT. La empresa enfatizó las mejoras en su experiencia de usuario, lo que permite a las personas concentrarse mejor en las conversaciones que tienen con ChatGPT.

"Durante los últimos años, nos hemos centrado mucho en mejorar la inteligencia de estos modelos, y han mejorado bastante", dijo la directora de tecnología de OpenAI, Mira Murati. "Pero esta es la primera vez que realmente damos un gran paso adelante en cuanto a la facilidad de uso."

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx

— OpenAI (@OpenAI) May 13, 2024

La transmisión en vivo enfatizó un enfoque simplificado y más holístico para la inteligencia artificial generativa. Un "omnimodelo" -o nativamente multimodal- hace todo dentro de su aplicación principal en lugar de coordinar entre GPT para texto, GPT Vision para imágenes, y así sucesivamente.

"Creemos que es muy, muy importante que las personas tengan una comprensión intuitiva de lo que la tecnología puede hacer, por lo que realmente queremos combinarlo con esta comprensión más amplia", dijo Murati.

Ella señaló que GPT-4o estará disponible tanto para usuarios de ChatGPT pagos como gratuitos, así como para usuarios de la API de ChatGPT. Los suscriptores pagos de ChatGPT, seguirán teniendo acceso hasta cinco veces la capacidad del sistema de los usuarios gratuitos, señaló Murati. Agregando que todos, deberían poder acceder a las herramientas de OpenAI.

"Siempre estamos buscando formas de reducir esa fricción, y recientemente, hicimos que ChatGPT esté disponible sin el flujo de registro," señaló. En abril, OpenAI permitió a los usuarios acceder a ChatGPT 3.5 sin necesidad de registrarse para una cuenta.

Luego, OpenAI mostró la capacidad de ChatGPT para mantener una conversación casual en tiempo real con los usuarios, demostrando una variedad de tonos y emociones. La demostración incluyó a ChatGPT cantando, riendo y bromeando con los ingenieros de OpenAI. La compañía también afirmó que ChatGPT ahora puede determinar el estado emocional de un usuario utilizando la cámara frontal del teléfono móvil.

La nueva publicación de blog describió los principales avances anunciados hoy, destacando "una interacción mucho más natural entre humanos y computadoras."

“Acepta como entrada cualquier combinación de texto, audio e imagen y genera cualquier combinación de salidas de texto, audio e imagen”, escribió la empresa. “Puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, lo cual es similar al tiempo de respuesta humano en una conversación.”

Incluso antes de los anuncios de hoy, entusiastas de la inteligencia artificial y la tecnología sugirieron que un chatbot de voz impulsado por un modelo de IA de próxima generación haría realidad los compañeros personales representados en la película de ciencia ficción “Her”, incluido el CEO de OpenAI Sam Altman, en una publicación críptica de una solo palabra en Twitter.

her

— Sam Altman (@sama) May 13, 2024

Utilizando la aplicación de escritorio ChatGPT, los ingenieros de OpenAI demostraron que el código de software podía ser copiado en ChatGPT, lo que permitía al ingeniero conversar con ChatGPT al respecto. En la demostración, OpenAI también mostró la capacidad de ChatGPT para realizar traducciones en tiempo real en 20 idiomas. ChatGPT también demostró explicar un problema matemático después de que se enviara una foto de la ecuación a la aplicación.

OpenAI y la industria más amplia de la inteligencia artificial generativa se han comprometido públicamente a combatir el uso de su tecnología en la creación de deepfakes generados por IA. OpenAI reconoció hoy que GPT-4o presenta nuevos desafíos de seguridad dadas sus capacidades de audio y visión en tiempo real.

“Nuestro equipo ha estado trabajando arduamente para encontrar cómo construir mitigaciones contra el mal uso”, dijo Murati. “Seguimos colaborando con diferentes partes interesadas, desde el gobierno, los medios de comunicación, el entretenimiento, los equipos de red y la sociedad civil, para encontrar la mejor manera de introducir estas tecnologías en el mundo”.

Desde principios de mes, circulaban rumores sobre el gran anuncio de OpenAI, que iba desde el lanzamiento de GPT-5, ChatGPT impulsando la nueva versión de Siri de Apple, y la búsqueda con inteligencia artificial para desafiar a Google, anunciada el 14 de mayo. El viernes, Bloomberg informó que OpenAI y Apple cerraron un acuerdo que llevaría la tecnología de OpenAI al iPhone.

NEW: Apple and OpenAI expected to announce iPhone partnership today with a new ai-powered voice assistant.

You're all getting girlfriends... 😅 pic.twitter.com/6dx9SxdcWE

— Radar🚨 (@RadarHits) May 13, 2024

El CEO de OpenAI, Sam Altman, recurrió a Twitter para calmar las aguas el viernes, tuiteando, “No es GPT-5, no es un motor de búsqueda, ¡pero hemos estado trabajando arduamente en algunas novedades que creemos que a la gente le encantarán! Para mí se siente como magia.”

not gpt-5, not a search engine, but we’ve been hard at work on some new stuff we think people will love! feels like magic to me.

monday 10am PT. https://t.co/nqftf6lRL1

— Sam Altman (@sama) May 10, 2024

Lanzado en 2015 por Sam Altman, Elon Musk, Ilya Sutskever, Greg Brockman, Trevor Blackwell, Vicki Cheung, Andrej Karpathy, Durk Kingma, Jessica Livingston, John Schulman, Pamela Vagata y Wojciech Zaremba, OpenAI y su increíblemente popular ChatGPT lanzado en noviembre de 2022 han dominado la conversación en torno a la inteligencia artificial generativa.

Con estrechos lazos e inversiones de Microsoft, ChatGPT y Dall-E 3 de OpenAI han sido integrados en la suite de herramientas de Office 365 de Microsoft y el nuevo asistente de inteligencia artificial Copilot.

En marzo, Musk demandó a OpenAI y Altman, alegando que el desarrollador de IA había priorizado los intereses comerciales de Microsoft sobre el bien público.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.

Coin Prices