En Resumen

  • OpenAI presentó los modelos o3 y o4-mini, IA omnimodales capaces de procesar texto, imagen, audio y video en tiempo real.
  • o3 igualó a GPT-4-turbo en potencia y añadió percepción emocional, mientras que o4-mini priorizó velocidad y eficiencia.
  • Estos modelos allanan el camino hacia asistentes agénticos y hardware AI-first, anticipando una interfaz nativa de IA.

La carrera por dominar la frontera de la IA acaba de dar un nuevo giro argumental—y esta vez, responde, te mira e incluso podría escucharte con sentimiento.

OpenAI lanzó hoy su nueva serie de modelos "o", presentando o3 y su primo ligero, o4-mini. Estos nuevos modelos no son simplemente chatbots mejorados—son omnimodales, lo que significa que pueden entender y generar texto, imagen, audio y video de forma nativa. No son módulos Frankenstein unidos para simular alfabetización visual. Esto es efectivamente una IA con ojos, oídos y boca.

¿Un modelo para gobernarlos a todos?

Mientras que los primeros modelos "o" de OpenAI se lanzaron hace aproximadamente un año, los lanzamientos de hoy aparentemente ofrecen beneficios sustanciales.

OpenAI dice que la "o" significa "omni", y las implicaciones son exactamente lo que esperarías: Un modelo unificado que puede recibir una captura de pantalla, escuchar el quiebre de tu voz y emitir una respuesta emocionalmente calibrada—todo en tiempo real. Es el primer indicio real de un futuro donde los asistentes de IA no están solo en tu teléfono—son tu teléfono.

La versión o4-mini está construida para velocidad y asequibilidad, con un rendimiento más cercano a Claude Haiku o un Mistral bien ajustado, pero aún conservando ese conjunto completo de superpoderes multimodales. Mientras tanto, o3 apunta directamente a las grandes ligas, igualando a GPT-4-turbo en potencia, pero procesando imágenes y audio como si estuviera jugando una ronda casual de mímica.

Y no es solo velocidad. Estos modelos son más baratos de ejecutar, más eficientes de implementar, y podrían—aquí está la clave—operar nativamente en dispositivos. Así es: IA multimodal en tiempo real sin la latencia de la nube. Piensa en asistentes personales que no solo escuchan órdenes, sino que responden como compañeros.

Más allá de los chatbots: Entrando en la era agéntica

Con este lanzamiento, OpenAI está sentando las bases para la capa agéntica de la IA—esos asistentes más inteligentes que no solo hablan y escriben sino que observan, actúan y manejan tareas de forma autónoma.

¿Quieres que tu IA analice un hilo de Twitter, genere un gráfico, redacte un tweet y lo anuncie en Discord con un meme presuntuoso? Eso no solo está al alcance. Está prácticamente en tu escritorio—usando un monóculo, bebiendo un espresso y corrigiendo tu gramática con un encantador barítono.

Los modelos de la serie o están destinados a impulsar todo, desde bots de voz en tiempo real hasta gafas de realidad aumentada, ofreciendo una pista del movimiento de hardware "AI-first" que tiene al viejo guardia tecnológico (y al nuevo) en alerta. De la misma manera que el iPhone redefinió lo móvil, estos modelos son el comienzo de la era de la interfaz nativa de IA.

OpenAI vs. la competencia

Mientras tanto, en la competencia: Gemini de Google está evolucionando, Claude de Anthropic está dando golpes por encima de su pesoy  Meta tiene a Llama en el laboratorio. Pero la serie o de OpenAI puede haber logrado algo que el resto aún no ha clavado: fluidez multimodal unificada en tiempo real en un solo modelo.

Esta podría ser la respuesta de OpenAI a lo inevitable: hardware. Ya sea a través de la rumoreada colaboración con Apple o su propio proyecto "modo sigilo de Jony Ive", OpenAI se está preparando para un mundo donde la IA no es solo una aplicación—es el sistema operativo.

Editado por Andrew Hayward

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.