Inteligencia Artificial Con Ojos y Oídos: OpenAI Lanza Revolucionaria Serie "o"

OpenAI sienta las bases para la capa de agentes IA: con asistentes super inteligentes que no solo hablan y escriben, sino que observan, actúan y manejan tareas de forma autónoma.

Por Decrypt Staff

Apr 18, 2025

4 min lectura

Image: Varavin88/Shutterstock

En Resumen

OpenAI presentó los modelos o3 y o4-mini, IA omnimodales capaces de procesar texto, imagen, audio y video en tiempo real.
o3 igualó a GPT-4-turbo en potencia y añadió percepción emocional, mientras que o4-mini priorizó velocidad y eficiencia.
Estos modelos allanan el camino hacia asistentes agénticos y hardware AI-first, anticipando una interfaz nativa de IA.

La carrera por dominar la frontera de la IA acaba de dar un nuevo giro argumental—y esta vez, responde, te mira e incluso podría escucharte con sentimiento.

OpenAI lanzó hoy su nueva serie de modelos "o", presentando o3 y su primo ligero, o4-mini. Estos nuevos modelos no son simplemente chatbots mejorados—son omnimodales, lo que significa que pueden entender y generar texto, imagen, audio y video de forma nativa. No son módulos Frankenstein unidos para simular alfabetización visual. Esto es efectivamente una IA con ojos, oídos y boca.

¿Un modelo para gobernarlos a todos?

Mientras que los primeros modelos "o" de OpenAI se lanzaron hace aproximadamente un año, los lanzamientos de hoy aparentemente ofrecen beneficios sustanciales.

OpenAI dice que la "o" significa "omni", y las implicaciones son exactamente lo que esperarías: Un modelo unificado que puede recibir una captura de pantalla, escuchar el quiebre de tu voz y emitir una respuesta emocionalmente calibrada—todo en tiempo real. Es el primer indicio real de un futuro donde los asistentes de IA no están solo en tu teléfono—son tu teléfono.

Introducing OpenAI o3 and o4-mini—our smartest and most capable models to date.

For the first time, our reasoning models can agentically use and combine every tool within ChatGPT, including web search, Python, image analysis, file interpretation, and image generation. pic.twitter.com/rDaqV0x0wE

— OpenAI (@OpenAI) April 16, 2025

La versión o4-mini está construida para velocidad y asequibilidad, con un rendimiento más cercano a Claude Haiku o un Mistral bien ajustado, pero aún conservando ese conjunto completo de superpoderes multimodales. Mientras tanto, o3 apunta directamente a las grandes ligas, igualando a GPT-4-turbo en potencia, pero procesando imágenes y audio como si estuviera jugando una ronda casual de mímica.

Y no es solo velocidad. Estos modelos son más baratos de ejecutar, más eficientes de implementar, y podrían—aquí está la clave—operar nativamente en dispositivos. Así es: IA multimodal en tiempo real sin la latencia de la nube. Piensa en asistentes personales que no solo escuchan órdenes, sino que responden como compañeros.

Más allá de los chatbots: Entrando en la era agéntica

Con este lanzamiento, OpenAI está sentando las bases para la capa agéntica de la IA—esos asistentes más inteligentes que no solo hablan y escriben sino que observan, actúan y manejan tareas de forma autónoma.

¿Quieres que tu IA analice un hilo de Twitter, genere un gráfico, redacte un tweet y lo anuncie en Discord con un meme presuntuoso? Eso no solo está al alcance. Está prácticamente en tu escritorio—usando un monóculo, bebiendo un espresso y corrigiendo tu gramática con un encantador barítono.

Los modelos de la serie o están destinados a impulsar todo, desde bots de voz en tiempo real hasta gafas de realidad aumentada, ofreciendo una pista del movimiento de hardware "AI-first" que tiene al viejo guardia tecnológico (y al nuevo) en alerta. De la misma manera que el iPhone redefinió lo móvil, estos modelos son el comienzo de la era de la interfaz nativa de IA.

OpenAI vs. la competencia

Mientras tanto, en la competencia: Gemini de Google está evolucionando, Claude de Anthropic está dando golpes por encima de su pesoy Meta tiene a Llama en el laboratorio. Pero la serie o de OpenAI puede haber logrado algo que el resto aún no ha clavado: fluidez multimodal unificada en tiempo real en un solo modelo.

o3 and o4-mini are out!

they are very capable.

o4-mini is a ridiculously good deal for the price.

they can use and combine every tool within chatgpt.

multimodal understanding is particularly impressive.

— Sam Altman (@sama) April 16, 2025

Esta podría ser la respuesta de OpenAI a lo inevitable: hardware. Ya sea a través de la rumoreada colaboración con Apple o su propio proyecto "modo sigilo de Jony Ive", OpenAI se está preparando para un mundo donde la IA no es solo una aplicación—es el sistema operativo.

Editado por Andrew Hayward

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.

Noticias recomendados

Amor en Época de Chatbots: 75% de Usuarios Recurren a la IA Para Consejos Emocionales, Según Estudio
No están tan interesados en ti, porque son código. Investigadores de la Universidad de Waseda han creado una herramienta de medición para evaluar cómo los humanos forman vínculos emocionales con la inteligencia artificial, encontrando que el 75% de los participantes del estudio recurrieron a la IA para obtener consejos emocionales, mientras que el 39% percibió a la IA como una presencia constante y confiable en sus vidas. El equipo, liderado por el Asociado de Investigación Fan Yang y el Profeso...
NoticiasArtificial Intelligence
6 min lectura
Jose Antonio LanzJun 11, 2025
Create an account to save your articles.
La IA Despierta Temor y 'Obsolescencia' Entre la Industria Cinematográfica del Reino Unido
El crecimiento en el uso de la inteligencia artificial generativa está provocando temores de pérdida de empleo y "obsolescencia" entre las personas que trabajan en el sector cinematográfico y audiovisual del Reino Unido, según un nuevo informe encargado por el British Film Institute. El informe elaborado por investigadores del Laboratorio de Prospectiva CoSTAR de múltiples instituciones, es la primera revisión a nivel nacional en el Reino Unido del impacto que la inteligencia artificial está ten...
NoticiasArtificial Intelligence
6 min lectura
Simon ChandlerJun 11, 2025
Create an account to save your articles.
Mientras en LA Queman Waymos, Londres Insinúa Pruebas Piloto de Coche Sin Conductor
El gobierno del Reino Unido ha anunciado planes para comenzar a probar servicios de taxis autónomos en sus carreteras, justo cuando ha habido críticas en Los Ángeles donde varios autos autónomos de Waymo fueron incendiados. Varios vehículos fueron incendiados el domingo durante una protesta contra las redadas de la Oficina de Aduanas e Inmigración de EE. UU. en Los Ángeles y el despliegue de la Guardia Nacional por parte de la administración Trump en la región. El plan inicial en Londres, propue...
NoticiasMonedas
3 min lectura
Luke EdwardsJun 11, 2025
Create an account to save your articles.

Coin Prices