En Resumen

  • OpenAI integró la generación de imágenes directamente en ChatGPT, eliminando la necesidad de usar DALL·E 3 por separado.
  • GPT-4o se convirtió en un modelo "omni", capaz de generar imágenes precisas siguiendo textos complejos.
  • La nueva función fue lanzada gradualmente y promete mejorar la velocidad de generación con el tiempo.

OpenAI está integrando capacidades de generación de imágenes directamente en ChatGPT, permitiendo a los usuarios crear imágenes sin salir de la interfaz de chat.

La compañía anunció esta función el martes como parte de su impulso más amplio para hacer que las herramientas de IA sean más útiles y accesibles a través de diferentes medios, manteniéndose relevante en la escena del arte con IA.

La función es una evolución de DALL·E 3, el generador de imágenes de OpenAI, que se lanzó en septiembre de 2023 pero perdió popularidad entre los entusiastas de la IA que prefirieron la siguiente generación de modelos, incluyendo Flux, MidJourney v6, SD 3.5, Recraft y Reve.

Antes de este lanzamiento, OpenAI ofrecía dos modelos diferentes en la misma plataforma, con GPT generando texto y DALL·E 3 manejando la generación de imágenes.

Ahora, GPT-4o hará todo por sí mismo, y DALL·E 3 desaparecerá.

"La generación de imágenes de GPT-4o sobresale en la representación precisa de texto, siguiendo con exactitud los prompts y aprovechando la base de conocimiento inherente y el contexto de chat de 4o, incluyendo la transformación de imágenes subidas o su uso como inspiración visual", afirmó OpenAI en una publicación oficial en su blog.

La integración de DALL·E 3 continúa cumpliendo con el plan de la compañía de hacer de GPT-4o un modelo "omni", entrenado con datos multimodales y capaz de manejar todas las tareas. El resultado es un modelo mucho más capaz, preciso e inteligente que sus predecesores.

"Sabemos que les hemos hecho esperar, pero creemos que realmente vale la pena, y creemos que les va a encantar", dijo Sam Altman, CEO de OpenAI, en un video que muestra las nuevas capacidades de GPT-4o. "Es un paso adelante tan grande que la mejor manera de explicarlo es simplemente mostrarlo".

En el video, la compañía mostró las capacidades del sistema con varios ejemplos, incluyendo páginas de manga explicando la teoría de la relatividad —con entradas en inglés y mandarín—, tarjetas personalizadas basadas en fotos personales y reales, monedas conmemorativas combinando múltiples imágenes con fondos transparentes, y una imagen muy precisa basada en un prompt extraordinariamente largo y detallado.

El modelo es lento generando imágenes, pero parece ser altamente preciso. Altman señaló que la significativa mejora en calidad vale el mayor tiempo de espera.

"Las imágenes son mucho más lentas que nuestra generación de imágenes anterior (modelo), pero increíblemente mejores. Creemos que la espera vale muchísimo la pena", dijo Altman durante la demostración. "También podremos hacerlo más rápido con el tiempo".

El lanzamiento parece estar ocurriendo gradualmente, y no pudimos acceder al nuevo modelo al momento de la publicación.

Los usuarios pueden distinguir qué sistema están utilizando según cómo aparecen las imágenes: además de la aparente diferencia de calidad, las imágenes de DALL·E 3 aparecen completamente formadas después de una pantalla de carga, mientras que el nuevo GPT-4o renderiza las imágenes progresivamente de arriba a abajo en tiempo real.

La compañía enfatizó que la tecnología va más allá de crear imágenes sofisticadas.

"Lo realmente emocionante de este lanzamiento es que ahora estos modelos pueden visualizar lo que saben y externalizarlo de manera visual", explicó un científico investigador de OpenAI, invitado por Sam Altman para hablar sobre esta nueva función.

Esta capacidad permite aplicaciones educativas como diagramas científicos detallados o pósters informativos con texto renderizado con precisión e incluso edición de imágenes con consistencia de sujeto.

OpenAI también ha implementado protecciones para prevenir la generación de deepfakes, contenido ilegal y la eliminación de marcas de agua.

Aunque las imágenes generadas no tendrán marcas de agua visibles, incluirán metadatos C2PA para identificarlas como creadas por IA. La compañía también está desarrollando herramientas para rastrear la procedencia de las imágenes.

La compañía planea llevar esta función a su API, permitiendo a los desarrolladores integrar la tecnología en sus propias aplicaciones. Los Términos de uso de OpenAI también indican que los usuarios conservarán la propiedad de las imágenes que generen, sujeto a las políticas de empleo de la compañía.

Editado por Sebastian Sinclair y Josh Quittner

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.