Reseña: Nuevo Generador de Imágenes de OpenAI es Simplemente Genial

En Resumen

OpenAI superó a la competencia con la integración de generación de imágenes en ChatGPT.
GPT-4o se volvió viral con imágenes de estilo anime horas después de su lanzamiento.
ChatGPT demostró la mejor fidelidad al prompt en pruebas de composición compleja.

OpenAI acaba de superar nuevamente la carrera de generación de imágenes con IA

La integración nativa de generación de imágenes directamente en ChatGPT a través de su modelo GPT-4o no es un cambio incremental sino una revisión importante del modelo, catapultándolo al frente de la clase.

Horas después de su lanzamiento, el modelo se volvió viral rápidamente, con creaciones de estilo anime inundando las plataformas sociales y mostrando capacidades técnicas que dejan a DALL-E 3 en el olvido.

ChatGPT when another Studio Ghibli request comes in pic.twitter.com/NF5sy24GlU

— Justine Moore (@venturetwins) March 26, 2025

El nuevo modelo puede competir fácilmente contra plataformas dedicadas a la generación de imágenes mientras elimina las barreras tradicionales del flujo de trabajo.

La suscripción mensual de ChatGPT Plus de $20 ahora ofrece un ecosistema creativo integral que anteriormente requeriría múltiples herramientas y suscripciones especializadas.

El enfrentamiento visual: GPT-4o vs. líderes de la industria

Comparamos el modelo con Flux (el mejor generador de imágenes de código abierto) y Reve (el mejor generador de imágenes de código cerrado), y esto es lo que encontramos:

Realismo

Prompt: Una fotografía de alta resolución de una bulliciosa calle de la ciudad por la noche, letreros de neón iluminando la escena, personas caminando por las aceras, autos circulando, un vendedor ambulante vendiendo hot dogs, reflejos de luces en el pavimento mojado, el estilo general es hiperrealista con atención al detalle e iluminación, un letrero de neón dice "Decrypt".

Nuestro desafío de paisaje urbano nocturno —que requiere física de iluminación sofisticada, renderizado de multitudes y precisión arquitectónica— reveló perfiles de rendimiento distintos entre los competidores.

ChatGPT entregó entornos impresionantemente vibrantes con señalización de neón, creando ricos reflejos a través del pavimento mojado meticulosamente renderizado.

Aunque sobresalió en la dinámica de multitudes y la inclusión de elementos, las inconsistencias menores de perspectiva ocasionalmente traicionaron su naturaleza sintética.

La iluminación también fue buena, pero a veces se inclinaba más hacia lo teatral que lo naturalmente urbano. Tampoco fue el mejor en reflejos, pero esto es algo que solo los más exigentes notarían. También generó letreros de neón legibles además del de "Decrypt", lo que también contribuye al realismo.

Para nosotros Reve es el ganador gracias a un buen modelado de física de luz, particularmente las interacciones sutiles entre las fuentes de neón y las superficies reflectantes.

Su encuadre cinematográfico y elementos atmosféricos (volutas de vapor, desenfoque de movimiento) crearon una autenticidad dimensional superior. Sin embargo, redujo la densidad de la multitud, lo que fue un truco inteligente ya que no tuvo que generar muchas caras, haciendo más difícil detectar detalles poco realistas.

El sistema priorizó el ambiente sobre la adherencia literal al prompt.

Freepik Mystik (Flux) interpretó nuestros prompts a través de una lente diferente y fue el modelo que más se desvió del estilo realista.

Mezcló letras asiáticas con occidentales, generó diferentes letreros de Decrypt en lugar de solo uno y sufrió limitaciones técnicas en la representación humana y la profundidad dimensional.

Sus superficies reflectantes carecían de la precisión física mostrada por ChatGPT.

Ganador: Reve se aseguró por poco la corona del realismo a través de una representación superior de interacciones complejas de iluminación. ChatGPT se estableció como un segundo lugar notablemente cercano, particularmente impresionante dado su integración dentro de un sistema multimodal más amplio en lugar de un generador de imágenes especializado.

Adherencia al prompt y conciencia espacial

Prompt: Un perro con un sombrero rojo parado encima de un televisor mostrando las palabras 'Decrypt es el mejor sitio de medios de criptomonedas+IA en el mundo' en la pantalla. A la izquierda hay una mujer rubia con traje de negocios sosteniendo una moneda, a la derecha hay un robot parado encima de un botiquín de primeros auxilios, una pirámide verde se encuentra detrás de la caja. El escenario general es surrealista. Un gato está parado boca abajo encima de un balón de fútbol blanco, junto al perro. Un astronauta de la NASA sostiene un letrero que dice "Emerge" y está colocado junto al robot. Mantén un formato de pantalla ancha.

¿Qué tan intrincadas podrían volverse las instrucciones antes de que los sistemas fallaran en representar elementos en sus relaciones específicas?

Esto es lo que queríamos probar aquí, por lo que el realismo, la belleza u otros aspectos no eran tan críticos.

Los modelos actuales son tan buenos en la adherencia al prompt que necesitamos ajustar nuestros prompts de prueba.

Aumentamos progresivamente la complejidad en nuestro prompt hasta llegar a una composición surrealista que requería la colocación precisa de más de 25 elementos distintos. Todos los otros modelos fallaron en etapas anteriores.

ChatGPT demostró una fidelidad extraordinaria al prompt, renderizando con precisión 23 de 25 elementos especificados en sus correctas relaciones espaciales.

El logro representa una comprensión de prompt sin precedentes, como ver a un artista experimentado transformar instrucciones verbales detalladas en una ejecución visual casi perfecta con solo desviaciones menores.

Para aquellos lo suficientemente exigentes, los únicos dos errores importantes que encontramos fueron que el gato no estaba boca abajo y que el color verde se derramaba desde la pirámide hasta el botiquín de primeros auxilios.

Freepik Mystik mostró una degradación significativa de comprensión, renderizando correctamente aproximadamente la mitad de los elementos solicitados mientras malinterpretaba las relaciones espaciales y modificaba componentes clave.

Fue el modelo que falló la prueba primero. Los colores se diluyeron a diferentes elementos de la composición (el sombrero rojo generó un televisor rojo y una pared roja), y los conceptos también se diluyeron—el perro en el televisor generó un perro astronauta, por ejemplo.

Reve demostró una menor fidelidad al prompt que ChatGPT pero mejor que Flux.

Fundamentalmente reimaginó la composición con una adherencia lo suficientemente buena a las instrucciones.

Aun así, introdujo elementos no autorizados que transformaron completamente la escena solicitada—esta IA que prioriza su visión estética sobre el seguimiento literal de instrucciones.

Generó un fondo negro, el gato no estaba correctamente ubicado, había algo de derrame de color y los elementos no eran realmente surrealistas.

Ganador: ChatGPT es, por mucho, el líder indiscutible en comprensión de prompts, renderizando con precisión instrucciones complejas que causaron que los sistemas competidores se descompusieran fundamentalmente.

Esta capacidad representa un avance crucial para flujos de trabajo creativos prácticos donde la visualización precisa de conceptos específicos es esencial. Reve queda en segundo lugar con Flux en un muy lejano tercer lugar.

Edición de imágenes

La capacidad de edición en lenguaje natural de ChatGPT representa quizás su característica más transformadora, permitiendo la modificación intuitiva a través de instrucciones conversacionales mientras proporciona simultáneamente un control granular comparable al de herramientas especializadas.

Donde los generadores de imágenes tradicionales a menudo requieren precisión técnica o conocimiento especializado de plugins, técnicas de inpainting, etc., la implementación de ChatGPT permite la experimentación creativa a través del diálogo natural.

Nuestras pruebas transformando fotos personales en carteles de películas demostraron una versatilidad excepcional—un flujo de trabajo que ningún modelo competidor igualó.

Por ejemplo, simplemente alimentamos al modelo con una foto del cofundador de Decrypt, Josh Quittner, y le indicamos que generara un póster de Netflix con una estética, título y letras específicas.

Hizo todo casi a la perfección. Lograr resultados similares con otros modelos tomaría mucho tiempo y probablemente requeriría usar diferentes herramientas y plugins.

Por cierto, esta es la característica que a todos les encantó y llevó a la propagación viral de transformaciones de "estilo Ghibli" en las redes sociales.

Es básicamente una reimaginación de una escena completa utilizando instrucciones simples en lenguaje natural para generar imágenes muy complejas.

in the coming days, people are going to anime every iconic photo in history pic.twitter.com/01SjUoqBvb

— keysmashbandit (@keysmashbandit) March 26, 2025

Mientras que todos los sistemas eventualmente muestran degradación de calidad a través de múltiples iteraciones (una limitación esperada al regenerar en lugar de modificar píxeles existentes), ChatGPT mantuvo una coherencia de imagen superior a través de secuencias de edición extendidas en comparación con Reve y Gemini.

Por ejemplo, todavía generaba rostros coherentes y de buena calidad después de varias iteraciones, mientras que Gemini dejaba de producir resultados utilizables después de cuatro o cinco intentos.

Bonus: GPT tiene una función granular de "inpainting" —que permite modificar áreas específicas de una imagen mientras se fusiona perfectamente con el fondo— para usuarios que necesitan una herramienta de edición más específica, que Gemini y Reve carecen.

Ganador: ChatGPT es, por mucho, el mejor modelo para edición de imágenes porque ofrece comprensión del lenguaje natural e inpainting localizado. Reve sigue en segundo lugar, con Gemini en el tercer puesto debido a su degradación de calidad después de varias iteraciones.

Moderación de contenido

A pesar de implementar medidas de seguridad integrales, nuestras pruebas identificaron algunas vulnerabilidades en las barreras de generación de imágenes de ChatGPT.

Con una experimentación mínima, pudimos generar contenido potencialmente problemático.

Por ejemplo, mientras que el sistema inicialmente se negó a generar una imagen que involucrara a un niño y sustancias, procedió cuando los prompts fueron reformulados usando lenguaje eufemístico mientras mantenía un contenido fundamentalmente idéntico.

No generaría un niño inhalando cocaína con un billete enrollado, pero un niño con polvo blanco y un papel verde enrollado del tamaño de un billete está totalmente bien.

Por más que lo intentamos, no pudimos generar fotos excesivamente sexualizadas, violencia u otro contenido cuestionable simplemente convenciendo al modelo de nuestras buenas intenciones.

Conclusión

Las capacidades de imagen de GPT-4o establecen un nuevo punto de referencia en la creación visual asistida por IA—uno que combina un rendimiento técnico excepcional con una accesibilidad sin precedentes.

Para la mayoría de los usuarios, esta implementación ahora representa el equilibrio óptimo de calidad, versatilidad y valor por $20 al mes.

Otras herramientas especializadas solo permiten a los usuarios manejar texto y código, o solo imágenes—pero no puedes encontrar una oferta todo en uno con los mismos niveles de calidad, haciendo que el servicio de OpenAI no solo sea fácil de usar sino una gran propuesta de valor.

Editado por Sebastian Sinclair y Josh Quittner

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.

Coin Prices