GPT Image 2 de OpenAI vs Nano Banana 2 de Google: ¿Cuál es el Mejor Generador de Imágenes de IA?

¿Cuál es el generador de imágenes de IA más avanzado para producir resultados de primer nivel? Pusimos a prueba GPT Image 2 y Nano Banana 2.

Por Jose Antonio Lanz

14 min lectura

Recientemente, OpenAI lanzó GPT Image 2 con la discreción reservada para quienes saben que los resultados hablarán por sí solos. Sin keynote. Sin ciclo de hype. Solo una página del modelo, básicamente una galería, y una puntuación en Image Arena que lo situó 242 puntos por encima de todos los demás modelos disponibles actualmente —la mayor ventaja jamás registrada en el leaderboard.

El momento fue oportuno. La última vez que analizamos los mejores generadores de imágenes de IA, Nano Banana 2 de Google acababa de reclamar la corona, y lo enfrentamos contra Seedream 5 Lite de ByteDance en un enfrentamiento de siete categorías. Seedream se mantuvo firme en precio y fidelidad espacial. Nano Banana 2 ganó en velocidad y renderizado de texto. Entonces llegó OpenAI.

GPT Image 2 —con identificador de modelo gpt-image-2, ejecutándose sobre el backbone GPT-5.4— es el primer modelo de imágenes de OpenAI con razonamiento nativo integrado en la arquitectura. Antes de generar cualquier imagen, investiga, planifica y razona sobre la estructura visual.

OpenAI también retiró DALL-E 3 y GPT Image 1.5, ambos se apagarán el 12 de mayo. Esto no es una actualización —es un reemplazo.

Utilizamos el mismo marco de siete categorías que empleamos en la comparación entre Nano Banana y Seedream para ver qué cambió realmente —y si el actual campeón de Google puede mantener el título general.

Qué ofrece GPT Image 2

La función estrella es el texto. OpenAI afirma una precisión aproximada del 99% a nivel de caracteres en scripts latinos, CJK, hindi y bengalí. No es una mejora modesta frente a modelos anteriores —el renderizado de texto ha sido históricamente lo que hace que los generadores de imágenes de IA parezcan juguetes, con señales ininteligibles, fuentes sin sentido y letras que se mezclan entre sí.

GPT Image 2 parece haber resuelto en gran medida este problema.

El modelo admite hasta 4K de resolución y genera hasta ocho imágenes coherentes desde un solo prompt, manteniendo personajes y objetos consistentes en todo el lote. Esta última parte —la consistencia en lotes— es un nuevo elemento para los flujos de trabajo de producción. Las editoriales de libros infantiles y las agencias que ejecutan campañas en múltiples formatos ahora cuentan con una herramienta que antes no existía.

El acceso es escalonado. El Modo Instantáneo lleva la mejora de calidad principal a todos los usuarios de ChatGPT, incluidos los del nivel gratuito. El Modo de Razonamiento —donde el modelo razona, busca en la web y se autoverifica antes de generar— está restringido a suscriptores Plus, Pro y Business. La API oficial abre para desarrolladores a principios de mayo.

Hasta entonces, el acceso directo se realiza a través de ChatGPT o proxies de terceros a aproximadamente $0,01–$0,03 por imagen. Los precios de la API de OpenAI basados en tokens son de $8 por millón de tokens de entrada y $30 por millón de tokens de imagen de salida —ligeramente más económico que los $60 por millón de tokens de salida de Nano Banana 2 en niveles de resolución equivalentes.

GPT Image 2 vs Nano Banana 2: ¿Cuál gana?

Realismo: La prueba de la arquitecta en la azotea

El prompt especificaba un retrato cinematográfico de una arquitecta de 32 años al atardecer, con restricciones sobre el color del abrigo, el tipo de gafas, un rollo de planos en la mano derecha, iluminación de hora dorada, simulación de profundidad de campo de 50mm, grano de película y una relación de aspecto vertical 4:5. Cada elemento era una restricción independiente que podía fallar.

GPT Image 2 produjo un resultado impresionante en comparación con su predecesor, aunque la mirada del sujeto tiene ese típico aire de IA que a veces es fácil de detectar. El bokeh del horizonte urbano se comportó como un 50mm f/1.8 real. La tela del trench coat tenía peso táctil. La piel mostraba una textura natural con pecas y dispersión subsuperficial real, en lugar del acabado sintético suave común en los modelos de difusión entrenados en belleza. Los planos sostenidos en la mano derecha, tal como se especificó.

Nano Banana 2 produjo un retrato competente que se lee como compuesto. El atardecer tiene un tono demasiado saturado para la hora dorada real. La piel también es muy natural para la resolución, pero su mirada luce más genuina y natural. Sin embargo, no hay grano de película y sostiene planos distintos en lugar de un solo rollo. La imagen es en realidad muy similar a la de pruebas anteriores, lo que demuestra que al modelo le falta algo de creatividad cuando se le dan diferentes restricciones.

Ganador: Nano Banana 2

Arte y pintura: El astrónomo renacentista

Esta prompt exigía arte cercano a Rembrandt con tres fuentes de luz en competencia —vela cálida, luz de luna fría y un frasco bioluminiscente verde— todas mezclándose correctamente sobre un desordenado observatorio de piedra. También requería una lista específica de objetos sobre el escritorio, un gato con una pata blanca y una textura visible de pinceladas al óleo.

GPT Image 2 acertó con la física de la luz. Cada fuente proyecta su propia temperatura de color sobre las superficies. La túnica de terciopelo muestra deshilachados en los puños, el cráneo está colocado como tope de libros, el tomo tiene lo que puede interpretarse como texto manuscrito, y el gato negro con una pata blanca está silueteado contra un cielo de cometas. Todo el conjunto parece una pintura al óleo real, no un renderizado.

Sin embargo, GPT Image 2 mostró un defecto que podría ser su talón de Aquiles hasta el próximo modelo: cuando se le dan demasiados parámetros, el modelo sobreagudiza la imagen y genera muchos artefactos que reducen considerablemente su calidad. Esto es probablemente el equivalente al criticado "filtro amarillento" de GPT Image 1, pero para esta nueva generación de modelos.

Nano Banana 2 produjo algo hermoso —pero en el género equivocado. Se acercó más a la ilustración de fantasía de alta gama que a la pintura al óleo. La pintura es superficial, el texto del tomo tiene letras reales pero no un manuscrito legible, y el gato tiene dos patas blancas en lugar de una. La escena está sobreexpuesta, pero las fuentes de luz están correctamente representadas.

Ganador: GPT Image 2

Ilustración: El médium espiritual anime

Aquí es donde Nano Banana 2 contraataca con fuerza. El prompt pedía un visual clave de anime al estilo de Ufotable —el estudio detrás de "Demon Slayer" y "Fate/Zero"— con requisitos técnicos específicos: sombreado cel con variación en el peso del contorno, un cuerpo convirtiéndose lentamente en energía, brillo subsuperficial de la piel, un kitsune de nueve colas, caligrafía de talismán ofuda en kanji legible y un fondo de crepúsculo pictórico de Makoto Shinkai en violeta, ámbar y rosa.

Nano Banana 2 entregó lo que podría ser el mejor resultado individual de toda la evaluación de siete categorías. El sombreado cel tiene la variación correcta en el peso del contorno. Las colas son luminosas y claramente visibles. El kanji del ofuda es reconocible. El degradado del crepúsculo es exacto. La composición parece un póster teatral real.

GPT Image 2, en comparación, produjo un pastiche de anime. Contornos limpios, efecto de disolución de energía correcto, buen bokeh de flores de cerezo —pero el brillo subsuperficial de la piel al estilo Ufotable está ausente, y el kitsune de nueve colas se reduce a una sola cola física con las demás de aspecto diferente.

Nuevamente, el sobreagudizado y los artefactos son evidentes en esta obra, y la imagen no es visualmente atractiva.

Ganador: Nano Banana 2

Lettering y comprensión de estilos: La prueba del diseño de firma

A ambos modelos se les mostraron ejemplos de referencia de un servicio profesional de lettering —un estilo de firma cursiva ornamentada con complejidad controlada— y se les pidió diseñar una firma para "José Lanz" con esa estética: abstracta pero legible.

GPT Image 2 produjo una cursiva limpia y fluida con ascendentes en bucle correctos, renderizada sobre papel texturizado con un efecto de relieve tipográfico. Es perfectamente legible como "José Lanz", pero estilizada. La crítica: jugó sobre seguro. El material de referencia está más enérgicamente entrelazado de lo que GPT produjo. Pero es un entregable utilizable que emula correctamente la referencia.

Nano Banana 2 intentó igualar la complejidad ornamentada y produjo un garabato ilegible. El atractivo de la referencia es el caos controlado —bucles que parecen salvajes pero se resuelven en letras legibles. Gemini se volvió salvaje y perdió la legibilidad. Además, reprodujo la marca de agua del servicio, lo que representa un problema de propiedad intelectual en cualquier contexto profesional.

Ganador: GPT Image 2, por amplio margen

Conciencia espacial: El steampunk aéreo

Este es un prompt de composición exigente con instrucciones para diferentes objetos en ubicaciones específicas: una vasta ciudad steampunk con una torre de reloj desde una perspectiva aérea en tres cuartos, con cinco planos de profundidad, un degradado de neblina atmosférica y seis elementos de texto legible distribuidos por la escena —incluidas cuatro esferas de reloj mostrando diferentes horas en números romanos.

Nano Banana 2 se lleva este. Su geometría aérea es más convincente —la vista en tres cuartos realmente se lee como tal, en lugar de una vista frontal inclinada. Los cinco planos de profundidad están claramente separados, la neblina atmosférica aumenta correctamente con la distancia y la textura del periódico sobre los adoquines mojados es excelente. Los elementos están correctamente representados y el texto es legible, aunque no todas las líneas aparecieron en la escena.

GPT Image 2 acertó con los seis elementos de texto y todas las esferas del reloj, pero los planos de profundidad colapsan parcialmente en el plano medio, y la torre del reloj mostró cuatro relojes con diferentes horas. También representó el texto con mayor precisión —por ejemplo, la gárgola mostró el documento que dice "Sector 7: Condemned", algo que Nano Banana Pro no representó.

Nuevamente, la gran cantidad de parámetros a considerar parece haber degradado la calidad de la imagen, activando el efecto de sobreagudizado, similar al uso de un LoRA en Stable Diffusion con demasiada presencia.

Ganador: Nano Banana 2

Densidad de lettering: La escena de Kellerman's Hardware

La prueba de recordación de texto más exigente: una intersección urbana a las 2 a.m. donde cada superficie lleva texto legible —un ghost sign, grafiti con letras burbuja cromadas, lettering de vinilo en la fachada, un póster de concierto con código de barras, un desgarro que revela lo que hay debajo, letras metálicas en relieve en el toldo, escritura a mano en cartón, texto de bordillo con stencil y un teléfono público cubierto de stickers con textos específicos, entre ellos "ANSWERS TO MOCHI".

GPT Image 2 entregó una recordación de elementos casi perfecta. Cada elemento de texto especificado estaba presente y era legible. El efecto de desvanecimiento con sombra paralela y la textura de descascaramiento del ghost sign fueron excepcionales. El matiz de color de vapor de sodio fue preciso —ese verde-ámbar específico de las farolas de vapor de sodio reales, no un ámbar genérico. Los reflejos en el asfalto mojado fueron convincentes.

Nano Banana 2 también tuvo un buen desempeño, pero perdió especificidad. El grafiti "STILL HERE" usó letras burbuja con contorno en lugar de relleno cromado. La revelación del póster rasgado fue parcial. El matiz de vapor de sodio fue más genérico. Varios elementos del prompt no sobrevivieron al renderizado. Aun así, visualmente fue una imagen más agradable que la de GPT Image 2, debido a su defecto de sobreagudizado.

Ganador: GPT Image 2, por la fidelidad al prompt

Investigación agéntica: La línea de tiempo de Bitcoin

Esta categoría evalúa algo diferente —no la calidad del renderizado, sino el juicio editorial y la arquitectura de la información. Ambos modelos tienen la capacidad de activar un agente de investigación antes de generar una imagen, así que comparamos ambos modelos.

El prompt pedía una línea de tiempo de la historia de Bitcoin en formato panorámico con estilo de dibujo infantil, con un alto estándar de precisión informativa.

GPT Image 2 lo trató como un encargo de infografía. El resultado utiliza una línea de tiempo horizontal con marcadores de año codificados por color, espacios de ilustración arriba y texto explicativo debajo de cada evento. Las fechas son específicas: 31 de octubre de 2008 para el white paper; 3 de enero de 2009 para el bloque génesis; 22 de mayo de 2010 para el Pizza Day. La entrada de Mt. Gox cita correctamente los 850.000 BTC perdidos. Los eventos están distribuidos uniformemente desde 2008 hasta 2024.

El resultado de Nano Banana 2 es más encantador —una metáfora de carretera sinuosa para el volátil recorrido de Bitcoin es genuinamente ingeniosa— pero el título en primera persona "My Bitcoin Timeline" es extraño para una pieza informativa. La sección 2020–2024 está visualmente congestionada y la densidad de información es desigual entre eras.

Veredicto: Es un empate. Nano Banana es visualmente más atractivo, pero GPT Image 2 tiene más información en el resultado

Edición de imágenes: Rediseño de sala de estar

Esta prueba mide algo distinto a la generación pura: qué tan bien un modelo lee un espacio existente y lo transforma manteniéndose fiel a esa habitación específica. Es más cercano a lo que necesita una app de staging o una herramienta de arquitectura de interiores.

Prompt: Aquí hay una foto de mi sala de estar. Hazla más moderna y minimalista. Cambia el piso por uno de mármol blanco, usa espejos en un estilo coherente para decorar la pared frontal, y haz que la estética general sea moderna y más agradable a la vista:

El resultado de GPT Image 2 es inmediatamente reconocible como la habitación. La puerta está en la misma posición. La cerradura inteligente está ahí. La disposición del arte en la pared, la planta colgante, el estante —todo preservado.

Las decisiones de rediseño del modelo también son genuinamente buenas para lo que se le pidió: reemplazó la disposición mixta de espejos por un tríptico iluminado que crea una pared focal, y el halo LED cálido detrás de los paneles es una técnica real de diseño de interiores. Los reflejos en el espejo coinciden con las referencias, lo cual es una implementación interesante.

Sin embargo, no implementó los cambios en el piso.

El resultado de Gemini parece más realista debido a la iluminación, pero tiene una relación más caótica con la fuente. Tomó la instrucción de "usar espejos" demasiado literalmente y colocó espejos sobre espejos, por ejemplo. Los estilos de marcos mezclados (algunos dorados, algunos en latón, formas diferentes) también contradicen la instrucción específica de "estilo coherente".

Pareciera que el modelo aplicó una capa de inpainting sobre las áreas específicas que marcó como editables. La perspectiva también está ligeramente desviada.

Ganador: GPT Image 2 por las decisiones tomadas. Es más fácil cambiar elementos individuales de forma iterativa que instruir a Gemini para que cambie todos los elementos que creó

Veredicto

GPT Image 2 gana en la mayoría de las categorías: realismo, arte clásico, caligrafía de firmas, edición de imágenes y densidad de lettering. Nano Banana 2 gana en ilustración anime, composición espacial y diseño de información estructurada. Sin embargo, es el modelo más consistente cuando se trata de prompts extensos.

En general, siempre que le des a ChatGPT suficiente libertad creativa para evitar activar el efecto de sobreagudizado, los resultados serán estéticamente atractivos, realistas y sólidos con el texto. Sin embargo, los modelos están tan cercanos en calidad que una buena estrategia de prompting puede cambiar los resultados a favor de cada uno.

GPT Image 2 puede ser el modelo más fácil de abordar desde cero, pero Nano Banana 2, con una técnica de prompting adecuada e iteraciones, producirá resultados sobresalientes que pueden lucir más profesionales y pulidos dependiendo del caso de uso.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados