En Resumen

  • Google presentó ImageFX, un potente generador de imágenes de IA que se enceuntra en fase beta.
  • ImageFX Destaca por su fotorrealismo y acceso gratuito, compitiendo con Dall-E 3 y MidJourney.
  • Decrypt comparó ImageFX con MidJourney y Dall-E 3 en solicitudes diversas, resaltando las fortalezas y limitaciones de cada modelo.
  • ImageFX se destacó por su acceso gratuito y mayor control creativo.

Prepárense, señoras y señores, tenemos un nuevo generador de imágenes de IA en la ciudad, y sorprendentemente es muy bueno.

Es sorprendente porque proviene de Google y porque no es el generador básico, algo feo y perezoso que están acostumbrados a ver en Bard. También está oculto al público en general, pero eso no significa que no puedas usarlo.

Su nombre es ImageFX y es la última incursión de Google en el campo de la generación de imágenes de IA. Está disponible a través de Google's AI Test Kitchen, una plataforma experimental que permite a los usuarios interactuar con los proyectos de Google mientras aún están en desarrollo.

A pesar de estar en su fase beta temprana, ImageFX ofrece resultados sorprendentes en términos de precisión y fotorealismo. Sin embargo, su disponibilidad está limitada a regiones específicas, como Estados Unidos, Kenia, Nueva Zelanda y Australia, y su uso está restringido al inglés, lo que demuestra el enfoque cauteloso de Google y su deseo de un entorno controlado para la retroalimentación de los usuarios y la mejora del sistema.

Aquellas personas que viven fuera de las regiones permitidas podrían evadir las restricciones geográficas con métodos como VPN o proxies, bajo su propio riesgo.

Impulsando ImageFX se encuentra Imagen 2, un sofisticado modelo de IA desarrollado por el renombrado laboratorio de IA de Google, DeepMind. Imagen 2 está diseñado para interpretar y visualizar indicaciones textuales, contando con capacidades para producir imágenes y estilos diversos. Google afirma que Imagen 2 establece un nuevo estándar en calidad de imagen entre su generación de modelos de IA.

La introducción de ImageFX forma parte de la estrategia más amplia de Google para explorar diversas facetas de la inteligencia artificial generativa. Además, se une a un conjunto de herramientas especializadas, incluyendo MusicFX para la creación de música y TextFX para la generación de texto estilizado.

Google vs. Dall-e 3 vs. MidJourney

ImageFX de Google marca una notable entrada del gigante tecnológico en el ámbito de los generadores de imágenes impulsados por IA, compitiendo directamente con actores establecidos como Dall-E 3 y MidJourney. Una ventaja distintiva de ImageFX en su fase beta inicial es su acceso gratuito, a diferencia de la integración de Dall-E con ChatGPT que necesita de una tarifa mensual de $20, o una suscripción anual de MidJourney que se acerca a los $100.

Si bien la rentabilidad es un factor importante, son las características comparativas y la calidad de salida lo que diferencia a esta herramienta. ImageFX destaca en la producción de imágenes hiperrealistas, superando las representaciones algo caricaturescas de Dall-E 3 y el enfoque de MidJourney en imágenes estéticamente atractivas.

Pero solo porque ImageFX sea gratuito, no significa que sea malo. ImageFX ofrece características únicas como el control de semillas, que permite a los usuarios ajustar finamente el proceso creativo mediante la configuración inicial del ruido. Este nivel de control no tiene igual en Dall-E 3 o MidJourney, lo que permite a los usuarios hacer ajustes sutiles mientras se mantienen los elementos principales de la imagen.

Además, ImageFX puede resaltar palabras clave importantes y sugerir alternativas creativas, una característica no disponible en sus competidores.

Captura de pantalla de las sugerencias de ImageFX
Captura de pantalla de las sugerencias de ImageFX

Sin embargo, ImageFX tiene sus limitaciones. La herramienta genera exclusivamente imágenes cuadradas, mientras que Dall-E 3 y MidJourney ofrecen flexibilidad en las relaciones de aspecto. Además, a diferencia de MidJourney, ImageFX no admite funciones de edición de imágenes como inpaint y outpaint, lo que limita su versatilidad. Por último, la función de conversación de Dall-E 3, que permite a los principiantes instruir al modelo en lenguaje natural, contrasta con la solicitud basada en palabras clave requerida por ImageFX y MidJourney.

El enfoque para la solicitud de prompts también difiere significativamente entre estos modelos. ImageFX no admite solicitudes negativas, que permiten a los usuarios especificar qué excluir de la imagen. MidJourney ofrece esta funcionalidad, agregando una capa de precisión al proceso creativo. Dall-E 3 también carece de solicitudes negativas directas, pero su interfaz conversacional permite a los usuarios guiar indirectamente al modelo, ofreciendo un enfoque diferente para refinar las salidas de imagen.

Una imagen vale más que mil palabras

Decrypt tuvo acceso a ImageFX y pudo comparar sus generaciones con MidJourney y Dall-E 3. Utilizamos la misma solicitud para todos los modelos y los resultados presentados a continuación en el mismo orden, de izquierda a derecha: primero es ImageFX, segundo es MidJourney y tercero es Dall-E 3.

Fotorrealismo:

Solicitud: Foto de un trader de criptomonedas con expresión preocupada

Comparación de generaciones para la consigna "Foto de un comerciante de criptomonedas con expresión preocupada"
De izquierda a derecha, generaciones por ImageFX, MidJourney y Dall-E 3.

Tanto ImageFX como MidJourney generaron resultados bastante realistas. Sin embargo, en términos de estilo, ImageFX parece fotorrealista, mientras que MidJourney parece un poco más hiperrealista, lo que significa que el primero es más fiel a la vida real, mientras que el segundo es más artístico, con colores saturados, bokeh exagerado, etc.

Dalle-3 no logra generar fotos. En su lugar, creó una representación en 3D centrada más en el contenido. Es más fácil decir que era un comerciante de criptomonedas debido a los gráficos en el fondo, pero definitivamente no era una foto.

Ilustraciones:

Consigna: Ilustración de un misterioso oso surfeando una ola cibernética

Comparación de generaciones para la ilustración de un misterioso oso surfeando una ola cibernética
De izquierda a derecha, generaciones por ImageFX, MidJourney y Dall-E 3.

Esta indicación fue un poco más abstracta para probar cómo los modelos interpretan ideas no convencionales. ImageFX y MidJourney generaron imágenes estéticamente más agradables, pero MidJourney parece más un renderizado que una ilustración, mientras que ImageFX intentó capturar la esencia de lo que podría ser una ola cibernética. En cambio, MidJourney asoció el término "cibernético" al oso. Dall-e 3 capturó la esencia de manera más cercana. Obviamente, era una ilustración y se asemeja al estético cibernético, pero la morfología del oso es incorrecta y la imagen carece de calidad en comparación con sus competidores.

Largo en lenguaje natural:

Prompt: Fotografía detallada de ciencia ficción de cerca de un misterioso experto en informática trabajando en una computadora portátil. Detrás de él, un agente del FBI espera capturarlo, toma amplia, fotorealista y compleja.

Comparación de generaciones para el prompt de un misterioso experto en informática trabajando en una computadora portátil con un agente del FBI esperando capturarlo
De izquierda a derecha, generaciones de ImageFX, MidJourney y Dall-E 3.

Para realizar esta comparación, se cambió el prompt de MidJourney a "fotografía detallada de ciencia ficción de cerca de un misterioso experto en informática trabajando en una computadora portátil con un agente del FBI detrás de él esperando capturarlo, toma amplia, fotorealista y compleja".

MidJourney se negó a generar imágenes bajo el primer prompt.

ImageFX generó una fotografía bonita y detallada respetando todos los detalles. MidJourney no generó a un experto en informática "misterioso". También se adhiere a su estilo característico con un bokeh excesivo y senderos de luz llamativos o gotas de lluvia en las diferentes generaciones. Este fue el mejor ejemplo, ya que el resto parecía representar a un astronauta, un marine ciberpunk o algo similar. Dall-E generó una imagen en la que todos los elementos de la indicación son reconocibles, el logotipo del FBI, el experto en informática misterioso, etc., pero no es una foto y la anatomía del hacker está mal hecha, con los típicos dedos de espagueti.

Texto en la imagen:

Indicación: Una ciudad futurista con un letrero de neón que dice "EMERGE by Decrypt"

Comparación de generaciones para la indicación Una ciudad futurista con un letrero de neón que dice "EMERGE by Decrypt"
De izquierda a derecha, generaciones por ImageFX, MidJourney y Dall-E 3.

Por lo general, el mejor generador de texto es Dall-e 3 con diferencia. Sin embargo, en este caso específico y bajo las condiciones establecidas por la metodología de comparación, no escribió correctamente el texto. ImageFX no pudo generar toda la frase, sus capacidades de generación de texto están ahí, pero probablemente son las menos impresionantes del grupo.

Dicho esto, Dall-E e ImageFX fueron los mejores en capturar la esencia de lo que es una ciudad futurista, mientras que MidJourney generó una ciudad estéticamente agradable, pero para nada futurista.

Conclusión

Los aficionados a la IA ahora están bendecidos con una joya entre los modelos de IA que satisfacen muchas necesidades. Con la mayoría ofrecidos de forma gratuita, no es necesario elegir ganadores, cada uno tiene un caso de uso específico que lo hace destacar.

ImageFX es el mejor de los tres si no quieres gastar dinero. También es el mejor en términos de fotorealismo.

MidJourney no es bueno respetando las indicaciones, pero es perfecto para aquellos que buscan imágenes estéticamente agradables.

Dall-E 3 es el mejor para principiantes que desean generar renders y no quieren ni siquiera pensar en la ingeniería de la consulta, palabras clave y parámetros, y en su lugar solo quieren hablar con su IA como si fuera solo otro amigo.

Así que si quieres una conclusión, solo podemos decir con gran placer que nos gustó mucho probar ImageFX.

Editado por Ryan Ozawa.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.