En Resumen

  • Google lanzó Imagen 3, su nuevo modelo de texto a imagen, que presume de capacidades mejoradas en la comprensión y ejecución de indicaciones complejas.
  • Imagen 3 genera imágenes con detalles mejorados, una iluminación más rica y menos artefactos molestos que sus modelos anteriores.
  • Google implementó procesos de filtrado y etiquetado de datos para minimizar el contenido dañino y ha integrado SynthID, una herramienta de marca de agua, en Imagen 3.

Google está poniendo la cereza al pastel en una semana ocupada en el espacio de la IA generativa con el lanzamiento de Imagen 3, su nuevo modelo de texto a imagen. Este lanzamiento se basa en el éxito de Imagen 2, presentado en diciembre de 2023, el cual ya rivalizaba con pesos pesados de la industria como Dall-E 3 y MidJourney v5.

Imagen 3, anunciado originalmente en mayo, presume de capacidades mejoradas en la comprensión y ejecución de indicaciones complejas, generando imágenes con detalles mejorados y una mejor adherencia a las indicaciones en comparación con su predecesor. Es bastante versátil, produciendo buenos resultados que van desde el fotorrealismo hasta el arte y composiciones en 3D.

"Imagen 3 es nuestro modelo de texto a imagen de mayor calidad, capaz de generar imágenes con incluso más detalle, una iluminación más rica y menos artefactos molestos que nuestros modelos anteriores", dijo Google en su anuncio.

Las mejoras en la descripción de Imagen 3 permiten a los usuarios describir imágenes deseadas en lenguaje natural sin necesidad de una ingeniería de prompts compleja. El entrenamiento del modelo también incorporó leyendas de imágenes más ricas, lo que le permite capturar detalles sutiles como ángulos de cámara específicos o composiciones y prompts de texto largo cuando sea necesario.

El gigante tecnológico ha puesto un énfasis particular en las capacidades mejoradas de renderizado de texto de Imagen 3. Aunque notablemente mejoradas, nuestras pruebas iniciales muestran que sus capacidades no están del todo a la par de otros modelos como Dall-E 3, Auraflow, o Flux.

Generaciones por Imagen 3 y Grok 2 usando el mismo prompt

Google también ha destacado su compromiso con la seguridad y la responsabilidad en el desarrollo e implementación de Imagen 3. La empresa implementó lo que describió como procesos de "filtrado extenso y etiquetado de datos" para minimizar el contenido dañino en los conjuntos de datos de entrenamiento del modelo. Además, Google dijo que realizó evaluaciones exhaustivas para identificar y corregir posibles vulnerabilidades.

También es importante tener en cuenta que Imagen 3 integra SynthID, la herramienta de marca de agua de Google. SynthID incrusta una firma digital directamente en los píxeles de las imágenes generadas. Esta marca de agua es imperceptible para el ojo humano pero detectable por software especializado, proporcionando un medio para identificar contenido generado por IA.

Actualmente, Imagen 3 está disponible a través de la plataforma ImageFX de Google y Vertex AI.

Mirando hacia el futuro, Google planea introducir funciones de edición populares de Imagen 2, como inpainting (edición de elementos en la imagen) y outpainting (expansión), en Imagen 3 en los próximos meses. La compañía también ha anunciado su intención de ampliar la disponibilidad de Imagen 3 en todo su ecosistema de productos, incluida la integración en la aplicación Gemini, Google Workspace y Google Ads.

Este lanzamiento es parte de una estrategia más amplia de Google que tiene como objetivo incorporar Gemini y la tecnología de IA en prácticamente todos sus servicios y hardware. Esta semana, la empresa presentó su nueva línea de Pixel 9, que fue diseñado con capacidades de IA en su núcleo. Los nuevos teléfonos Pixel pueden manejar ciertas tareas de IA generativa localmente, incluidas tareas basadas en texto y generaciones de imágenes pequeñas.

La publicación de Imagen 3 llega en medio de una oleada de actividad en el espacio de generación de imágenes de IA. Recientemente, xAI de Elon Musk presentó Grok 2, con el generador de imágenes Flux.1, el cual ha llamado la atención por su capacidad para producir imágenes altamente realistas y sin censura junto con sólidas capacidades de generación de texto.

Mientras tanto, MidJourney, otro actor clave en el campo, anunció una próxima actualización v6.2 a su modelo. La compañía también insinuó el desarrollo de MidJourney v7, el cual está programado para lanzarse en los próximos meses. Ideogram, otro contendiente en el campo de la generación de imágenes de IA, también ha insinuado una próxima actualización a su modelo. Finalmente, la Iniciativa de Modelo Abierto ha elegido Flux.1 como base para desarrollar su modelo de generación de imágenes de código abierto de última generación.

Editado por Ryan Ozawa.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.