En Resumen

  • Ideogram AI presentó Ideogram 2.0, la próxima generación de su modelo de texto a imagen, que busca desafiar a los actores establecidos en el espacio de la IA generativa.
  • Ideogram 2.0 supera a otros modelos en métricas de calidad como la alineación imagen-texto, la preferencia subjetiva general y la precisión de renderizado de texto.
  • La empresa también lanzó una aplicación para iOS y una API para desarrolladores, junto con nuevas funciones como cinco ajustes preestablecidos y una paleta de colores para mayor control estético.

Ideogram AI presentó Ideogram 2.0. La próxima generación de su modelo de texto a imagen que tiene como objetivo desafiar la dominancia de los actores establecidos en el espacio de la IA generativa.

El lanzamiento llega solo días después de la tan esperada implementación de Flux.1 como el generador de imagen principal para Grok en X (también conocido como Twitter), un movimiento que ha solidificado la posición de Flux.1 como un contendiente poderoso y versátil en la era post-Stable Diffusion XL (SDXL). Los modelos abiertos que compiten por la supremacía incluyen Auraflow, KwaiKolors, Hunyuan, Lumina y Kandinsky 3.

"Ideogram 2.0 supera significativamente a otros modelos de texto a imagen en muchas métricas de calidad, incluyendo la alineación imagen-texto, la preferencia subjetiva general y la precisión de renderizado de texto," dijo la empresa en su anuncio oficial.

Junto con el nuevo modelo, Ideogram también lanzó un nuevo conjunto de funciones para hacer que toda su suite sea más competitiva. Estas incluyen una aplicación para iOS y una API para desarrolladores.

Fundado por exalumnos de Google, Ideogram ha sido reconocido durante mucho tiempo por su trabajo pionero en la incorporación de capacidades de generación de texto en sus modelos de imagen. Fue el primer modelo en hacerlo, junto con un experimento menos conocido de Stability AI llamado Deep Floyd IF.

Imagen generada por Ideograma usando Ideograma 2.0
Imagen: Ideogram

Con el lanzamiento de Ideogram 2.0, la empresa ha aumentado la calidad general de las salidas de su modelo, haciéndolo más rápido, más capaz y versátil gracias a una nueva opción para cinco ajustes preestablecidos diferentes: realismo, dibujo, 3D, anime y una implementación de propósito general.

La actualización también introduce una paleta de colores para dar a los usuarios más control sobre la estética y la composición.

El estilo "Realista" en Ideogram 2.0 permite a los usuarios crear imágenes que parecen fotografías reales. "Las texturas están significativamente mejoradas, y la piel humana y el cabello parecen realistas", dice Ideogram. Por otro lado, el ajuste "Diseño" se centra en la generación precisa y artística de texto. "Esto te permite crear diseños gráficos premium para tarjetas de felicitación, impresión bajo demanda, carteles, ilustraciones y contenido de marketing y redes sociales con texto largo y estilizado", cita el anuncio.

Además de estos dos estilos, el ajuste preestablecido "3D" se centra en generar imágenes que imitan un renderizado de computadora, mientras que el ajuste preestablecido "Anime" se presenta como un fuerte competidor contra el estilo Niji de MidJourney para creaciones inspiradas en manga japonés, y el ajuste preestablecido "General" es una configuración versátil para adaptar la salida a los prompts.

Las reacciones iniciales de los usuarios en redes sociales han sido en general bastante positivas, con muchos compartiendo sus creaciones generadas por Ideogram que muestran las notables habilidades del modelo en realismo y renderizado de personalidades famosas. Nuestras primeras pruebas fueron satisfactorias, especialmente al utilizar el ajuste preestablecido como "Realismo", que a primera vista parece igualar el rendimiento de Flux.1.

Imágenes generadas por Decrypt utilizando el mismo prompt en Ideogram y Flux Schnell NF4 4 Steps

Sin embargo, esta puede no ser la mejor opción para los usuarios avanzados que desean probarlo de forma gratuita. La versión gratuita de Ideogram 2.0 viene con un límite diario de 20 imágenes (cinco lotes de cuatro imágenes), con planes pagos que comienzan en $8 al mes, y un plan de generaciones lentas ilimitadas con un precio de $20 al mes. Sin embargo, sigue siendo competitivo frente a MidJourney, que solicita $10 por su nivel más bajo y $30 al mes por generaciones lentas ilimitadas.

Las ofertas de Ideogram están posicionadas como una alternativa más accesible a MidJourney, ya que las capacidades de procesamiento de lenguaje natural del modelo permiten una experiencia de prompt más intuitiva y simplificada similar a la que ChatGPT ofrece con Dall-E 3, y en contraste con la dependencia de MidJourney en el estilo tradicional de prompts de "SDXL" con palabras clave y comandos específicos.

Si el dinero no es un problema, los usuarios pueden querer evaluar las características sobre la calidad de salida, ya que ambos modelos son bastante competitivos. MidJourney ofrece una función de personalización muy potente que permite a los usuarios crear su propio estilo. También cuenta con un editor de imágenes bastante capaz que hace posible ajustar las generaciones con niveles de control bastante altos.

Por otro lado, Ideogram 2.0 brinda a los usuarios mucho control sobre sus generaciones sin tener que depender de la ingeniería de prompt o de herramientas adicionales como Style Transfer, LoRAs o IPAdapter. Las opciones de paleta de colores y los preajustes pueden ser una excelente manera de obtener resultados personalizados, especialmente para nuevos usuarios.

Editado por Ryan Ozawa.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.