En Resumen

  • Stability AI anunció la vista previa de Stable Diffusion 3 (SD3), su "modelo de texto a imagen más capaz" hasta la fecha.
  • Las mejoras principales de SD3 incluyen una mejor generación de texto y una fuerte adherencia a los prompts, garantizando imágenes coincidentes.
  • La comunidad de IA ha respondido entusiásticamente a las noticias sobre SD3, destacando su superioridad frente a competidores como MidJourney y Google ImageFX.

Stability AI acaba de anunciar la vista previa de su herramienta de imagen de próxima generación, Stable Diffusion 3 (SD3), calificándola como su "modelo de texto a imagen más capaz" hasta la fecha. El anuncio es un sólido seguimiento al lanzamiento de Stable Diffusion XL (SDXL) el año pasado, que rápidamente se estableció como el generador de imágenes de código abierto más avanzado.

Las mejoras principales entregadas con SD3 son una mejor generación de texto, una fuerte adherencia a prompts complejos  y resistencia a la distinción entre múltiples elementos de una generación, estas últimas fortalezas aseguran que las imágenes generadas coincidan con lo solicitado. Stability AI también ha destacado el soporte de SD3 para la entrada multimodal, prometiendo demostrarlo a través de un futuro informe técnico.

La comunidad de inteligencia artificial ha respondido con entusiasmo a las noticias sobre SD3.

"Este generador de imágenes de IA es el mejor que hemos visto en términos de comprensión de la indicación y generación de texto", dijo MattVidPro, un destacado YouTuber centrado en IA. "Está muy por encima del resto, y es realmente asombroso".

De manera similar, el ingeniero de Machine Learning Ralph Brooks dijo que las capacidades de generación de texto del modelo eran “increíbles”.

Comparación lado a lado

Aunque Stable Diffusion 3 solo está disponible para socios selectos en este momento, Stability AI y los entusiastas de la IA están compartiendo comparaciones entre sus generaciones y el resultado de prompts similares con SDXL, MidJourney y Dall-E 3. Por lo que se puede ver, SD3 supera a sus competidores en calidad general, y Decrypt realizó algunas pruebas propias para verificar esto. Los resultados hablan por sí mismos:

SD3 vs MidJourney

Prompt: “Épica obra de arte de anime de un mago en la cima de una montaña por la noche lanzando un hechizo cósmico al cielo oscuro que dice ‘Stable Diffusion 3’ hecho de energía colorida.”

Stable Diffusion 3 (izquierda) vs MidJourney (derecha) usando la misma indicación. Imagen: Decrypt

En nuestra primera comparación, SD3 siguió muy de cerca la indicación. MidJourney falló en la adherencia al prompt, no generó una montaña y el mago no estaba lanzando un hechizo cósmico.

SD3 vs ImageFX

Prompt: “Foto de un ordenador de escritorio de los años 90 en un escritorio de trabajo. En la pantalla del ordenador dice ‘bienvenido’. En la pared de fondo vemos un hermoso graffiti con el texto ‘SD3’ muy grande en la pared.”

Stable Diffusion 3 (izquierda) vs ImageFX (derecha) utilizando la misma indicación. Imagen: Decrypt

En nuestra segunda comparación, SD3 siguió la indicación con una adhesión notable, mientras que el generador de imágenes IA de Google, ImageFX, generó el texto SD3 en la pantalla del ordenador y no en el fondo, sin atender la solicitud de estilo de graffiti y sin representar la palabra “bienvenido [welcome]”.

Las estéticas generadas por SD3 también se asemejan más a una fotografía y menos a una representación obviamente "fotorrealista". Observa los efectos que rodean el portabolígrafos y otros elementos, que parecen fundirse con el fondo.

SD3 vs SDXL

Prompt: “Descansando sobre la mesa de la cocina hay un paño bordado con el texto ‘buenas noches’ y un bebé tigre bordado. Junto al paño hay una vela encendida. La iluminación es tenue y dramática.”

Stable Diffusion 3 (izquierda) vs SDXL (derecha) utilizando el mismo prompt. Imagen: Decrypt

En nuestra tercera comparación, tanto Stable Diffusion 3 como Stable Diffusion XL capturaron la esencia del prompt, pero SDXL falló en generar el texto, sufrió de fugas (generando dos paños, uno de los cuales se transformó en otra cosa), y el bebé tigre bordado fue generado de manera más precisa por SD3.

SD3 vs Dall-e 3

Prompt: Pintura de un astronauta montando un cerdo con un tutú sosteniendo un paraguas rosa, en el suelo junto al cerdo hay un petirrojo con un sombrero de copa, en la esquina están las palabras ‘Stable Diffusion’.

Stable Diffusion 3 (izquierda) vs Dall-e 3 (derecha) utilizando el mismo estímulo. Imagen: Decrypt

Stable Diffusion 3 generó lo que se solicitó en el prompt, mientras que Dall-e 3 no logró generar texto, creó un renderizado en 3D en lugar de una pintura, y generó un fondo de galaxia solo porque se le pidió generar un astronauta.

Bajo el capó

En teoría, Stable Diffusion 3 debería tener suficiente potencia informática para respaldar sus afirmaciones de poder y destreza.

“(SD3) utiliza un nuevo tipo de transformador de difusión (similar a Sora) combinado con coincidencia de flujo y otras mejoras,“ dijo Emad Mostaque, CEO de Stability AI, en Twitter. Sora es el generador de texto a video de última generación anunciado por OpenAI hace unos días. Mientras tanto, Flow Matching, es una técnica de IA para modelado generativo basada en un entrenamiento e inferencia más rápidos y estables que los métodos alternativos, como las redes generativas adversariales (GANs).

Stability AI afirma que estas mejoras aumentan la escalabilidad del modelo y su capacidad para aceptar entradas multimodales, y también allanan el camino para su aplicación en video, 3D y más. Mostaque tuiteó que su visión para SD3 incluye un ecosistema integral de herramientas diseñadas para aprovechar los últimos avances en hardware, al mismo tiempo que siguen siendo accesibles y adaptables en diversos dominios creativos.

Una semana antes del anuncio de SD3, Stability AI lanzó Stable Cascade. A diferencia de sus predecesores, Stable Cascade se basa en la arquitectura Würstchen, conocida por su modularidad y logros en compresión de registros. A pesar de albergar más parámetros que Stable Diffusion XL, Stable Cascade presume de tiempos de inferencia más rápidos y una alineación de indicaciones superior, mostrando los avances innovadores que Stability AI continúa realizando en el desarrollo de IA.

Aunque Stable Diffusion 3 aún no está disponible públicamente, Stability AI enfatizó que sería gratuito, de código abierto y disponible para todos bajo una licencia no comercial. Sin embargo, los entusiastas pueden solicitar acceso previo como parte del programa de membresía.

Editado por Ryan Ozawa.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.