Stable Diffusion 3.5: Stability AI se Redime con Nuevos Modelos y Funciones Mejoradas

Después de su tropiezo con Stable Diffusion 3 Medium, Stability AI está de vuelta en camino con Stable Diffusion 3.5, ofreciendo modelos personalizables que son sin censura, rápidos y accesibles para todos.

Por Jose Antonio Lanz

9 min lectura

Stability AI podría estar comenzando su propio arco de redención. Después de la decepción que fue SD3 Medium, han vuelto con fuerza con el lanzamiento de dos nuevos modelos que habían sido prometidos en julio: Stable Diffusion 3.5 Large y Stable Diffusion 3.5 Large Turbo.

"En junio, lanzamos Stable Diffusion 3 Medium, la primera versión abierta de la serie Stable Diffusion 3. Esta versión no cumplió completamente con nuestros estándares ni con las expectativas de nuestras comunidades", dijo Stability en una entrada de blog oficial. "Después de escuchar los valiosos comentarios de la comunidad, en lugar de una solución rápida, nos tomamos el tiempo para desarrollar aún más una versión que avanza en nuestra misión de transformar los medios visuales."

Generamos algunas imágenes para probarlo antes de apresurarnos a escribir esta noticia de última hora, y los resultados fueron bastante buenos. Especialmente para un modelo base.

El SD 3.5 family está diseñado para funcionar en sistemas de consumo, incluso de gama baja según algunos estándares, lo que hace que la generación de imágenes avanzada sea más accesible que nunca. Y sí, han escuchado las quejas sobre la versión anterior, por lo que esta promete ser mucho mejor, tanto que su imagen destacada es una mujer acostada en el césped, una referencia irónica a los errores que mostró anteriormente al enfrentarse al mismo desafío.

Imagen: Stability AI

Otro aspecto importante de este lanzamiento es el nuevo modelo de licencia. Stable Diffusion 3.5 se rige por una licencia más permisiva, que permite tanto el uso comercial como no comercial. Las pequeñas empresas y las personas que generan menos de $1.000.000 en ingresos con la herramienta pueden usar y desarrollar estos modelos de forma gratuita.

Aquellas personas con mayores ingresos deben contactar a Stability para negociar tarifas. En comparación, Black Forest Labs ofrece su modelo de gama baja Flux Schnell de forma gratuita, su modelo intermedio Flux Dev de forma gratuita para uso no comercial y su modelo SOTA Flux Pro que es un modelo de código cerrado. (Para referencia, Flux generalmente se considera el mejor generador de imágenes de código abierto actualmente disponible, al menos en la era post-SDXL actual.)

¿Qué ofrece Stable Diffusion 3.5?

Stability AI está lanzando tres versiones de Stable Diffusion 3.5, cada una adaptada a diferentes necesidades:

  • Stable Diffusion 3.5 Large: Este es el más grande, con 8 mil millones de parámetros diseñados para ofrecer una calidad de imagen de primera y una estricta adherencia al prompt. Está hecho para uso profesional, especialmente a una resolución de 1 megapíxel, pero puede manejar una variedad de estilos y formatos visuales.

  • Stable Diffusion 3.5 Large Turbo: Para aquellos que desean sacrificar un poco de calidad por velocidad, esta versión destilada del modelo Large es la indicada. Produce imágenes de alta calidad en solo cuatro pasos, a diferencia del SD3.5 normal que requiere alrededor de 30 pasos para generar una imagen de buena calidad. Sería equivalente a Flux Schell.

  • Stable Diffusion 3.5 Medium: Este modelo que será lanzado proximamente, cuenta con 2.5 mil millones de parámetros y está optimizado para hardware de consumo. Es el punto intermedio para usuarios que necesitan un rendimiento sólido en resoluciones entre 0.25 y 2 megapíxeles, sin sacrificar la facilidad de personalización.

Los modelos son mucho más flexibles, permitiendo a los usuarios ajustarlos para necesidades creativas específicas. Y si te preocupa si tu GPU de consumo puede manejar esto, Stability AI te respalda. Nuestras pruebas muestran que el Large Turbo genera imágenes en aproximadamente 40 segundos en una modesta RTX 2060 con 6GB de VRAM.


La versión completa sin cuantificar necesita más de 3 minutos en el mismo hardware de gama baja, pero ese es el precio de la calidad.

Mejoras bajo el capó

Stability AI está tratando de ponerse al día con Flux, que es el modelo preferido para la personalización. Para mejorar la experiencia del usuario, Stability reimaginó cómo se comporta SD 3.5. “Al desarrollar los modelos, priorizamos la personalización para ofrecer una base flexible sobre la cual construir. Para lograr esto, integramos la Normalización de Consulta-Clave en los bloques transformadores, estabilizando el proceso de entrenamiento del modelo y simplificando aún más el ajuste fino y el desarrollo,” dijo Stability.

En otras palabras, puedes ajustar y refinar estos modelos mucho más fácilmente que antes, ya sea que seas un artista que desee crear estilos personalizados o un desarrollador que busque construir una aplicación impulsada por IA. Stability incluso compartió una guía de entrenamiento de Lora para ayudar a que las cosas se pongan en marcha mucho más rápido.

LoRA (adaptación de rango bajo) es una técnica para ajustar modelos y especializarlos en un concepto específico, ya sea un estilo o un tema, sin tener que volver a entrenar todo el modelo base grande.

Pie de foto: La misma generación sin LoRA vs usando LoRA para agregar más detalles. Imagen: Civitai

Por supuesto, conla  flexibilidad vienen algunos compromisos. El modelo es ahora tan creativo que Stability advierte que "los prompts que carecen de especificidad pueden llevar a una mayor incertidumbre en la salida, y el nivel estético puede variar".

Si aún estás indeciso sobre Stable Diffusion 3.5 y su "incertidumbre" te aleja, aquí tienes un poco de futuro seguro: admite "prompts negativos", lo que significa que tu prompt puede incluir instrucciones no hacer cosas. Esto es una gran ventaja para aquellos que desean refinar la generación de texto e imágenes sin complicaciones.

Es una buena adición para aquellos que desean un poco más de control sobre sus generaciones. Además, parece ser bastante bueno manejando el buen y viejo estilo SDXL de promoción. De hecho, en ciertos aspectos, el estilo de promoción de SD3.5 se asemeja más a MidJourney que a Flux, permitiendo a los usuarios ser creativos sin necesidad de una licenciatura en lingüística.

Más allá de la personalización, la versión 3.5 de Stable Diffusion avanza en otras áreas:

  • Adherencia al prompt: El modelo Large ahora compite incluso con modelos mucho más grandes en cuanto a lo bien que sigue la entrada del usuario, y lidera en el mundo de los generadores de imágenes. Tanto que la Stability asegura que SD 3.5 Large supera a Flux.1 Dev en términos de adherencia al prompt, aunque aún no en calidad estética.

Imagen: Stability AI

  • Calidad de imagen: Estamos hablando de generar imágenes que se mantengan al nivel de algunos de los modelos más exigentes, sin agotar la memoria de tu GPU. En las pruebas de Stability, Flux.1 Dev es el rey por un poco, sin embargo, SD 3.5 Large es más eficiente y menos exigente en recursos. SD 3.5 Large Turbo es comparable a Flux.1 Schnell tanto en adherencia como en calidad.

  • Versatilidad de estilo: Ya sea que estés buscando renders en 3D, imágenes fotorrealistas, arte lineal o estilos de pintura, Stable Diffusion 3.5 puede llevarlo a cabo. Maneja una gama más amplia de estilos que Flux, al menos en nuestras pruebas rápidas.

Y sí, vale la pena mencionarlo: es sin censura. SD3.5 Large puede producir ciertos tipos de contenido, incluida la desnudez, sin demasiada dificultad, aunque no es perfecto. Para bien o para mal, el modelo no está restringido a propósito, por lo que ofrece a los usuarios total libertad creativa (aunque puede ser necesario ajustar y crear algunos prompts específicos para obtener los mejores resultados).

Esto fue fuertemente criticado cuando se lanzó SD3 y se señaló como una de las principales razones por las que falló tanto en la comprensión de la anatomía. Podríamos confirmar su capacidad para generar imágenes para adultos, sin embargo, el modelo no está al mismo nivel que los mejores ajustes finos de Flux aunque es comparable a los modelos originales de Flux.

Pero una advertencia: aunque SD3.5 sea potente, los artistas Furry de contenido para adultos no deberían esperar un Modelo de Difusión de Ponis próximamente—o en absoluto. El creador del modelo para adultos más popular y potente confirmó que no está interesado en desarrollar un ajuste fino de SD3.5. En su lugar, eligió construir sus modelos usando Auraflow como base. Una vez que terminen, pueden considerar Flux.

Para los entusiastas, ComfyUI ahora es compatible con Stable Diffusion 3.5, lo que permite inferencia local con flujos de trabajo basados en nodos de firma. Hay muchos ejemplos de flujos de trabajo listos para usar, y si tienes problemas con la RAM pero deseas probar la experiencia completa de SD3.5, Comfy lanzó un modelo experimental fp8-scaled que reduce el uso de memoria.

¿Qué sigue?

El 29 de octubre, tendremos en nuestras manos Stable Diffusion 3.5 Medium, y poco después, Stability prometió lanzar Control Nets para SD 3.5.

ControlNets prometen llevar funciones de control avanzadas, diseñadas para casos de uso profesionales, y podrían llevar la potencia de SD3.5 al siguiente nivel. Si deseas saber más sobre ellos, puedes leer un resumen de nuestra guía breve para SD 1.5. Sin embargo, el uso de controlnets permitirá a los usuarios hacer cosas como elegir la pose de su sujeto, jugar con mapas de profundidad, reimaginar una escena basada en un garabato y más.

Imagen original vs Generación usando un controlnet para influir en la pose del sujeto. Crédito: Jose Lanz

Entonces, ¿Stable Diffusion 3.5 será el asesino de Flux? No del todo, pero definitivamente está empezando a parecer un contendiente. Algunos usuarios seguirán detalles, especialmente después del drama del fracaso de SD3 Medium. Pero con un mejor manejo de la anatomía, una licencia más clara y mejoras significativas en la adherencia a los comandos y la calidad de salida, es difícil argumentar que este no es un gran avance. La inteligencia artificial de Stability está aprendiendo de errores pasados y avanzando hacia un futuro donde las herramientas de IA avanzada sean más accesibles para todos.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados