6 min lectura
Illustrious, un modelo de texto a imagen basado en Stable Diffusion XL, se ha vuelto tan dominante en la comunidad de arte de IA que Civitai, el mayor centro de modelos de arte de IA, tuvo que crear una categoría separada solo para manejar su enorme ecosistema de recursos.
Y todo sucedió en tres meses. ¿El secreto detrás de su éxito? Un regreso a lo básico con un giro.
Mientras que modelos más nuevos como SD 3.5 y Flux se basan en prompts largos de lenguaje natural, Onoma AI, los desarrolladores de Illustrius, tomaron un enfoque diferente al aprovechar las etiquetas Danbooru para ayudar a su modelo a comprender conceptos sin tener que reinventar la rueda con sistemas de subtitulado complejos.
El entrenamiento del modelo en la vasta biblioteca de imágenes de anime etiquetadas de Danbooru le otorga una ventaja en la comprensión de conceptos visuales.
Cada etiqueta en el sistema Danbooru representa elementos específicos como rasgos de personajes, prendas de vestir, poses o fondos, lo que permite un control preciso sobre las imágenes generadas sin desperdiciar tokens preciosos en descripciones largas.
Estas etiquetas han estado presentes durante años y se han convertido en una especie de estándar para la categorización de imágenes entre los entusiastas del arte/anime.
El modelo es altamente preciso y eficiente cuando se trata de entender las características de una foto.
"Es como tener un artista que comprende exactamente lo que deseas sin tener que explicarlo en párrafos", dijo Vishnu, un miembro de Discord que participa en un servidor centrado en contenido de IA para adultos, a Decrypt. "Solo necesitas conocer las etiquetas correctas."
En su núcleo, Illustrious utiliza la buena y vieja arquitectura SDXL con un sofisticado sistema de doble codificador que combina CLIP ViT-L y OpenCLIP ViT-bigG para comprender palabras y asociarlas con su equivalente visual.
El modelo es capaz de procesar y generar imágenes a una impresionante resolución de 1.536×1.536, con la capacidad de ampliarse hasta 2.048×2.048 e incluso 3.744x3.744 sin una pérdida significativa de calidad.
Para contextualizar, el SDXL original manejaba resoluciones Full HD (1.024x1.024).
El proceso para crear Illustrious fue metódico y deliberado. La fase de entrenamiento inicial, que produjo la versión 0.1, procesó 7,5 millones de imágenes a una resolución de 1.024×1.024 con un tamaño de lote de 192 imágenes por lote.
El equipo equilibró cuidadosamente las tasas de aprendizaje, ejecutando durante 20 epochs o épocas (el proceso en el que la IA estudia el 100% de su conjunto de datos) para establecer una base sólida. Una vez que los resultados fueron lo suficientemente satisfactorios, el equipo procedió a aumentar el tamaño del conjunto de datos y las resoluciones utilizadas para las siguientes iteraciones.
En la fase avanzada de entrenamiento, Illustrious realmente comenzó a brillar. La versión 1.0 amplió el conjunto de datos a 10 millones de imágenes y aumentó la resolución a 1.536×1.536.
Aunque redujeron el tamaño del lote a 128, introdujeron estrategias sofisticadas de manipulación de etiquetas y tokens de registro, cambios fundamentales que definieron el rendimiento excepcional del modelo.
La fase final de refinamiento para la versión 2.0 llevó las cosas un poco más lejos. Trabajando con 20 millones de imágenes en la misma alta resolución, pero con un tamaño de lote más grande de 512, el equipo incorporó un método multi-caption que mejoró drásticamente la correspondencia texto-imagen.
El resultado fue el mejor generador de waifu conocido por el hombre, con buenas capacidades de ajuste fino, adhesión al prompt, estética decente y salidas de alta calidad.
Para los más entendidos en tecnología, los desarrolladores de Illustrious también introdujeron muchas técnicas interesantes como el enfoque de "Token sin deserción" o “No Dropout Token”, asegurando que tokens específicos nunca sean excluidos durante el entrenamiento; la implementación de "Quasi-Register Tokens", para que el modelo sea capaz de manejar conceptos desconocidos o extraños; un Cosine Annealing Scheduler, para la tasa de aprendizaje; un sistema de Multi-Level Dropout system and Input Perturbation Noise Augmentation, para convertir un modelo de IA simple en una potencia.
Illustrious no necesita pasos adicionales para ejecutarse.
El proceso de instalación es el mismo que con cualquier otro Modelo SDXL. Descarga el punto de control y colócalo en la carpeta correspondiente, dependiendo de qué interfaz de usuario uses.
Windows y Linux
MacOS
Los usuarios de Mac tienen rutas similares. Sin embargo, algunas interfaces de usuario populares orientadas a macOS requieren pasos adicionales.
Una vez que el modelo esté cargado, hay tres cosas a considerar.
Hay muchos modelos para elegir, todos enfocados en diferentes estilos, estéticas y características.
Incluso hay modelos generales como los de Noob AI que utilizaron Illustrious como base y están siendo utilizados por afinadores para construir sus modelos.
Sin embargo, aquí están nuestras mejores opciones para diferentes necesidades. Estos son excelentes en comprensión de prompts, calidad de salida y facilidad de uso. Todas las muestras son de la comunidad de Civit AI y son de libre uso.
Enlace: Mistoon_Anime - v1.0 Illustrious | Punto de control Illustrious | Civitai
Enlace: Smooth Mix - Illustrious | Pony - Illustrious | Illustrious Checkpoint | Civitai
Enlace: NTR MIX | illustrious-XL | Noob-XL - XIII | Illustrious Checkpoint | Civitai
THRILLustrious - v5.0 Emocionado | Punto de control ilustre | Civitai
Editado por Sebastian Sinclair y Josh Quittner
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.