En Resumen

  • Stable Diffusion abre nuevas fronteras en la creación de imágenes realistas con IA, permitiendo la generación de paisajes, retratos y criaturas en 3D.
  • Los modelos como Juggernaut Rborn y RealVisXL ofrecen resultados sorprendentes, capturando detalles como expresiones faciales y texturas de manera excepcional.
  • Con consejos profesionales y una amplia gama de modelos disponibles, la creatividad florece en la generación de imágenes hiperrealistas con Stable Diffusion.
Cómo hacer IA: Una serie de Decrypt

¿Estás listo para difuminar la línea entre la realidad y el arte generado por IA?

Si sigues el espacio de la IA generativa, y la generación de imágenes en particular, es probable que estés familiarizado con Stable Diffusion. Esta plataforma de IA de código abierto ha encendido una revolución creativa, empoderando a artistas y entusiastas por igual para explorar los reinos de la creatividad humana, todo en sus propias computadoras, de forma gratuita.

Con cualquier indicación simple, puedes obtener un paisaje pintoresco, una ilustración de fantasía, una criatura en 3D o un dibujo animado. Pero las capacidades realmente sorprendentes están en la habilidad de estas herramientas para crear imágenes sorprendentemente realistas.

AD

Sin embargo, para hacerlo se requiere cierta destreza, y cierta atención al detalle que a veces carecen los modelos generalistas. Algunos usuarios ávidos pueden darse cuenta rápidamente cuando una imagen es generada con MidJourney o Dall-e solo con mirarla. Pero cuando se trata de crear imágenes que engañen al cerebro humano, la versatilidad de Stable Diffusion es insuperable.

Desde el manejo meticuloso del color y la composición hasta la capacidad asombrosa de transmitir emoción y expresión humana, algunos modelos personalizados están redefiniendo lo que es posible en el mundo de la IA generativa. Aquí hay algunos modelos especializados que creemos son la crème de la crème de la generación de imágenes hiperrealistas con Stable Diffusion.

Utilizamos el mismo prompt con todos nuestros modelos y evitamos usar modificadores de adaptación de bajo rango (LoRas, por sus siglas en inglés) para ser más justos en nuestras comparaciones. Nuestros resultados se basaron en el prompt y en la inserción de texto. También realizamos cambios incrementales para probar pequeñas variaciones en nuestras generaciones.

Los prompts

Nuestro prompt positivo fue: fotografía profesional, retrato en primer plano de un hombre caucásico, con suéter negro, rostro serio, iluminación dramática, naturaleza, clima sombrío, nublado, bokeh.

AD

Nuestro prompt negativo (instruyendo a Stable Diffusion sobre lo que no queriamos generar) fue: embedding:BadDream, embedding:UnrealisticDream, embedding:FastNegativeV2, embedding:JuggernautNegative-neg, (deformed iris, deformed pupils, semi-realistic, cgi, 3d, render, sketch, cartoon, drawing, anime:1.4), text, cropped, out of frame, worst quality, low quality, jpeg artifacts, ugly, duplicate, morbid, mutilated, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, blurry, dehydrated, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck, embedding:negative_hand-neg.

En términos generales en español dice algo como: dedos extras, malas porporciones, cuellos largos,manos mutantes, brazos extras.

Todos los recursos utilizados se listarán al final de este artículo.

Stable Diffusion 1.5: el veterano de la IA que envejece con gracia

Stable Diffusion 1.5 es como un buen y antiguo "muscle car" americano (como los que maneja Dominic Toretto en Rápido y Furioso) que venció a autos más elegantes y de último modelo en una carrera de arrastre. Los desarrolladores han estado jugando con SD 1.5 durante tanto tiempo que efectivamente enterraron a Stable Diffusion 2.1 en el suelo. De hecho, muchos usuarios hoy en día todavía prefieren esta versión sobre SDXL, que es dos generaciones más nueva.

Cuando se trata de crear imágenes que son virtualmente indistinguibles de fotos de la vida real, estos modelos son tus nuevos mejores amigos.

1. Juggernaut Rborn

Juggernaut Rborn es un modelo favorito entre los fans conocido por su composición de color realista y su impresionante capacidad para diferenciar entre sujetos y fondos. Este modelo es particularmente bueno para generar detalles de piel de alta calidad, cabello y efectos de bokeh en retratos.

La última versión ha sido ajustada para ofrecer resultados aún más convincentes. Juggernaut siempre ha ofrecido composiciones de color que tienden a ser más realistas que los colores saturados y poco naturales de muchos otros modelos de Stable Diffusion. Sus generaciones tienden a ser más cálidas, más deslavadas, similares a una foto RAW sin editar.

Para obtener los mejores resultados aún se requerirá cierta configuración: use el muestreador DPM++ 2M Karras, configurado en alrededor de 35 pasos, y una escala de CFG promedio de 7.

AD

2. Visión Realista v5.1

Un verdadero pionero en el ámbito de la generación de imágenes fotorrealistas, Realistic Vision v5.1 marcó un momento crucial en la evolución de Stable Diffusion, permitiéndole competir contra MidJourney y cualquier otro modelo en cuanto a fotorrealismo. La iteración v5.1 destaca en la captura de expresiones faciales e imperfecciones, lo que la convierte en la opción preferida de los entusiastas del retrato. También maneja las emociones de manera excelente y se enfoca más en el sujeto que en el fondo, asegurando que el resultado final sea siempre realista. Este modelo es una elección popular gracias a su impresionante rendimiento y versatilidad.

Aunque existe una versión más reciente (v6.0), preferimos la V5.1 porque creemos que sigue siendo mejor en los pequeños detalles que importan en las imágenes realistas. Cosas como la piel, el cabello o las uñas tienden a ser más convincentes en la 5.1, pero aparte de eso, los resultados son similares y las mejoras parecen incrementales.

3. No Puedo Creer Que No Sea Fotografía

Con su versatilidad e impresionantes efectos de iluminación, el modelo burlonamente llamado No Puedo Creer Que No Sea Fotografía es una excelente opción general para la generación de imágenes hiperrealistas. Es muy creativo, maneja bien diferentes ángulos y puede ser utilizado para una variedad de temas, no solo personas.

Este modelo es particularmente bueno en una resolución de 640x960, que es mayor que la SD1.5 original, pero también puede ofrecer excelentes resultados en 768x1152, que es un nivel de resolución nativo de SDXL.

Para obtener resultados óptimos, utilice el muestreador DPM++ 3M SDE Karras o DPM++ 2M Karras, de 20 a 30 pasos, y una escala CFG de 2.5-5 (que es más baja de lo habitual).

Menciones honoríficas:

Fotón V1: Este modelo versátil destaca en la producción de resultados realistas para una amplia gama de temas, incluidas las personas.

AD

Foto de Stock Realista: Si desea generar personas con el aspecto pulido y perfeccionado de las fotos de stock, este modelo es una excelente elección. Crea imágenes convincentes y precisas sin imperfecciones en la piel.

aZovya Fotoreal: Aunque no es tan conocido, este modelo produce resultados impresionantes y puede mejorar el rendimiento de otros modelos cuando se fusiona con sus recetas de entrenamiento.

Stable Diffusion XL: Los Visionarios Versátiles

Mientras que Stable Diffusion 1.5 es nuestra mejor opción para imágenes fotorrealistas, Stable Diffusion XL ofrece más versatilidad y resultados de alta calidad sin recurrir a trucos como el aumento de escala. Requiere un poco más de potencia, pero puede ejecutarse con GPUs con 6GB de vRAM, 2GB más de lo que requiere SD1.5.

Aquí están los modelos que están liderando la carga.

1. Juggernaut XL (Versión x)

Construyendo sobre el éxito de su predecesor, Juggernaut XL aporta un aspecto cinematográfico y un enfoque impresionante en comparacion con el Stable Diffusion XL. Este modelo ofrece la misma composición de color característica que se aleja de la saturación, junto con buenas proporciones corporales y la capacidad de comprender indicaciones largas. Se enfoca más en el sujeto y define muy bien las facciones, tanto como cualquier modelo SDXL puede hacerlo en este momento.

Para obtener los mejores resultados, utiliza una resolución de 832x1216 (para retratos), el muestreador DPM++ 2M Karras, de 30 a 40 pasos, y una escala de CFG baja de 3-7.

2. RealVisXL

Personalizado con realismo en mente, RealVisXL es una opción principal para capturar las imperfecciones sutiles que nos hacen humanos. Sobresale en la generación de líneas de la piel, lunares, cambios de tonos y mandíbulas, asegurando que el resultado final sea siempre convincente. Probablemente sea el mejor modelo para generar humanos realistas.

AD

Para obtener resultados óptimos, utiliza de 15 a 30+ pasos de muestreo y el método de muestreo DPM++ 2M Karras.

3. HelloWorld XL v6.0

El modelo generalista HelloWorld XL v6.0 ofrece un enfoque único para la generación de imágenes, gracias a su uso de etiquetado GPT4v. Aunque puede llevar algo de tiempo acostumbrarse, los resultados valen la pena.

Este modelo es particularmente bueno para ofrecer la estética analógica que a menudo falta en las imágenes generadas por IA. También maneja bien las proporciones del cuerpo, las imperfecciones y la iluminación. Sin embargo, es diferente de otros modelos SDXL en su núcleo, lo que significa que es posible que necesites ajustar tus indicaciones y etiquetas para obtener los mejores resultados.

En comparación, aquí tienes una generación similar usando el etiquetado GPT4v, con la indicación o prompt positivo: estética cinematográfica, foto profesional, primer plano de retrato de un hombre caucásico, vistiendo un suéter negro, rostro serio, en la naturaleza, clima sombrío y nublado, vistiendo un suéter negro de lana, profundamente atmosférico, calidad cinematográfica, toques de influencia de la fotografía analógica.

Menciones honoríficas para SDXL incluyen: PhotoPedia XL, Realism Engine SDXL y el obsoleto Fully Real XL.

Consejos profesionales para imágenes hiperrealistas

No importa qué modelo elijas, aquí tienes algunos consejos de expertos para ayudarte a lograr resultados impresionantes y realistas:

  1. Experimenta con embeddings: Para mejorar la estética de tus imágenes, prueba a usar embeddings recomendados por el creador del modelo o utiliza algunas muy populares como BadDream, UnrealisticDream, FastNegativeV2 y JuggernautNegative-neg. También hay embeddings disponibles para características específicas, como manos, ojos y específicos.

  2. Aprovecha el poder de LoRAs: Aunque no los mencionamos aquí, estas útiles herramientas pueden ayudarte a agregar detalles, ajustar la iluminación y mejorar la textura de la piel en tus imágenes. Hay muchos LoRAs disponibles, así que no dudes en experimentar y encontrar los que funcionen mejor para ti.

  3. Utilice herramientas de extensión de detalle facial: Estas funciones pueden ayudarlo a lograr excelentes resultados en rostros y manos, haciendo que sus imágenes sean aún más convincentes. La extensión Adetailer está disponible para A1111, mientras que el nodo Face Detailer Pipe se puede utilizar en ComfyUI.

  4. Sea creativo con ControlNets: Si es un perfeccionista cuando se trata de manos, los ControlNets pueden ayudarlo a lograr resultados impecables. También hay ControlNets disponibles para otras características, como poses, estilos y cuerpos, así que no tenga miedo de experimentar y encontrar los que funcionen mejor para usted.

Para obtener ayuda para comenzar, puedes leer nuestra guía de Stable Diffusion.

Aquí están los recursos a los que hicimos referencia en esta guía:

Modelos SD1.5:

AD

Modelos SDXL:

Embeddings:

Esperamos que hayas encontrado útil en este recorrido por las herramientas de Stable Diffusion mientras exploras imágenes y artes generados por IA. ¡Feliz creación!

Editado por Ryan Ozawa.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.