MidJourney, Stable Diffusion v1.5 y SDXL: ¿Cúal es la Mejor Herramienta de Arte IA?

Una batalla de titanes en la tecnología de IA ha acelerado una carrera armamentista de creación de imágenes generativas. ¿Qué herramienta se lleva los máximos honores?

Por Jose Antonio Lanz

Aug 1, 2023

9 min lectura

Image created by Decrypt using AI. SDXL v1.0

Add on Google

En Resumen

MidJourney: Fácil de usar mediante el chat de Discord, con imágenes cohesivas, pero limitado y costoso ($96/año).
Stable Diffusion v1.5: Código abierto, personalizable, imágenes detalladas, pero con resolución limitada (512x512) y requiere un gran GPU.
SDXL: Potente y en desarrollo, con mayor coherencia de imagen, aunque también requiere un GPU con 6GB de VRAM.

La era del arte generado por IA está en pleno apogeo, y tres titanes han surgido como herramientas favoritas para los creadores digitales: el nuevo SDXL de Stability AI, el confiable Stable Diffusion v1.5 y su principal competidor: MidJourney.

Dall-E de OpenAI inició esta revolución, pero su falta de desarrollo y el hecho de que sea de código cerrado hacen que Dall-E 2 no se destaque en ninguna categoría frente a sus competidores. Sin embargo, como informó Decrypt hace unos días, esto podría cambiar en el futuro, ya que OpenAI está probando una nueva versión de Dall-E que, según informan, es competente y produce obras destacadas.

Con fortalezas y limitaciones únicas, elegir la herramienta adecuada entre las principales plataformas es clave. Vamos a explorar cómo se comparan estas tecnologías de arte generativo en términos de capacidades, requisitos, estilo y belleza.

MidJourney: la puerta de entrada al arte de IA

Théâtre d'Opéra Spatial, una imagen de Midjourney que ganó el primer premio en un concurso de arte digital

Como el más fácil de usar de los tres, MidJourney hace que el arte de IA sea accesible incluso para usuarios no técnicos, siempre y cuando estén familiarizados con Discord. La plataforma se ejecuta de forma privada en los servidores de MidJourney, y los usuarios interactúan a través del chat de Discord.

Este enfoque cerrado tiene ventajas y desventajas. Por un lado, no necesitas ningún hardware especializado ni habilidades de IA. Pero la falta de transparencia de código abierto en torno al modelo y los datos de entrenamiento de MidJourney lo limitan bastante en cuanto a lo que puedes hacer, haciendo imposible que los entusiastas lo mejoren.

MidJourney es el encantador en cuanto a la sutileza de uso del grupo, querido por los principiantes por su interfaz amigable de Discord. Solo envía un mensaje de texto al bot y voilà, tendrás una obra maestra estética en minutos. ¿La trampa? A $96 al año, es costoso para una IA que no puedes personalizar ni ejecutar localmente. Pero bueno, al menos lucirás artístico (y algo nerd) en las fiestas.

Funcionalmente, MidJourney genera imágenes rápidamente basadas en indicaciones de texto, con una impresionante cohesión estética. Pero al profundizar en un tema específico, la salida se vuelve más extraña. A MidJourney le gusta poner su propio toque en cada creación, incluso si eso no es lo que imaginó el usuario. Así que la mayoría de las imágenes pueden estar saturadas con un aumento en el contraste y tienden a ser más fotorealistas que realistas, hasta el punto de que después de un tiempo las personas pueden identificar las imágenes creadas con MidJourney por sus características estéticas.

Con MidJourney, tu libertad creativa también está limitada por las estrictas reglas de contenido de la plataforma. Es agresivamente censurada, tanto socialmente (en términos de representar desnudos o violencia) como políticamente (en términos de temas controvertidos y líderes específicos).

En general, MidJourney ofrece una tentadora puerta de entrada al arte de IA, pero los usuarios avanzados anhelarán más control y personalización. Y ahí es cuando entra en juego Stable Diffusion.

Stable Diffusion v1.5: el 'Viejo Confiable' del arte de IA

Imagen sin título creada por el usuario ThaiTvNews utilizando un modelo personalizado SD v.15.

Si MidJourney es un paseo en pony, Stable Diffusion v1.5 es el caballo de trabajo confiable. Como un modelo de código abierto que ha estado en desarrollo activo durante más de un año, Stable Diffusion v1.5 impulsa muchas de las herramientas de arte de IA más populares de hoy en día, como Leonardo AI, Lexica, Mage Space y todos esos generadores de waifu de IA que ahora están disponibles en la tienda de Google Play.

La comunidad activa de MidJourney ha iterado en el modelo base para crear puntos de control especializados, incrustaciones y LoRAs que se centran en todo, desde la estilización de anime hasta paisajes intrincados, fotografías hiperrealistas y más. ¿Desventajas? Bueno, está empezando a mostrar su edad junto a los jóvenes alborotadores de IA.

Al realizar algunos ajustes internos, Stable Diffusion v1.5 puede generar imágenes nítidas y detalladas adaptadas a tu visión creativa. La resolución de salida está actualmente limitada a 512x512 o a veces 768x768 antes de que la calidad se degrade, pero se utilizan técnicas de escalado rápido. La popularidad del escalado en mosaico también ha impulsado la popularidad del modelo, lo que le permite generar imágenes de súper resolución, mucho más allá de lo que MidJourney puede hacer.

En este momento, es la única tecnología que admite inpainting (cambiar cosas dentro de la imagen). También admite outpainting, que permite que el modelo expanda la imagen más allá de su marco. Además, es multidireccional, lo que significa que los usuarios pueden expandir su imagen tanto en el eje vertical como en el horizontal.

Esta nueva versión admite complementos de terceros como roop (utilizado para crear deepfakes), After Detailer (para mejorar caras y manos), Open Pose (para imitar una pose específica) y promociones regionales.

Para ejecutarlo, los creadores sugieren el uso de una GPU Nvidia RTX de la serie 2000 o mejor para un rendimiento decente, pero la huella ligera de Stable Diffusion v1.5 se ejecuta sin problemas, incluso en tarjetas con 4GB de VRAM. A pesar de su antigüedad, el sólido apoyo de la comunidad mantiene a este OG (old guard o vieja escuela) del arte de IA firmemente en la cima del juego.

SDXL: La próxima frontera del arte de IA

Imagen sin título creada por el usuario Buzimage utilizando un modelo SDXL personalizado

Ahora bien, si Stable Diffusion v1.5 es el caballo de trabajo confiable, entonces SDXL es el purasangre atlético que corre sin jinete por la pista de carreras. Este potente modelo, también de Stability AI, aprovecha dos codificadores de texto para interpretar mejor las indicaciones, y su proceso de generación en dos etapas logra una mayor coherencia de imagen en altas resoluciones.

Estas capacidades suenan emocionantes, pero también hacen que SDXL sea un poco más difícil de dominar. Un codificador de texto prefiere un lenguaje natural corto y el otro utiliza el estilo de SD v1.5 de palabras clave específicas y cortadas para describir la composición.

La generación en dos etapas significa que se necesita un modelo refinador para agregar los detalles a la imagen principal. Esto requiere tiempo, RAM y potencia de cómputo, pero los resultados son magníficos.

SDXL está listo para llamar la atención. Con el soporte de casi 3 veces los parámetros de Stable Diffusion v1.5, SDXL está mostrando un gran poder, generando imágenes casi un 50% más grandes en resolución que su predecesor sin despeinarse. Pero este rendimiento de vanguardia tiene un costo: SDXL requiere una GPU con un mínimo de 6GB de VRAM, archivos de modelo más grandes y carece de especializaciones preentrenadas.

La salida directa no está a la altura de un modelo de Stable Diffusion afinado. Sin embargo, a medida que la comunidad trabaja en su magia de optimización, el potencial de SDXL supera con creces lo que es posible con los modelos actuales.

Comparaciones de salida

Una imagen vale más que mil palabras, así que resumimos algunas miles de frases tratando de comparar diferentes resultados utilizando indicaciones similares para que puedas elegir la que más te guste. Ten en cuenta que cada modelo requiere una técnica de indicación diferente, por lo que aunque no sea una comparación exacta, es un buen punto de partida.

Para ser más específicos, utilizamos una indicación negativa bastante generalizada para Stable Diffusion, algo que MidJourney realmente no necesita. Aparte de eso, las indicaciones son las mismas y los resultados no fueron seleccionados a mano.

Indicación: Retrato de un corgi montando en bicicleta cruzando el mar

Comentario: Aquí es solo una cuestión de estilo entre SDXL y MidJourney. Ambos superan a Stable Diffusion v1.5 aunque parece ser el único capaz de crear un perro que está montando correctamente la bicicleta, o al menos usándola correctamente.

Indicación: La Plaza Roja de Noche

Comentario: MidJourney intentó crear un cuadrado rojo en La Plaza Roja. SDXL v1.0 es más nítido, pero el contraste de colores es mejor en SD v.15 (Modelo: Juggernaut v5).

Prompt: Una profesora con senos grandes en un aula futurista

Comentario: MidJourney se negó a generar una imagen debido a sus reglas de censura. SDXL es más rico en detalles, cuidando de producir tanto a la profesora como al aula futurista. SD v1.5 se centró más en la profesora (el sujeto. Modelo: Photon v1) y menos en los detalles del entorno.

Prompt: un cerebro alimentando una máquina, jeffrey smith y h.r. giger, altamente detallado en 4k, por Nishida Shun'ei, póster, herramienta, épico altamente detallado, cyberpunk épico, estudio muti, mapa de bits, por Sugimura Jihei

Comentario: Tanto MidJourney como SDXL produjeron resultados que se ajustan a la consigna. SDXL reprodujo mejor el estilo artístico, mientras que MidJourney se centró más en producir una imagen estéticamente agradable en lugar de recrear el estilo artístico, también perdió muchos detalles de la consigna (por ejemplo: la imagen no muestra un cerebro alimentando una máquina, sino que es un cráneo alimentando una máquina).

El futuro del arte generativo

Entonces, ¿cuál de estos Monet en entrenamiento deberías usar? Francamente, no puedes equivocarte con ninguna de estas opciones. MidJourney destaca en usabilidad y cohesión estética. Stable Diffusion v1.5 ofrece personalización y soporte comunitario. Y SDXL empuja los límites de la generación de imágenes fotorrealistas. Mientras tanto, mantente atento para ver qué nos trae Dall-E en el futuro.

No te quedes solo con nuestras palabras. El pincel está en tus manos ahora, y el lienzo en blanco te espera. ¡Toma tu herramienta generativa preferida y comienza a crear! Solo intenta mantener las amenazas existenciales para la humanidad al mínimo, por favor.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.

Coin Prices