En Resumen

  • Black Forest Labs lanzó Flux, el modelo de texto a imagen de código abierto más grande hasta la fecha, con 12 mil millones de parámetros.
  • Flux viene en tres variaciones: Flux Dev (código abierto), Flux Schnell (versión más rápida) y Flux Pro (versión de código cerrado).
  • Flux Dev y Flux Schnell están disponibles para descargar en Hugging Face, y ComfyUI se ha actualizado para admitir los nuevos modelos en flujos de trabajo locales.

Black Forest Labs, el equipo que contribuyó al desarrollo de la Difusión Estable original, ha lanzado Flux, el modelo de texto a imagen de código abierto más grande hasta la fecha. Con unos impresionantes 12 mil millones de parámetros, Flux puede generar imágenes que rivalizan con las de Midjourney y posiblemente superan a cualquier otro modelo disponible actualmente, ya sea de código abierto o cerrado.

Flux viene en tres variaciones: Flux Dev, que es de código abierto con una licencia no comercial para el desarrollo comunitario; Flux Schnell, que es una versión más rápida y mejorada que opera hasta diez veces más rápido, disponible bajo una licencia Apache 2; y Flux Pro, que es una versión de código cerrado disponible a través de una API.

Flux Dev y Flux Schnell están disponibles para descargarse en Hugging Face. ComfyUI también se ha actualizado para admitir los nuevos modelos en flujos de trabajo locales.

El jueves, Black Forest Labs enfatizó el historial comprobado del equipo en el avance de la IA generativa para los medios.

AD

"Nuestras innovaciones incluyen la creación de VQGAN y Latent Diffusion, los modelos Stable Diffusion de Stability AI para generación de imágenes y videos (Stable Diffusion XL, Stable Video Diffusion, Rectified Flow Transformers), y Adversarial Diffusion Distillation para síntesis de imágenes ultrarrápida en tiempo real", dijo el equipo.

El lanzamiento sigue a una exitosa ronda de financiación inicial de $31 millones, liderada por Andreessen Horowitz y respaldada por inversores destacados como Brendan Iribe, Michael Ovitz y Garry Tan.

En pruebas de referencia, Flux afirma que sus modelos han establecido nuevos estándares en síntesis de imágenes, superando a modelos como Midjourney v6.0, Dall-E 3 (HD) y SD3 Ultra en calidad visual, seguimiento rápido, variabilidad de tamaño/formato, tipografía y diversidad de resultados. Los gráficos de Black Forest demuestran que sus modelos Pro y Dev son los mejores generadores de imágenes hasta la fecha, y su modelo menos potente, Schnell, se sitúa entre Midjourney v5 e Ideogram.

Puntuación de Flux frente a otros generadores de imágenes de IA. Imagen: Black Forest Labs
Puntuación de Flux frente a otros generadores de imágenes de IA. Imagen: Black Forest Labs

Vale la pena señalar que los usuarios con GPUs más pequeñas podrían estar de mala suerte. Los modelos de código abierto pesan alrededor de 23GB, esto significa que probablemente requeriría casi 24GB de VRAM para funcionar hasta que se lance una versión cuantizada, si es que alguna vez se lanza. Pero aun así, parece que los usuarios con GPUs con 6 y 8 GB de VRAM pronto tendrán que decir adiós a la emoción de probar nuevos modelos de IA.

AD

Sin embargo, Black Forest se ha asociado con Fal AI, desarrolladores del modelo de código abierto Auraflow, para apoyar la generación en la nube. Los modelos también están disponibles para probar de forma gratuita en Replicate.com. Una vez que los usuarios alcancen su cuota diaria, cuesta $1 generar 33 imágenes con Flux Pro o 333 con Flux Schell.

Esta es una propuesta de valor mejor que la de Midjourney o Ideogram. El plan básico de Midjourney cuesta $96 al año y permite a los usuarios generar alrededor de 200 imágenes por mes, lo que equivale a aproximadamente 25 imágenes por dólar. El plan básico de Ideogram cuesta $84 al año, y proporciona hasta 400 imágenes por mes o 50 imágenes por dólar.

Probando Flux

Flux se ve genial en pruebas de referencia, pero ¿qué tan bien lucen sus creaciones? Lo hemos comparado con los generadores de imágenes de código abierto más prominentes hasta la fecha, y podemos confirmar que quedamos impresionados. Comparamos Flux, SD3 Medium y Auraflow, y luego lo enfrentaremos a Midjourney.

Ilustraciones

Prompt 1: “Ilustración a mano de una araña gigante persiguiendo a una mujer en la jungla, extremadamente aterradora, angustiosa, escenario oscuro y espeluznante, horror, con influencia de la fotografía analógica, boceto.”

Flux mostró un excelente uso de la iluminación atmosférica y las sombras. El diseño de la araña es realmente amenazante, con sus patas afiladas y su rostro aterrador. La postura vulnerable de la mujer transmite muy bien la angustia. Es la representación más precisa de la anatomía.

La paleta de colores verde azulado de Auraflow le da una sensación inquietante y de otro mundo, pero no captura completamente el requisito de "oscuro y espeluznante". El diseño de la araña es menos aterrador y más estilizado.

Nuestra Clasificación:

  1. Flux: Captura mejor el horror, la angustia y la atmósfera espeluznante. Es la creación más precisa sin defectos morfológicos.
  2. SD3 Medium: Aunque es visualmente impactante, es el menos alineado con el aspecto de "fotografía analógica" de la consigna. El estilo de horror es notable.
  3. Auraflow: Es el más cercano al boceto y a la fotografía analógica en su conjunto. Sin embargo, es el menos espeluznante, menos aterrador y es el que menos transmite la atmósfera general de la escena.

Conciencia Espacial

Prompt 2: “Un perro parado en la parte superior de un televisor que muestra la palabra ‘Decrypt’ en la pantalla. A la izquierda hay una mujer con traje de negocios sosteniendo una moneda, a la derecha hay un robot parado en la parte superior de una caja de primeros auxilios. La escena en general es surrealista.”

AD

Flux es el modelo que se ajusta más a los requisitos de la consigna. Presenta todos los elementos en las posiciones requeridas. La composición está bien equilibrada y la colocación inesperada de elementos y el choque retro-futurista realzan la calidad surrealista. Aunque generó un vistazo a una mano adicional, esta versión captura con mayor precisión la esencia de la consigna.

SD3 Medium es el segundo mejor. Entendió todos los elementos pero también tuvo algunas variaciones, como el estilo caricaturesco y el perro sentado en lugar de estar de pie. Captura algunos elementos de la consigna pero omite otros, quedando entre Flux y Auraflow en términos de precisión.

Auraflow se toma algunas libertades con la consigna. El perro está en la televisión pero está sentado en lugar de estar de pie, la mujer tiene un aspecto más vintage de los años 1950 en lugar de un traje de negocios moderno, el robot está sobre un pedestal azul en lugar de una caja de primeros auxilios, y el estilo general es más retro y colorido, menos surrealista. Las palabras también fueron representadas de manera deficiente.

Aunque es creativo, se aleja más de la consigna original que la versión de Flux.

Nuestro Ranking:

  1. Flux: El más preciso a nivel de Prompt y logra una calidad surrealista.
  2. SD3 Medium: Captura los elementos principales pero pierde algunos detalles.
  3. Auraflow: Interpretación creativa pero se desvía más de la consigna original.

Realismo

Prompt 3: “Una fotografía de alta resolución de una concurrida calle de la ciudad por la noche, con letreros de neón iluminando la escena, personas caminando por las aceras, autos pasando, un vendedor ambulante vendiendo perritos calientes, reflejos de luces en el pavimento mojado, el estilo general es hiperrealista con atención al detalle y la iluminación, un letrero de neón dice ‘Decrypt.’”

Flux se ajusta de cerca a los requisitos del prompt. Presenta una concurrida calle de la ciudad por la noche con letreros de neón iluminando la escena, personas caminando por las aceras y autos pasando. Los reflejos de luces en el pavimento mojado son realistas y el letrero "Decrypt" se muestra prominentemente.

Auraflow toma algunas libertades con el prompt. La vibrante iluminación de neón crea un ambiente bullicioso, y los reflejos en el pavimento mojado añaden realismo. El vendedor ambulante es claramente visible e interactúa con la escena. Sin embargo, la imagen parece ligeramente sobresaturada y los vendedores ambulantes lucen caricaturescos, lo cual resta al estilo hiperrealista. Los letreros de neón están borrosos y no hay una clara distinción entre la acera y la calle, ya que el modelo generó una perspectiva extraña.

AD

SD3 Medium también captura los elementos principales de la indicación o prompt pero con algunas variaciones. La composición equilibrada se centra tanto en los peatones como en el entorno, con una iluminación y reflejos realistas que realzan la sensación de ciudad nocturna. El letrero de "Decrypt" resalta por si solo, y el vendedor ambulante contribuye al ambiente animado. Sin embargo, al inspeccionar más de cerca, es fácil detectar algunos elementos que hacen que la escena sea irreal. Por ejemplo, las personas caminan en la calle y la acera se expande para adaptarse al estilo de imagen.

Nuestro Ranking:

  1. Flux: Detallado y bien iluminado. Captura bien la bulliciosa calle, los letreros son fáciles de leer y los peatones están bien representados.
  2. SD3 Medium: Captura los requisitos de la tarea con una composición equilibrada, iluminación realista y elementos bien integrados, incluido el letrero de "Decrypt" y el vendedor ambulante. Pero los peatones no están representados tan realistamente como en la generación Flux.
  3. Auraflow: Interpretación creativa con iluminación vibrante, pero se aleja del estilo hiperrealista con sus vendedores ambulantes de aspecto caricaturesco y los desordenados letreros de neón. Tiene algunos problemas con la perspectiva, lo cual es un problema si el objetivo es el fotorrealismo.

Nivel jefe: Flux v. Midjourney

También comparamos Flux con Midjourney. Pero en lugar de usar nuestras propias generaciones, copiamos las selecciones principales de Midjourney según su página de "descubrimiento".

Realismo

Prompt 1: Una foto en blanco y negro de una mujer con cabello largo y liso, vistiendo un atuendo completamente negro que acentúa sus curvas, sentada en el suelo frente a un sofá moderno. Está posando con confianza para la cámara, mostrando sus piernas esbeltas mientras se agacha... Ver la descripción completa aquí.

Midjourney se acerca mucho a los requisitos. Presenta a una mujer en una pose dinámica y agachada sobre una superficie suave, capturando la esencia de una fotografía de alta moda. El detalle en su cabello, rasgos faciales y ropa está representado con alta precisión, mejorando el realismo. Sin embargo, la pose, aunque dinámica, es un poco natural. La mano derecha de la mujer parece una mezcla entre una mano y un pie, su pierna derecha desaparece de la nada, y lo que sería su pie izquierdo también tiene una forma que imita una mano.

Por otro lado, Flux captura los principales elementos del prompt con una composición equilibrada. La mujer está sentada en el suelo con las piernas cruzadas, en una pose más relajada y natural. La alta precisión en la representación de rasgos faciales, cabello y ropa contribuye a una apariencia realista. La iluminación es suave y difusa, proporcionando sombras y reflejos suaves que definen los rasgos del sujeto.

Sin embargo, la generación no estuvo exenta de fallos. Parece tener una pierna adicional, aunque se puede corregir fácilmente con retoque o herramientas como Photoshop, ya que la oscuridad de la escena general facilita el trabajo.

Nuestra Clasificación:

AD
  1. Flux: Captura los requisitos del prompt con una pose natural, un fondo contextual y una representación detallada. Es el más preciso en cuanto a morfología.
  2. Midjourney: Presenta una pose dinámica y un alto nivel de detalle, pero carece de la riqueza contextual de la imagen de Flux y el cuerpo no fue representado tan precisamente como con Flux.

Cumplimiento del prompt

Prompt 2: Un gato blanco tocando el piano, con gafas de sol y un sombrero, vistiendo un estilo hawaiano morado, toma de cuerpo completo contra un fondo gris de estudio, captura de pantalla de video comercial. Crédito: Chestnutmuffin.

La interpretación de Midjourney del prompt captura la naturaleza caprichosa de la escena. La vibrante camisa hawaiana morada añade un toque juguetón. La iluminación es suave, enfatizando eficazmente las texturas y colores. Sin embargo, la toma de primer plano se desvía de la "toma de cuerpo completo" especificada en la indicación, y el fondo no es el entorno gris de estudio solicitado, sino más bien un entorno natural y menos controlado. La composición general, aunque es encantadora, destaca en realismo y estilo pero omite algunos elementos clave de la indicación.

Nuestro Ranking:

  1. Flux: La toma de cuerpo completo, el fondo gris de estudio y la vestimenta especificada se capturan con precisión. La composición es profesional y pulida, alineándose perfectamente con los requisitos de la indicación.
  2. Midjourney: Ofrece un primer plano encantador y detallado con rasgos expresivos, pero se pierde elementos clave como la toma de cuerpo completo y el fondo de estudio. Aunque es visualmente atractivo, se desvía de los detalles específicos del prompt.

Conclusiones

Nos sorprendió gratamente que Flux se destacó en todas nuestras pruebas. Su versión “Pro” definitivamente ofrece resultados de gran calidad y puede ser una buena competencia para Midjourney y otras opciones de pago. Requiere un prompt más detallado, pero los resultados son muy precisos, realistas y fieles a lo indicado.

Para aquellos dispuestos a pagar por un buen generador de imágenes, Flux Pro parece ser la mejor propuesta de valor. Las versiones “Dev” y “Schnell” son mejores que la base SD3 Medium y Auraflow, por lo que incluso en el espacio de código abierto, Flux es un competidor bastante fuerte.

Flux representa mejor los cuerpos humanos que SD3, lo cual es un punto importante a considerar. Sin embargo, las personas con GPUs más modestas podrían arreglárselas con SD3, o incluso con versiones ajustadas de SDXL, dado que los nuevos modelos como Auraflow o Flux son extremadamente pesados.

Cabe destacar que la plataforma Replicate ha implementado un control deslizante de “seguridad”, y podemos confirmar que el modelo no tiene censura para aquellos que les importe. Ah, y las mujeres también pueden volver a tumbarse en el césped.

AD

Editado por Ryan Ozawa.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.