En Resumen

  • MidJourney lanzó su nuevo modelo generador de imágenes de IA, que promete una mayor precisión, coherencia y capacidad de generación de texto.
  • El modelo V6 se presenta como una revisión importante, ofreciendo seguimiento preciso de indicaciones, indicaciones más largas y conocimiento del modelo, destacando su avance respecto al modelo V5.1 lanzado en mayo de 2023.
  • Además, el nuevo modelo destaca una capacidad única para generar texto, y competir con modelos líderes como Dall-E 3 e Ideogram, priorizando el estilo y la estética, aunque a veces a costa de la precisión del texto.

MidJourney acaba de anunciar su nuevo modelo generador de imágenes de IA, el modelo base V6, en la competencia abarrotada por dominar el reino de la creatividad digital. Lanzado hoy para pruebas alfa, el equipo de desarrollo afirma que el V6 cuenta con una mayor precisión en las indicaciones, una mejor coherencia y, por primera vez en la evolución de MidJourney, capacidades de generación de texto.

Anunciado en una publicación oficial en Discord, el V6 se presenta como una revisión importante.

La nueva versión ofrecerá "más seguimiento preciso de las indicaciones, así como indicaciones más largas, mejor coherencia y conocimiento del modelo", revela el anuncio, destacando su avance respecto al modelo V5.1 lanzado en mayo de 2023. El modelo V5, conocido por sus indicaciones cortas fáciles de usar y su mejora estética, allanó el camino para el V6 más sofisticado y detallado.

Uno de los componentes más destacados de V6 es su capacidad para dibujar texto. Si bien no es el punto central del modelo, el equipo dice que aún es una característica "menor", esta capacidad pone a MidJourney en competencia directa con otros modelos líderes como Dall-E 3 e Ideogram. Sin embargo, el enfoque de MidJourney para la generación de texto es único.

Midjourney describe esta capacidad como una "habilidad menor para dibujar texto". "Debes escribir tu texto entre 'comillas' y los valores --style raw o lower --stylize pueden ayudar".

Decrypt pudo probar el modelo y compararlo con Dall-E 3, conocido por su precisión en la generación de texto. MidJourney parece priorizar el estilo y la estética, a veces a costa de la precisión del texto. La mayoría de las veces generaba texto incorrecto o no generaba texto. Pero cuando lo hacía, las imágenes estaban a la altura o incluso eran mejores que las generadas por Dall-E 3, el modelo de IA de texto a imagen que impulsa ChatGPT y Microsoft Bing.

Comparando las generaciones de texto de MidJourney, Dall-E 3, SDXL con Harrlogos e Ideogram AI, una recomendación simplificada podría ser usar MidJourney si la estética es una prioridad, Dall-E 3 por su facilidad de uso y estética de arte digital de dibujos animados, SDXL para aquellos con conocimientos avanzados de A1111, e Ideogram AI para resultados en los que el texto es más importante que la estética.

Utilizar MidJourney o Dall-E 3 con ChatGPT actualmente tiene un costo, mientras que SDXL e Ideogram AI son gratuitos. La versión de Dall-E 3 de Bing es gratuita, pero solo genera imágenes cuadradas y las personas solo pueden modificar las indicaciones en lugar del enfoque de conversación natural adoptado por OpenAI.

MidJourney V6 también es un poco más lento y más caro que v5, sin embargo, el equipo enfatiza su enfoque en acelerar el modelo con el tiempo. El modelo V6 también cuenta con mejoras en los mejoradores en los modos 'sutil' y 'creativo', mejorando la resolución de la imagen en 2 veces.

Estas características, junto con una amplia gama de argumentos admitidos como --ar (para cambiar la resolución), --chaos (para cambiar las variaciones entre generaciones) y --stylize (para cambiar la creatividad del modelo), ofrecen a los usuarios un amplio espectro de posibilidades creativas. Sin embargo, otras características como el relleno, el pintado y la descripción de imágenes aún no están disponibles. Según MidJourney, deberían llegar en una actualización el próximo mes.

El anuncio insta a los usuarios a utilizar estos "poderes increíbles con alegría, asombro, responsabilidad y respeto", lo cual siempre ha sido parte del ethos de MidJourney. Pero no te emociones demasiado, ya que serán más estrictos con la censura.

"No seas un idiota ni crees imágenes para causar problemas", dice el anuncio. Es probable que esto bloquee los intentos de crear waifus digitales o deepfakes políticos.

Editado por Ryan Ozawa.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.