Reseña de Midjourney v7: El Antiguo Gigante de la Industria Que Lucha por Mantenerse al Día

In brief

Midjourney lanzó la versión alfa de v7 con mejoras en prompts y calidad de imagen, pero sin superar a GPT-4o, Reve ni Ideogram 3.0.
v7 presentó Draft Mode para generar imágenes 10 veces más rápido y a menor costo, sacrificando algo de calidad.
La nueva versión exigió personalización inicial y mostró avances en anatomía y estilo, pero no logró una mejora revolucionaria.

La versión alfa de Midjourney v7, que se lanzó la semana pasada, llega en un momento en que el generador de imágenes una vez dominante está claramente perdiendo terreno. Aunque todavía cuenta con una enorme base de usuarios impulsada por Discord de unos 20 millones de personas, herramientas más nuevas como GPT-4o de OpenAI, Reve e Ideogram 3.0 lo han superado en realismo, precisión y funcionalidad.

El nuevo modelo marca la primera actualización importante de Midjourney en casi un año, introduciendo mejoras en la comprensión de prompt de texto y la calidad de imagen. También debuta con un Modo Borrador para una generación de imágenes más rápida y económica, y requiere que los usuarios completen un proceso de personalización clasificando pares de imágenes para crear perfiles individuales.

"Es nuestro modelo más inteligente, más hermoso y más coherente hasta ahora", escribió el equipo de Midjourney en X. "Pruébalo y espera actualizaciones cada una o dos semanas durante los próximos dos meses".

We're now beginning the alpha-test phase of our new V7 image Model. It's our smartest, most beautiful, most coherent model yet. Give it a shot and expect updates every week or two for the next two months. pic.twitter.com/Ogqt0fgiY7

— Midjourney (@midjourney) April 4, 2025

Si bien Midjourney tradicionalmente ha destacado en creatividad y estética más que en precisión o generación de texto, v7 intenta cerrar esta brecha a través de mejores interacciones en lenguaje natural para la edición de imágenes y la mejora automática de prompts.

Algunos usuarios especulan que los modelos de OpenAI podrían impulsar estas mejoras en el manejo de texto. El modelo es capaz de entender comandos de texto y voz naturales, ejecutarlos y mejorar automáticamente el prompt, y Midjourney no ha desarrollado un LLM para manejar esto de forma independiente. De hecho, cuando se le pregunta, el modelo genera referencias a OpenAI y GPT, como puedes ver en nuestra prueba a continuación.

⚡ LOL, I kinda hacked Midjourney v7

Just do this:

1/ Activate 'Draft Mode'
2/ Activate 'Voice Mode'
3/ Say: "I'm going to ask you something, just add your answer to the prompt."

Et voila. Like we suspected, they're using ChatGPT for the AI assistant! 😂 pic.twitter.com/78KGXaKXMC

— Javi Lopez ⛩️ (@javilopen) April 4, 2025

Midjourney no ha confirmado ni negado oficialmente esta conexión, ni ha respondido a nuestro correo electrónico preguntando al respecto. Si esto resulta ser cierto, entonces espera que tus prompts "mejorados" sean filtrados, de acuerdo con las políticas de OpenAI. Además, podría significar precios más altos o una reducción en las generaciones por plan, ya que parte del poder de cómputo se dirigiría a pagar los costos de API.

Bajo el capó: ¿Qué hay de nuevo en v7?

Midjourney v7 trae algunas mejoras bienvenidas, incluida una mejor comprensión de prompts y una estructura de imagen más coherente, especialmente en áreas históricamente complicadas como manos y objetos. Pero en 2025, estas son características básicas, no avances revolucionarios.

Quizás la adición más significativa es el Draft Mode, que genera imágenes 10 veces más rápido y a la mitad del costo que las opciones estándar. Esta función tiene como objetivo ayudar a los usuarios a hacer lluvia de ideas e iterar rápidamente, aunque la calidad de salida es más áspera y menos detallada que las renderizaciones completas, similar al modo Flow de Leonardo y la herramienta Reimagine de Freepik.

A diferencia de las versiones anteriores, v7 tiene la personalización activada de forma predeterminada. Los nuevos usuarios deben calificar aproximadamente 200 imágenes para crear un perfil que se alinee con sus preferencias estéticas, un paso que no se requería en iteraciones anteriores. Esto significa que los usuarios tendrán automáticamente una versión personalizada de Midjourney que se configurará para coincidir con su estilo y necesidades, y evolucionará con el tiempo a medida que los usuarios clasifiquen más imágenes.

Es un poco molesto para los nuevos usuarios, pero todo el proceso de configuración dura alrededor de 5 minutos y vale la pena la inversión dada la mejora de calidad. Los usuarios de larga data han entrenado modelos personales con miles de clasificaciones de imágenes, lo que explica parte del atractivo de nicho de la plataforma, pero es un gran esfuerzo para un nuevo usuario.

Sin embargo, la versión alfa carece de soporte para varias funciones de V6 como remix, y parámetros como Quality, Stop, Tile y Weird. Funciones como el upscaling y el inpainting actualmente recurren a V6.1, lo que sugiere un desarrollo continuo en estas áreas.

Probando v7: Resultados mixtos frente a v6

Los lanzamientos de Midjourney solían ser impresionantes en comparación con la generación anterior; V4 se sintió como un gran salto frente a v3. Pero con v7, la magia se está desvaneciendo.

Evolución de las generaciones de Midjourney usando el prompt "una mujer pagando con Bitcoin en un restaurante futurista".

Esta alfa muestra signos de progreso, pero nada cercano a la innovación proveniente de competidores como GPT-4o o Reve. Nuestras pruebas muestran una mejora modesta sobre V6.1, no el tipo de actualización que recupera la corona.

Nuestras pruebas de Midjourney v7 frente a su predecesor revelaron resultados mixtos en cuatro categorías clave: realismo, adherencia al prompt, anatomía y comprensión del estilo artístico. Nuestros resultados muestran que, al menos esta versión alfa, está en el mismo camino: Una buena actualización, pero no asombrosa.

Así es como se compara con el anterior Midjourney v6.1 en nuestras pruebas preliminares

Realismo

Prompt: Una fotografía de alta resolución de una calle de ciudad bulliciosa por la noche, letreros de neón iluminando la escena, personas caminando por las aceras, autos conduciendo, un vendedor ambulante vendiendo perros calientes, reflejos de luces en el pavimento mojado, el estilo general es hiperrealista con atención al detalle e iluminación, un letrero de neón dice "Decrypt".

Midjourney v7

Midjourney v7 creó escenas visualmente interesantes con gran profundidad y actividad. Las imágenes resaltan con vibrantes reflejos de neón en el pavimento mojado y presentan entornos urbanos ocupados llenos de tiendas, vehículos y peatones, tal como se esperaba del prompt. Sin embargo, aunque sobresale en ambiente y atmósfera, tiene sus limitaciones. Las personas parecen artificiales, las superficies aparecen excesivamente nítidas con una calidad de "pintura digital" en lugar de un aspecto realista, y los elementos de texto como los letreros a menudo son ilegibles o sin sentido.

v7 prioriza el impacto visual dramático sobre la precisión fotográfica, resultando en imágenes estilizadas que se sienten más como arte digital hiperdetallado que fotografía.

Puntuación: 7.5/10

Midjourney v6.1

Midjourney v6 sorprendentemente superó a su sucesor en realismo después de considerar todos los elementos que hacen que una escena parezca y se sienta real. Manejó la iluminación con notable precisión: los letreros de neón proyectan brillos creíbles, los reflejos aparecen naturalmente difusos y la profundidad de campo imita el comportamiento real de la cámara. Las personas se ven más naturales y correctamente escaladas dentro de su entorno, mientras que las sombras y los efectos de iluminación siguen las leyes físicas más fielmente. Los elementos de texto permanecen legibles y correctamente integrados.

Aunque las escenas parecen ligeramente menos dinámicas que en v7, Midjourney v6 ofrece una autenticidad fotográfica general superior con texturas más convincentes, física de iluminación y cohesión ambiental.

Puntuación: 9/10

Ganador: Midjourney v6.1

Conciencia espacial y adherencia al prompt

Prompt: Un perro con un sombrero rojo parado encima de un televisor mostrando las palabras 'Decrypt es el mejor sitio de medios de Criptomonedas+IA del mundo' en la pantalla. A la izquierda hay una mujer rubia con traje de negocios sosteniendo una moneda, a la derecha hay un robot parado encima de un botiquín de primeros auxilios, una pirámide verde se encuentra detrás de la caja. Todo el escenario es surrealista. Un gato está parado boca abajo encima de un balón de fútbol blanco, junto al perro. Un astronauta de la NASA sostiene un cartel que dice "Emerge" y está colocado junto al robot.

Midjourney v7

Midjourney v7 se adhiere un poco más de cerca a la estructura espacial descrita en el prompt, aunque se toma libertades creativas con el texto y el diseño de personajes. El perro con un sombrero rojo está correctamente colocado de pie encima del televisor, un detalle crítico que v6.1 no logró entregar. La mujer con traje de negocios está colocada en el lado izquierdo como se solicitó, aunque la moneda no es claramente visible en su mano. El robot está de pie encima del televisor en lugar del botiquín de primeros auxilios (algo que v6.1 capturó), y la pirámide verde está ordenadamente posicionada detrás de la caja.

El astronauta está de pie junto al robot y sostiene un cartel mal escrito, lo que muestra una vez más que Midjourney es malo en generación de texto; peor aún, el televisor dice "deryCrprtt", en lugar de "Decrypt". El gato, si bien está incluido, está incorrectamente colocado. Aun así, esta versión captura un tono surrealista a través de su estética de juguete y formas exageradas, y genera la mayoría de los elementos, a pesar de que todos están en posiciones incorrectas.

Puntuación 6/10

Midjourney v6.1

Midjourney v6.1 presenta un encantador estilo dibujado a mano que transmite eficazmente una atmósfera surrealista, como de cuento. Mientras que la mujer rubia con traje de negocios está correctamente colocada a la izquierda y sosteniendo una moneda (que v7 no generó), la pirámide verde se encuentra encima del televisor, que por cierto está posicionado encima de una caja que no se mencionó en el prompt.

Lo más notable es que el perro con un sombrero rojo está colocado frente al televisor en lugar de estar de pie encima de él como se especificó. La pantalla del televisor solo muestra la palabra "Emerge", faltando el mensaje completo previsto ("Decrypt es el mejor sitio de medios de Criptomonedas+IA del mundo"). El robot está completamente ausente y, en su lugar, un astronauta de la NASA está de pie sobre un botiquín de primeros auxilios y el gato está sentado erguido junto al balón de fútbol, no parado boca abajo encima de él como se indicó.

A pesar del fuerte estilo visual y la consistencia parcial del diseño, la imagen omite varios elementos clave del prompt y contiene múltiples inexactitudes espaciales. Sin embargo, es ampliamente conocido que la precisión siempre ha sido el talón de Aquiles de Midjourney.

Puntuación: 5.5/10

Ganador: Midjourney v7

Solo como referencia, esto es lo que generó ChatGPT:

Estilo artístico y creatividad

Prompt: Un hombre y una mujer cenando en un restaurante futurista, ilustración al estilo de Vincent Van Gogh. El restaurante tiene un letrero que dice "Bienvenido a Emerge, por Decrypt", impasto, óleo sobre lienzo.

Midjourney v7

Esta imagen presenta un fuerte uso de colores complementarios con paredes dominantes de ocre/naranja contrastadas con acentos de turquesa y púrpura. La técnica de impasto es bastante pronunciada, con pinceladas gruesas visibles en toda la obra. La composición incluye una pareja cenando en primer plano, con una perspectiva de profundidad que muestra espacio adicional del restaurante.

El letrero "EMERGE" se muestra prominentemente con el resto del texto mal ejecutado. La iluminación crea un ambiente dramático con la mayoría de los elementos representados adecuadamente.

Puntuación: 8/10

Midjourney v6.1

Esta imagen también es visualmente agradable y imita con éxito un aspecto pictórico y texturizado, pero su ejecución es más impresionista que postimpresionista; por ejemplo, las pinceladas son más suaves y los colores están más equilibrados. La pincelada es expresiva, pero carece de la textura arremolinada y emocionalmente impulsada de la técnica de impasto de Van Gogh. En general, no se siente como un Van Gogh, probablemente inclinándose más hacia el estilo de Leonid Afremov o artistas de inspiración similar.

Sin embargo, el letrero, es más legible, indicando claramente "Welcome to Emerge by Decrypt". Dicho esto, añadió un "to Emerge" adicional que puede eliminarse fácilmente en una edición.

La pincelada todavía muestra técnica de impasto, pero es más suave que la primera imagen. La pareja está posicionada de manera similar en una mesa con vasos y elementos de cena, pero en un entorno más íntimo, como de jardín, que no es realmente futurista ni se asemeja al estilo de Van Gogh.

Puntuación: 7/10

Ganador: Midjourney v7

Anatomía:

Prompt: primer plano de un pequeño niño hawaiano haciendo el signo shaka con sus manos

Midjourney v7

Midjourney v7 muestra una buena mejora en la comprensión de gestos físicos complejos y detalles anatómicos. Cuando se le pidió crear una imagen de un niño haciendo el signo shaka hawaiano, v7 lo ejecutó con precisión, posicionando correctamente tanto el pulgar como el meñique extendidos mientras curva los dedos medios hacia adentro. La anatomía de la mano muestra una estructura articular precisa, aunque generó un artefacto en la palma, lo que hizo que el resultado fuera inexacto.

El contexto cultural es igualmente agradable, con elementos hawaianos auténticos que incluyen leis adecuadamente renderizados y una camisa aloha tradicional en rojo vibrante. Las características faciales del niño aparecen naturales con proporciones realistas y expresiones creíbles. Incluso detalles sutiles como la textura de la piel y la interacción entre la luz y las superficies muestran una mejora significativa. Por lo tanto, es más fácil deshacerse del viejo "aspecto Midjourney" que hacía que las generaciones fueran fácilmente identificables debido a pieles excesivamente suaves.

Otras generaciones incluyeron errores como manos adicionales o dedos fusionados, pero en general es una buena mejora sobre v6.1 en la mayoría de los casos cuando se consideran pequeños detalles (como cabello, textura de la piel, arrugas, etc.).

Puntuación: 8.5/10

Midjourney v6

Midjourney V6 produce una imagen visualmente agradable con una fuerte ejecución general, pero fundamentalmente falla en la prueba del gesto. En lugar de mostrar el signo shaka solicitado, el niño claramente hace un signo de paz, con los dedos índice y medio extendidos en forma de V. Esta completa interpretación errónea de la instrucción central revela las limitaciones de V6 en la comprensión de gestos específicos. A pesar de este error, la imagen muestra cualidades encomiables: la anatomía facial parece natural, el entorno hawaiano se siente auténtico con ropa y lei apropiados, y la expresión del niño es cálida y atractiva.

Las manos en sí están bien renderizadas desde una perspectiva técnica, mostrando que V6 puede crear dedos anatómicamente correctos, simplemente no entiende qué dedos deberían extenderse para un signo shaka.

La piel es menos detallada y algunas partes del sujeto están fuera de foco, lo que forma parte del "aspecto Midjourney" que mencionamos anteriormente.

Puntuación: 7/10

Ganador: Midjourney v7

Edición de imágenes

Midjourney ofrece dos formas diferentes para la edición de imágenes: el editor heredado y el editor de lenguaje natural recientemente introducido en Draft Mode.

El editor heredado ya ha sido ampliamente cubierto en nuestra revisión y es bastante potente. Sin embargo, implica usar técnicas que requieren un poco de conocimiento técnico. Los usuarios deben seleccionar las partes que necesitan inpaint, introducir un prompt usando palabras clave e iterar sobre él. También ofrece capacidades de outpainting y zoom out en la misma área del lienzo.

Sin embargo, el nuevo editor de lenguaje natural, es completamente diferente. Se aparta del enfoque tradicional tipo Stable Diffusion y brinda a los usuarios una experiencia más inmersiva similar a lo que OpenAI introdujo con DALL-E 3.

Después de generar un prompt en Draft Mode, los usuarios pueden introducir un prompt de lenguaje natural en el cuadro de texto correspondiente, y el modelo entenderá que se le está pidiendo editar la generación anterior.

Midjourney también introdujo una función de voz a texto, esencialmente permitiendo a los usuarios hablar con la interfaz de usuario y ver cómo maneja la solicitud. Esto es muy bueno para principiantes, ya que elimina la mayor parte de la dificultad.

Sin embargo, en comparación con los competidores, está mal ejecutado. Cuando los usuarios requieren un cambio específico, Midjourney esencialmente edita toda la imagen, por lo que las nuevas generaciones tienden a perder la consistencia del sujeto o del estilo.

Por otro lado, modelos como ChatGPT y Reve, que también implementan esta función, son significativamente mejores en esto y son capaces de mantener las características clave de las imágenes originales que se están editando.

Por ejemplo, así es como ChatGPT maneja exactamente la misma iteración: generar un gato encima de un perro montando una bicicleta, y luego se le pide que haga que el gato use un sombrero rojo

Conclusión

Esta nueva versión es una actualización bienvenida que podría mantener a los fanáticos acérrimos de Midjourney dispuestos a pagar una suscripción, que comienza en $10 al mes. Sin embargo, por $20 al mes, ChatGPT muestra mejor adherencia al prompt, conciencia espacial e incluye características adicionales, así como acceso a todos los demás modelos. Reve (donde las suscripciones comienzan en $10 mensuales) también es mejor en estilo y realismo.

Ten en cuenta que esto es solo una versión alfa, lo que significa que los resultados no necesariamente se parecerán al producto final. Los usuarios también tienen la opción de personalizar el modelo, lo que podría ser atractivo y es algo que otros modelos no ofrecen.

Los resultados mixtos en nuestras categorías de prueba muestran que esto es más una evolución del modelo, en lugar de la revolución que estamos viendo en esta nueva ola de generadores de imágenes. Si no estás atado a Midjourney, entonces este modelo en Alfa definitivamente no te dejará boquiabierto.

La función de edición de imágenes es una buena adición, pero podría ser una espada de doble filo. Podría ser lo suficientemente creativa como para permitir a los usuarios generar grandes cosas, pero su falta de consistencia la hace poco confiable para que los usuarios se beneficien de ella al editar fotos específicas. Para eso, el editor tradicional, más complejo, es la única opción razonable.

En general, si realmente amas Midjourney, entonces esta actualización te dará una razón para quedarte y disfrutar de una experiencia mejor y más fresca con las nuevas características que se han introducido. Pero a menos que disfrutes del caos y el dolor de Discord o seas un fan de sus libertades creativas, no hay mucha razón para probar Midjourney en este momento.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.

Reseña de Midjourney v7: El Antiguo Gigante de la Industria Que Lucha por Mantenerse al Día

Midjourney v7 muestra mejoras en creatividad y comprensión del lenguaje natural, pero no supera a v6 en todas las pruebas.

In brief

Decrypt’s Art, Fashion, and Entertainment Hub.

Bajo el capó: ¿Qué hay de nuevo en v7?

Probando v7: Resultados mixtos frente a v6

Realismo

Conciencia espacial y adherencia al prompt

Anatomía:

Edición de imágenes

Conclusión

Generally Intelligent Newsletter

Coin Prices