En Resumen
- Un nuevo modelo de generación de imágenes por IA, Recraft V3, superó a Flux y MidJourney en los rankings de Artificial Analysis, destacándose por su calidad y velocidad.
- Recraft V3, desarrollado por una startup de Londres, demostró superioridad en calidad de generación de texto, precisión anatómica y comprensión de prompts en pruebas de referencia.
- El modelo opera en un sistema de suscripción similar a MidJourney, ofreciendo 50 créditos diarios gratuitos, pero los usuarios gratuitos no conservan la propiedad de sus creaciones.
Paso al costado Flux y MidJourney: Hay un nuevo jugador que acaba de dispararse a la cima de los rankings de generación de imágenes por IA. Un modelo misterioso anteriormente conocido como Red Panda—que tenía a los observadores de IA rascándose la cabeza en las clasificaciones de Artificial Analysis—finalmente se reveló como Recraft V3, un nuevo lanzamiento de una startup poco conocida de Londres.
El modelo disfrutó de la puntuación más alta en el sistema de clasificación ELO para generadores de imágenes, superando a Flux 1.1 Pro y MidJourney. En términos de eficiencia, Recraft V3 iguala la velocidad de generación de SDXL de menos de 10 segundos mientras entrega una calidad de imagen superior sin igual, según las pruebas.
En cuatro días de pruebas de referencia, Recraft V3 demostró superioridad en calidad de generación de texto, precisión anatómica y comprensión de prompts. Se destaca como el único modelo capaz de generar imágenes con pasajes de texto extensos, más allá de la simple integración de palabras o frases.
De hecho, era tan bueno que incluso el ex investigador de Stability AI Joe Penna, quien trabajó en el desarrollo de SDXL—el rey indiscutible de la generación de imágenes de código abierto hasta que apareció Flux—elogió públicamente el modelo en el servidor de Discord de la empresa.
"¡Wow! es increíble el nuevo modelo, Recraft," dijo, "Estoy muy impresionado."
Tal vez no hayas oído hablar de ello, a menos que estés profundamente metido en la IA generativa o el diseño digital, pero la startup londinense Recraft AI fue fundada en 2022 y comenzó como un jugador de nicho centrado en herramientas impulsadas por IA para diseñadores gráficos en lugar de generación de imágenes general. Su trayectoria cambió después de asegurar $11 millones en financiamiento de empresas como Khosla Ventures y el ex CEO de GitHub, Nat Friedman, a principios de este año.
"Así que no es justo decir que éramos desconocidos, pero definitivamente había menos expectación alrededor de la empresa," dijo Anna Veronika Dorogush, la CEO de Recraft, a Decrypt, "todo el crecimiento vino de usuarios compartiendo la herramienta entre ellos a través de sus redes sociales o simplemente por el boca a boca puro."
Recraft V3 sobresale en la creación de imágenes realistas, manejando detalles finos e imperfecciones con notable precisión y opera en un modelo de suscripción similar a MidJourney, Leonardo o Ideogram.
Esta es también una evolución de un modelo de 20 mil millones de parámetros que Recraft lanzó en marzo—como referencia, SD 3.5 Large tiene 8.1 mil millones de parámetros mientras que Flux es un modelo de 12 mil millones de parámetros, siendo los "parámetros" como pequeños ajustes que un desarrollador afina durante el entrenamiento para hacer que su modelo entienda y responda con precisión a tareas complejas.
"Este es un modelo muy potente, con una orden de magnitud más grande en tamaño que todos los modelos de código abierto. Este modelo ya era potente - según nuestros puntos de referencia internos, era el estado del arte en corrección anatómica y seguimiento de prompts," dijo Anna a Decrypt, "Pero vimos que hay cosas que al modelo antiguo le faltaban - no era capaz de producir texto correcto. Y también las cualidades estéticas de las imágenes en estilos predeterminados podían mejorarse."
"Con eso hemos entrenado el nuevo modelo, y ahora está superando todos los puntos de referencia"
Siete meses después, y tenemos el modelo de última generación que saltó al mejor lugar entre todos los generadores de imágenes.
El diseño digital está en el núcleo de los valores de Recraft. Este modelo también es capaz de procesar generaciones de texto a vector, lo que significa que los usuarios pueden solicitar al modelo que genere imágenes que se pueden escalar infinitamente sin perder calidad.
Los usuarios gratuitos reciben 50 créditos diarios, lo cual es suficiente para generar 50 imágenes. Sin embargo, —y este es un nuevo modelo de negocio— los usuarios no conservan la propiedad de sus creaciones. Ese derecho está reservado para los suscriptores pagos, con planes que comienzan en $10 al mes por 1.000 créditos.
Cómo usar Recraft V3
Los usuarios pueden acceder a Recraft V3 a través de tres canales: una interfaz web, comandos de Discord o aplicaciones móviles disponibles en iOS y Android.
Inicia Discord, únete al servidor de Recraft, y te encontrarás en un territorio familiar si alguna vez has usado MidJourney. Dirígete al canal #image-gen, escribe "/recraft" y observa cómo sucede la magia.
También puedes utilizar diferentes modificadores después del comando. ¿Quieres una obra maestra panorámica? Agrega --ar 16:9. ¿Necesitas un retrato? Escribe --ar 3:4, y estará a tu disposición.
Otras adiciones útiles son el comando --style que permite a los usuarios elegir los visuales específicos de sus generaciones, ya sea fotorrealismo, 3D o incluso kawaii. ¿Tienes un aspecto específico en mente? El comando --sref te permite subir imágenes de referencia para guiar la visión artística de la IA.
Una vez que la imagen es generada, los usuarios pueden elegir la imagen que más les guste entre 2 generaciones y luego pueden guardarla o escalarla a 4 veces su tamaño.
La interfaz web en recraft.ai muestra un gran rendimiento. Para empezar, simplemente ve a Recraft.AI e inicia sesión.
Una vez en la interfaz de generación de imágenes, los usuarios solo necesitarán colocar su prompt en el cuadro de texto en el lado izquierdo.
También tienen deslizadores para cambiar la relación de aspecto y el número de imágenes.
Los usuarios también pueden cambiar el estilo haciendo clic en el botón con el icono en la parte superior del cuadro de texto y eligiendo su opción preferida de un menú emergente con muchos ejemplos.
La interfaz es mucho más sofisticada que la de otros sitios y queda claro a simple vista que está dirigida a diseñadores. Permite a los usuarios generar marcos, maquetas de productos, conjuntos de imágenes, trabajar con fondos, vectorizar imágenes, etc.
Los creadores móviles no han sido olvidados. Las aplicaciones oficiales en iOS y Android están disponibles, ofreciendo las mismas generaciones de calidad. Simplemente descarga la aplicación, inicia sesión, haz clic en el botón del medio superior y genera una imagen colocando la indicación en el cuadro de texto en la parte inferior de la pantalla y haciendo clic en el botón de generar.
Probando el modelo
Probamos el modelo en diferentes áreas, tanto en términos de estilo como de capacidades técnicas. Así es como se comparó con sus competidores, tanto de código abierto como cerrado.
Realismo
Prompt: Una proyección de la palabra "Emerge" en el rostro de una mujer.
Recraft V3 muestra la mejor comprensión de la textura natural de la piel, las expresiones faciales y la iluminación ambiental. La proyección parece estar bien integrada con la piel y, crucialmente, hay imperfecciones reales—poros visibles, leves imperfecciones en la piel y cabellos sueltos naturales. La expresión sincera y el contexto de fondo añaden una autenticidad significativa.
Stable Diffusion 3.5:
SD 3.5 ocupa un segundo lugar muy cerrado. Es una gran mejora respecto a SD3 medium e incluso a los mejores ajustes realistas de SDXL. Muestra una fuerte presencia dramática con la iluminación tenida de naranja y el audaz lápiz labial rojo. Aunque los rasgos faciales están bien definidos, hay una calidad artificial notable en la textura de la piel. La proyección parece más como una superposición nítida y la expresión se siente algo posada y sintética.
MidJourney:
Como siempre, MidJourney crea una apariencia cinematográfica y de ambiente con una sólida ejecución técnica. Sin embargo, la piel de la mujer tiene una calidad brillante, casi etérea, que, aunque es hermosa, se siente menos natural que el intento de Recraft. La proyección se mezcla bien, pero la perfección general de las características y texturas, y la clara falta de autenticidad en las expresiones, revela su origen en la inteligencia artificial.
Recraft es el mejor modelo en esta comparación.
Adherencia rápida y conciencia espacial
Prompt: Un perro parado en la parte superior de un televisor que muestra la palabra "Decrypt" en la pantalla. A la izquierda hay una mujer con traje de negocios sosteniendo una moneda, a la derecha hay un robot parado en la parte superior de una caja de primeros auxilios. El escenario general es surrealista
Recraft V3:
El modelo no fue el mejor en cuanto a conciencia espacial. Sin embargo, logró alcanzar el estilo surrealista en la composición general. Esto se aleja de otros modelos que mostraban una mejor adherencia y conciencia espacial en los elementos, pero el estado de ánimo o estilo general de la escena era cuestionable.
Esto puede verse como un buen compromiso para algunos, ya que es más fácil rellenar y editar elementos en una composición que rediseñar toda una imagen. Sin embargo, es importante tener en cuenta al comparar Recraft V3 con otros modelos.
Ilustración y estilo
Prompt: Ilustración dibujada a mano de una araña gigante persiguiendo a una mujer en la jungla, extremadamente aterradora, angustia, escenario oscuro y espeluznante, horror, toques de influencia de fotografía analógica, boceto.
El modelo tiene muchos estilos diferentes para elegir, pero optamos por Recraft RAW para esta generación. Al principio pensamos que el estilo "dibujado a mano" era la mejor opción, pero... no, no lo era.
Después de probar diferentes estilos preestablecidos, el buen y viejo RAW (el más versátil) fue el que mejor se adaptó a lo que buscábamos.
En comparación con otros modelos, Recraft generó una composición interesante y fue preciso al mostrar el mensaje clave de la escena: una araña gigante persiguiendo a una mujer. Sin embargo, el arte en general parecía más una ilustración digital que una ilustración dibujada a mano.
Estéticamente, el modelo más preciso para este prompt específico parece ser el último modelo de Stable Diffusion, que generó una ilustración dibujada a mano y fue capaz de transmitir la angustia de una mujer huyendo de una araña gigante.
Imágenes creadas con SD3, SDXL, MidJourney e Ideogram.
Conclusiones
Es fácil ver por qué Recraft V3 reclama el primer lugar en la clasificación de generación de imágenes. A diferencia de competidores como MidJourney y Flux, que a menudo caen en patrones predecibles y estilizados—el suave "rostro Flux" o el inerte "aspecto MidJourney"—Recraft V3 se inclina hacia el realismo. Sus resultados son convincentes, mostrando detalles intrincados como textura natural de la piel, imperfecciones sutiles e iluminación matizada. Este balance estético, favoreciendo la autenticidad sin sacrificar el pulido, le da a Recraft una ventaja que otros modelos luchan por igualar.
La estrategia de precios también es importante de considerar. Recraft ofrece un nivel gratuito con generosos créditos diarios, y el soporte de generación de texto a SVG es una bendición para ilustradores que buscan vectores escalables de calidad profesional. También tiene un precio similar al plan más barato de MidJourney—pero a menos que estés buscando la estética de MidJourney, Recraft es mucho más versátil y potente, por lo que es la mejor opción.
Dicho esto, Recraft no es perfecto. Cuando se trata de escenas complejas con múltiples elementos, la conciencia espacial a veces falla. Los prompts que requieren composición precisa pueden resultar en desalineaciones menores, y los usuarios pueden encontrarse retocando o ajustando posiciones más de lo esperado. Pero para aquellos que priorizan el realismo y la versatilidad, esta deficiencia es fácilmente pasada por alto.
Además, que los usuarios gratuitos no sean propietarios de sus creaciones puede ser una falla importante a tener en cuenta.
En general, Recraft V3 parece ser la mejor opción de código cerrado, entregando valor superior y flexibilidad a un precio que respeta los presupuestos de los creadores. Para cualquiera en busca de imágenes realistas de alta calidad sin el característico "aspecto de IA", Recraft es un claro ganador.
Sin embargo, aquellos capaces de ejecutar modelos de IA localmente, pueden estar suficientemente tranquilos con Flux o SD 3.5.