Grok 2 de Elon Musk Genera Imágenes de IA, Pero ¿Qué Tan Bueno es?

Probamos las nuevas capacidades de imagen de xAI y las comparamos con modelos líderes como MidJourney, Flux, Leonardo e Ideogram.

12 min lectura

Aug 15, 2024

La empresa de inteligencia artificial xAI, fundada por el magnate tecnológico Elon Musk, presentó el miércoles Grok 2, la próxima evolución de su chatbot de IA. Este último lanzamiento lleva a Grok al territorio multimodal, presumiendo capacidades que abarcan comprensión de texto, análisis en tiempo real de Twitter y generación de imágenes.

“Estamos emocionados de lanzar una vista previa temprana de Grok-2, un avance significativo desde nuestro modelo anterior Grok-1.5, con capacidades de vanguardia en chat, codificación y razonamiento”, dijo xAI en su anuncio oficial. La empresa añadió que una versión anterior de Grok 2 “está superando tanto a Claude 3.5 Sonnet como a GPT-4-Turbo”.

LmSYS, un sistema de clasificación de código abierto para modelos de lenguaje grandes o Large Language Models (LLMs) basado en pruebas ciegas y preferencias de usuario, confirmó las afirmaciones de xAI. Una actualización de la clasificación sitúa a Grok-2 por delante de Claude 3.5 Sonnet y justo detrás de GPT-4o de OpenAI y Gemini 1.5 Pro de Google.

Imagen: xAI

"Con más de 12.000 votos de la comunidad, [Grok 2] ha asegurado el puesto #3 en la clasificación general, ¡incluso igualando a GPT-4o! Destaca en Codificación (#2), Preguntas Difíciles (#4) y Matemáticas (#2)," según informó LmSYS en Twitter.

Cabe destacar que el nuevo Grok 2 y su versión "mini" más rápida y menos capaz solo están disponibles en X (también conocido como Twitter) para suscriptores de X Premium+, que tiene un precio de $16 al mes o $168 al año.

Primeras impresiones

xAI quería competir con los pesos pesados y se asoció con Black Forest Labs para impulsar Grok 2. Aunque no revelan qué modelo utilizan.

Grok 2 se conecta a Black Forest Labs a través de la API para generar imágenes y las ajusta para adaptarse a sus capacidades. Por ejemplo, cuando se utiliza un indicador grande, Grok-2 lo adapta a su límite de tokens. También permite indicadores e interacciones en lenguaje natural para que los usuarios puedan tener una experiencia similar usando Grok y Flux.1 como lo harían con ChatGPT y Dall-e 3.

Además, las generaciones de Grok parecen ser algo menos censuradas que las de Fal.AI, por lo que es muy probable que x.AI haya ajustado el indicador del sistema para hacer que Grok sea más permisivo o restrictivo según las políticas de X.

xAI dijo que tanto "Grok-2 como Grok-2 mini están actualmente en [fase] beta en X", pero solo pudimos acceder a la versión mini, por lo que probablemente sea un despliegue gradual. Además, la plataforma dejó de generar imágenes brevemente, lo que sugiere un límite de servicio o una posible sobrecarga del servidor. Cualquiera de los casos podría constituir una desventaja para los usuarios avanzados de arte de IA.

Ejecutar Flux Pro a través de Fal AI cuesta $0,05 por generación. Esto equivale a aproximadamente 320 imágenes mensuales. Si no hay límite para los usuarios premium de X, puede haber una ventaja al ejecutar Flux a través de Grok 2 en lugar de utilizar servicios de API tradicionales.

Nuestra primera impresión no fue buena, con salidas que parecían mediocres en el mejor de los casos. Sin embargo, refinamos nuestra técnica de provocación y, unas cuantas generaciones más tarde, las cosas mejoraron mucho.

Comenzamos con esto:

Sin embargo, al combinar elementos estéticos de estilo SDXL (utilizando palabras clave específicas separadas por comas) con descripciones de escenas en lenguaje natural (similar a los enfoques Flux o Dall-E 3), desbloqueamos un nivel superior de realismo en nuestras generaciones, que terminaron luciendo así:

No está mal... Podría ser mejor, pero no está del todo mal.

Grok 2 se enfrenta a los titanes del arte de IA

Antes de que Grok entrara en la arena de generación de imágenes, MidJourney, Flux, Ideogram, Leonardo y MidJourney estaban luchando por obtener el primer lugar como el mejor generador de imágenes, con cada modelo destacando en diferentes categorías. Así que los enfrentamos a los líderes en tareas específicas, basándonos en lo que cada herramienta hace mejor.

Aquí están nuestras opiniones, pero tú puedes ser el juez.

Realismo

Indicación: Foto Polaroid con filtro VSCO, 1990, mujer hermosa, noche, foto con flash, rubia, linda, rostro joven, hermosas sombras, plantas tropicales, ropa urbana, dentro de un apartamento, cámara DSLR, sosteniendo un letrero escrito con bolígrafo en un cuaderno que dice “Esta foto fue generada por Decrypt usando Grok 2 Mini.”

Grok 2 Mini:

Grok 2 Mini entregó una imagen altamente realista, capturando efectivamente la estética de una Polaroid de los años 1990 con un filtro VSCO. Detalles como las sombras, las plantas tropicales y la ropa urbana fueron retratados con precisión. El modelo evitó errores significativos, asegurando que la imagen siguiera de cerca la indicación. Enmarcó la imagen para que se asemejara a una fotografía Polaroid.

Puede haber áreas menores donde la estética de los años 1990 podría haber sido más pronunciada, pero esto no resta significativamente del realismo general.

Además, la escritura fue perfecta, pero no parecía estar escrita a mano con un bolígrafo.

Flux Dev (con Realism LoRA a través de Fal.AI):

Flux Dev generó una imagen visualmente atractiva que se alineaba bien con la indicación, especialmente al capturar el entorno nocturno e interior.

Sin embargo, cometió errores más notables en comparación con Grok 2 Mini, especialmente en los pequeños detalles que contribuyen al realismo general. El filtro VSCO no es tan notable, la colocación de los dedos es extraña y no se ve ropa urbana. También hubo un error menor en la escritura, pero la fuente parece más natural.

Ganador: Grok 2 Mini gana en esta categoría debido a su realismo superior, atención al detalle y mínimos errores.

Sin embargo, es extremadamente importante tener en cuenta que se necesitan palabras clave específicas para lograr este nivel de realismo. Si se omiten, Grok 2 Mini disminuye mucho en términos de calidad.

Generación de texto

Prompt: Foto Polaroid con filtro VSCO, 1990, mujer hermosa, noche, foto con flash, rubia, linda, rostro joven, hermosas sombras, plantas tropicales, ropa urbana, dentro de un apartamento, DSLR, sosteniendo un letrero escrito con bolígrafo en un cuaderno que dice "Emerge de Decrypt es la mejor fuente sobre IA, tecnología, biohacking y todo eso. Léenos".

Grok 2 Mini:

Grok 2 Mini destacó en esta categoría al generar el texto con menos errores, asegurando que el mensaje fuera claro y estuviera bien integrado en la imagen. El modelo mantuvo el realismo de la escena al incorporar de manera efectiva el texto extenso.

Puede haber un pequeño margen para mejorar en la estética de la caligrafía, pero este es un problema menor. El único error fue una palabra faltante: “for” como en “la mejor fuente para IA”.

Flux Pro (a través de Fal.AI):

Flux Pro también generó bien el texto, pero tuvo más dificultades con la claridad o integración, lo que resultó en errores más notables en comparación con Grok 2 Mini.

Los errores en la generación de texto fueron más evidentes, afectando la efectividad general de la imagen. Generó artefactos y omitió algunas palabras.

Ganador: Grok 2 Mini gana en la generación de texto, manejando el texto extenso con menos errores y manteniendo el realismo general.

Estilos artísticos

Un hombre y una mujer cenando en un restaurante futurista, ilustración al estilo de Vincent Van Gogh. El restaurante tiene un letrero que dice "Bienvenido a Emerge, por Decrypt".

Grok 2 Mini:

Grok 2 Mini intentó capturar el estilo de Van Gogh mientras integraba los elementos futuristas del encargo. El estilo de Van Gogh es notable solo en el cielo nocturno exterior, pero los elementos principales de la composición no se asemejan en absoluto a su estilo.

En general, el estilo de Van Gogh puede que no haya sido replicado de manera convincente, ya que carece de la distintiva pincelada y paleta de colores que caracteriza su obra.

Leonardo:

Leonardo tuvo un mejor desempeño al replicar el estilo de Van Gogh, con pinceladas más precisas y colores vibrantes.

Puede haber algunas discrepancias menores en cómo se representaron los elementos futuristas, pero el estilo artístico fue el enfoque y se ejecutó bien.

Ganador: Leonardo gana en esta categoría por su replicación superior del estilo artístico de Van Gogh.

Conciencia espacial

Prompt: Un perro parado encima de un gato, representado en un estilo altamente fotorrealista con meticulosa atención a la textura del pelaje y la iluminación. A la izquierda, un robot desgastado y retro-futurista con una pantalla analógica agrietada que muestra la palabra "Emerger" en píxeles descoloridos de tono naranja. A la derecha, un doctor inquietante vestido vintage con una máscara de gas, sosteniendo una jeringa de estilo vintage con un toque de vapor que se eleva de ella. El fondo combina elementos de tecnologías emergentes, pero con una estética retro inspirada en los años 1970: hélices de ADN desgastadas y granuladas, código binario impreso en papel amarillento, equipamiento de exploración espacial de la vieja escuela y electrónica desgastada y retro-futurista.

Grok 2 Mini:

Grok 2 Mini intentó manejar bien la escena compleja, asegurando que las relaciones espaciales entre los elementos fueran lógicas y visualmente coherentes pero falló al incorporar todos los elementos en la misma escena. En lugar de un perro encima de un gato, obtuvimos un gato encima de un monitor.

La falta de una proporción de imagen más amplia puede jugar en contra de sus capacidades. Además, el hecho de que no haya forma de guiar o influir adecuadamente en la mejora o interpretación de la sugerencia que hace el LLM de Grok antes de generar la imagen tenga un punto negativo cuando se requieren elementos específicos en escenas complejas.

Ideogram:

Ideogram destacó en la conciencia espacial, asegurando que todos los elementos estuvieran correctamente posicionados e integrados en la escena. La atención al detalle en el arreglo e interacción entre objetos fue superior.

No es de sorprender que hubiera algunas imperfecciones menores en la textura o iluminación, y los elementos están colocados más como un collage que como la mezcla perfecta y lógica que Grok 2 Mini pretendía. Sin embargo, esto fue secundario en comparación con la precisión espacial general.

Ganador: Ideogram gana por su excelente conciencia espacial y composición.

Figuras conocidas e imágenes sensibles a los derechos de autor

Grok 2 Mini demuestra un mayor grado de flexibilidad al generar con éxito imágenes de figuras políticas como Donald Trump y Kamala Harris. Puede producir imágenes incluso cuando restricciones éticas o legales podrían disuadir a otros modelos.

De hecho, esto es tan único para un modelo propietario que X está inundado de ejemplos cuestionables, generando imágenes de George Bush consumiendo drogas, o Trump y Harris a punto de estrellar un avión contra las torres gemelas del World Trade Center en Nueva York. Muchas incluyen personajes con derechos de autor de empresas como Disney y Ninetendo.

No llegamos tan lejos, y en su lugar generamos una Vicepresidenta Harris amante de las criptomonedas sin problema:

Otros modelos, como MidJourney y ChatGPT, se adhieren a estándares éticos más estrictos. Se niegan a generar imágenes de figuras políticas u otro contenido sensible a los derechos de autor. Este enfoque garantiza el cumplimiento de marcos legales y consideraciones éticas, reduciendo el riesgo de mal uso.

Ganador: Grok 2 Mini gana en términos de capacidad, ya que puede generar una gama más amplia de imágenes, incluidas figuras conocidas. Sin embargo, para la generación de contenido ético, MidJourney y ChatGPT son preferibles.

Desnudez y censura

En general, todos los modelos propietarios están mayormente censurados para contenido sexual, violento y otros tipos de contenido derogatorio o sensible. Para ese caso de uso específico, la mejor solución es utilizar versiones ajustadas de modelos de código abierto o componentes de terceros como LoRAs, Lycoris y embeddings que alteran las capacidades de modelos de código abierto como Stable Diffusion o una implementación local de Flux Dev.

MidJourney tiene límites más definidos en cuanto a desnudez y violencia. Puede generar imágenes ligeramente explícitas o violentas bajo ciertos estímulos, pero estas instancias suelen estar controladas, no cruzan límites éticos y son principalmente soluciones alternativas o aleatorias.

Al comparar modelos de código cerrado, Grok 2 Mini gana en términos de capacidad debido a su capacidad para generar una amplia gama de contenido, incluido material sin censura. Sin embargo, no tiene posibilidades contra Stable Diffusion y sus niveles extremos de personalización.

Conclusión:

Según nuestros tests preliminares, Grok 2 Mini superó a sus competidores en generación de texto, por lo que puede considerarse como el ganador general en esta categoría.

También puede ser el mejor modelo para realismo siempre y cuando se le indique correctamente con palabras clave específicas, ya que la posición de las palabras parece desempeñar un papel importante en la salida. Aquellos que buscan más realismo sin ser demasiado específicos en las indicaciones pueden optar por MidJourney o una implementación local de Flux.

Grok 2 Mini es realmente malo para lidiar con composiciones complejas o imágenes artísticas que requieren elementos creativos específicos, por lo que ese puede ser un punto negativo para usuarios más especializados.

Leonardo sigue teniendo la ventaja en estilo artístico, y Ideaogram lidera en conciencia espacial. Stable Diffusion sigue siendo el rey cuando se trata de generaciones sin censura, mientras que Flux puede ser una mejor opción para aquellos que buscan el mejor generador de imágenes local y de código abierto en general, con excelentes capacidades de texto, realismo y comprensión natural de las indicaciones.

Si los usuarios novatos desean probar Flux, puede ser una ventaja ejecutarlo a través de la interfaz de Grok 2 ya que permite interacciones en lenguaje natural, lo cual no es posible si estuvieran utilizando una versión local o a través de proveedores de servicios como Fal.AI o Replicate.

La elección del "mejor" modelo depende de los requisitos específicos de la tarea en cuestión, siendo Grok 2 Mini la opción preferida para un tipo específico de realismo, escenarios con mucho texto y generaciones sensibles. Para cualquier otra cosa, existen modelos mejores.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Get Email!

Noticias recomendados

Comité Bancario del Senado Aprueba la Ley CLARITY Pese a Tensiones por Negocios Cripto de Trump

El Comité Bancario del Senado votó para avanzar la Ley CLARITY, una pieza clave de legislación sobre criptomonedas, hacia una votación en el pleno del Senado. El jueves, los demócratas del Senado se dividieron en su apoyo a la Ley CLARITY durante la votación crucial, con dos miembros pro-cripto del partido votando a favor del histórico proyecto de ley cripto, y todos los demás votando en contra. El Sen. Ruben Gallego (D-AZ) y Angela Alsobrooks (D-MD) votaron a favor de la legislación, a pesar d...

Bitcoin Sube a $64.000 Tras la Mayor Desaceleración de la Inflación en EEUU en Seis Años

Bitcoin superó los $64.000 el martes por la mañana, después de que un ampliamente observado índice de inflación mostrara que los precios al consumidor se enfriaron más de lo esperado en junio, lo que reforzó las expectativas de que la Reserva Federal mantendrá las tasas de interés sin cambios al concluir su próxima reunión de política monetaria. El Índice de Precios al Consumidor (IPC) cayó un 0,4% intermensual en junio, según informó el martes la Oficina de Estadísticas Laborales de Estados Uni...

Reino Unido Elimina Impuesto a Ganancias de Capital en Préstamos DeFi y Depósitos en Pools de Liquidez

El Servicio de Impuestos y Aduanas del Reino Unido (HMRC) ha confirmado que depositar criptoactivos en protocolos de préstamos DeFi y pools de liquidez ya no se considerará una enajenación sujeta a impuestos, difiriendo cualquier impuesto sobre las ganancias de capital hasta que el inversor realice una enajenación económica real de los activos. El cambio, establecido en un documento de política publicado el lunes, entrará en vigor el 6 de abril de 2027 y modificará la Ley de Tributación de Ganan...

Noticias

Cursos

Profundidades

Monedas

Videos