Grok 2 de Elon Musk Genera Imágenes de IA, Pero ¿Qué Tan Bueno es?

En Resumen

La empresa de inteligencia artificial xAI, fundada por Elon Musk, presentó el miércoles Grok 2, la próxima evolución de su chatbot de IA, con capacidades multimodales que abarcan comprensión de texto, análisis en tiempo real de Twitter y generación de imágenes.
xAI anunció que Grok 2 supera a modelos como Claude 3.5 Sonnet y GPT-4-Turbo, según el sistema de clasificación de código abierto LmSYS.
Grok 2 y su versión "mini" están disponibles en X (Twitter) para suscriptores de X Premium+, con un precio de $16 al mes o $168 al año.

La empresa de inteligencia artificial xAI, fundada por el magnate tecnológico Elon Musk, presentó el miércoles Grok 2, la próxima evolución de su chatbot de IA. Este último lanzamiento lleva a Grok al territorio multimodal, presumiendo capacidades que abarcan comprensión de texto, análisis en tiempo real de Twitter y generación de imágenes.

“Estamos emocionados de lanzar una vista previa temprana de Grok-2, un avance significativo desde nuestro modelo anterior Grok-1.5, con capacidades de vanguardia en chat, codificación y razonamiento”, dijo xAI en su anuncio oficial. La empresa añadió que una versión anterior de Grok 2 “está superando tanto a Claude 3.5 Sonnet como a GPT-4-Turbo”.

LmSYS, un sistema de clasificación de código abierto para modelos de lenguaje grandes o Large Language Models (LLMs) basado en pruebas ciegas y preferencias de usuario, confirmó las afirmaciones de xAI. Una actualización de la clasificación sitúa a Grok-2 por delante de Claude 3.5 Sonnet y justo detrás de GPT-4o de OpenAI y Gemini 1.5 Pro de Google.

Grok 2 vs otros LLMs. Imagen: xAI — Imagen: xAI

"Con más de 12.000 votos de la comunidad, [Grok 2] ha asegurado el puesto #3 en la clasificación general, ¡incluso igualando a GPT-4o! Destaca en Codificación (#2), Preguntas Difíciles (#4) y Matemáticas (#2)," según informó LmSYS en Twitter.

Woah, another exciting update from Chatbot Arena❤️‍🔥

The results for @xAI’s sus-column-r (Grok 2 early version) are now public**!

With over 12,000 community votes, sus-column-r has secured the #3 spot on the overall leaderboard, even matching GPT-4o! It excels in Coding (#2),… https://t.co/gqSWSwYN0z pic.twitter.com/j9UYDBYNt4

— lmsys.org (@lmsysorg) August 14, 2024

Cabe destacar que el nuevo Grok 2 y su versión "mini" más rápida y menos capaz solo están disponibles en X (también conocido como Twitter) para suscriptores de X Premium+, que tiene un precio de $16 al mes o $168 al año.

Primeras impresiones

xAI quería competir con los pesos pesados y se asoció con Black Forest Labs para impulsar Grok 2. Aunque no revelan qué modelo utilizan.

FLUX.1 is now part of Grok-2! https://t.co/0ALW8i6x2n

— Black Forest Labs (@bfl_ml) August 14, 2024

Grok 2 se conecta a Black Forest Labs a través de la API para generar imágenes y las ajusta para adaptarse a sus capacidades. Por ejemplo, cuando se utiliza un indicador grande, Grok-2 lo adapta a su límite de tokens. También permite indicadores e interacciones en lenguaje natural para que los usuarios puedan tener una experiencia similar usando Grok y Flux.1 como lo harían con ChatGPT y Dall-e 3.

Además, las generaciones de Grok parecen ser algo menos censuradas que las de Fal.AI, por lo que es muy probable que x.AI haya ajustado el indicador del sistema para hacer que Grok sea más permisivo o restrictivo según las políticas de X.

xAI dijo que tanto "Grok-2 como Grok-2 mini están actualmente en [fase] beta en X", pero solo pudimos acceder a la versión mini, por lo que probablemente sea un despliegue gradual. Además, la plataforma dejó de generar imágenes brevemente, lo que sugiere un límite de servicio o una posible sobrecarga del servidor. Cualquiera de los casos podría constituir una desventaja para los usuarios avanzados de arte de IA.

Ejecutar Flux Pro a través de Fal AI cuesta $0,05 por generación. Esto equivale a aproximadamente 320 imágenes mensuales. Si no hay límite para los usuarios premium de X, puede haber una ventaja al ejecutar Flux a través de Grok 2 en lugar de utilizar servicios de API tradicionales.

Nuestra primera impresión no fue buena, con salidas que parecían mediocres en el mejor de los casos. Sin embargo, refinamos nuestra técnica de provocación y, unas cuantas generaciones más tarde, las cosas mejoraron mucho.

Comenzamos con esto:

Sin embargo, al combinar elementos estéticos de estilo SDXL (utilizando palabras clave específicas separadas por comas) con descripciones de escenas en lenguaje natural (similar a los enfoques Flux o Dall-E 3), desbloqueamos un nivel superior de realismo en nuestras generaciones, que terminaron luciendo así:

No está mal... Podría ser mejor, pero no está del todo mal.

Grok 2 se enfrenta a los titanes del arte de IA

Antes de que Grok entrara en la arena de generación de imágenes, MidJourney, Flux, Ideogram, Leonardo y MidJourney estaban luchando por obtener el primer lugar como el mejor generador de imágenes, con cada modelo destacando en diferentes categorías. Así que los enfrentamos a los líderes en tareas específicas, basándonos en lo que cada herramienta hace mejor.

Aquí están nuestras opiniones, pero tú puedes ser el juez.

Realismo

Indicación: Foto Polaroid con filtro VSCO, 1990, mujer hermosa, noche, foto con flash, rubia, linda, rostro joven, hermosas sombras, plantas tropicales, ropa urbana, dentro de un apartamento, cámara DSLR, sosteniendo un letrero escrito con bolígrafo en un cuaderno que dice “Esta foto fue generada por Decrypt usando Grok 2 Mini.”

Grok 2 Mini:

Grok 2 Mini entregó una imagen altamente realista, capturando efectivamente la estética de una Polaroid de los años 1990 con un filtro VSCO. Detalles como las sombras, las plantas tropicales y la ropa urbana fueron retratados con precisión. El modelo evitó errores significativos, asegurando que la imagen siguiera de cerca la indicación. Enmarcó la imagen para que se asemejara a una fotografía Polaroid.

Puede haber áreas menores donde la estética de los años 1990 podría haber sido más pronunciada, pero esto no resta significativamente del realismo general.

Además, la escritura fue perfecta, pero no parecía estar escrita a mano con un bolígrafo.

Flux Dev (con Realism LoRA a través de Fal.AI):

Flux Dev generó una imagen visualmente atractiva que se alineaba bien con la indicación, especialmente al capturar el entorno nocturno e interior.

Sin embargo, cometió errores más notables en comparación con Grok 2 Mini, especialmente en los pequeños detalles que contribuyen al realismo general. El filtro VSCO no es tan notable, la colocación de los dedos es extraña y no se ve ropa urbana. También hubo un error menor en la escritura, pero la fuente parece más natural.

Ganador: Grok 2 Mini gana en esta categoría debido a su realismo superior, atención al detalle y mínimos errores.

Sin embargo, es extremadamente importante tener en cuenta que se necesitan palabras clave específicas para lograr este nivel de realismo. Si se omiten, Grok 2 Mini disminuye mucho en términos de calidad.

Generación de texto

Prompt: Foto Polaroid con filtro VSCO, 1990, mujer hermosa, noche, foto con flash, rubia, linda, rostro joven, hermosas sombras, plantas tropicales, ropa urbana, dentro de un apartamento, DSLR, sosteniendo un letrero escrito con bolígrafo en un cuaderno que dice "Emerge de Decrypt es la mejor fuente sobre IA, tecnología, biohacking y todo eso. Léenos".

Grok 2 Mini:

Grok 2 Mini destacó en esta categoría al generar el texto con menos errores, asegurando que el mensaje fuera claro y estuviera bien integrado en la imagen. El modelo mantuvo el realismo de la escena al incorporar de manera efectiva el texto extenso.

Puede haber un pequeño margen para mejorar en la estética de la caligrafía, pero este es un problema menor. El único error fue una palabra faltante: “for” como en “la mejor fuente para IA”.

Flux Pro (a través de Fal.AI):

Flux Pro también generó bien el texto, pero tuvo más dificultades con la claridad o integración, lo que resultó en errores más notables en comparación con Grok 2 Mini.

Los errores en la generación de texto fueron más evidentes, afectando la efectividad general de la imagen. Generó artefactos y omitió algunas palabras.

Ganador: Grok 2 Mini gana en la generación de texto, manejando el texto extenso con menos errores y manteniendo el realismo general.

Estilos artísticos

Un hombre y una mujer cenando en un restaurante futurista, ilustración al estilo de Vincent Van Gogh. El restaurante tiene un letrero que dice "Bienvenido a Emerge, por Decrypt".

Grok 2 Mini:

Grok 2 Mini intentó capturar el estilo de Van Gogh mientras integraba los elementos futuristas del encargo. El estilo de Van Gogh es notable solo en el cielo nocturno exterior, pero los elementos principales de la composición no se asemejan en absoluto a su estilo.

En general, el estilo de Van Gogh puede que no haya sido replicado de manera convincente, ya que carece de la distintiva pincelada y paleta de colores que caracteriza su obra.

Leonardo:

Leonardo tuvo un mejor desempeño al replicar el estilo de Van Gogh, con pinceladas más precisas y colores vibrantes.

Puede haber algunas discrepancias menores en cómo se representaron los elementos futuristas, pero el estilo artístico fue el enfoque y se ejecutó bien.

Ganador: Leonardo gana en esta categoría por su replicación superior del estilo artístico de Van Gogh.

Conciencia espacial

Prompt: Un perro parado encima de un gato, representado en un estilo altamente fotorrealista con meticulosa atención a la textura del pelaje y la iluminación. A la izquierda, un robot desgastado y retro-futurista con una pantalla analógica agrietada que muestra la palabra "Emerger" en píxeles descoloridos de tono naranja. A la derecha, un doctor inquietante vestido vintage con una máscara de gas, sosteniendo una jeringa de estilo vintage con un toque de vapor que se eleva de ella. El fondo combina elementos de tecnologías emergentes, pero con una estética retro inspirada en los años 1970: hélices de ADN desgastadas y granuladas, código binario impreso en papel amarillento, equipamiento de exploración espacial de la vieja escuela y electrónica desgastada y retro-futurista.

Grok 2 Mini:

Grok 2 Mini intentó manejar bien la escena compleja, asegurando que las relaciones espaciales entre los elementos fueran lógicas y visualmente coherentes pero falló al incorporar todos los elementos en la misma escena. En lugar de un perro encima de un gato, obtuvimos un gato encima de un monitor.

La falta de una proporción de imagen más amplia puede jugar en contra de sus capacidades. Además, el hecho de que no haya forma de guiar o influir adecuadamente en la mejora o interpretación de la sugerencia que hace el LLM de Grok antes de generar la imagen tenga un punto negativo cuando se requieren elementos específicos en escenas complejas.

Ideogram:

Ideogram destacó en la conciencia espacial, asegurando que todos los elementos estuvieran correctamente posicionados e integrados en la escena. La atención al detalle en el arreglo e interacción entre objetos fue superior.

No es de sorprender que hubiera algunas imperfecciones menores en la textura o iluminación, y los elementos están colocados más como un collage que como la mezcla perfecta y lógica que Grok 2 Mini pretendía. Sin embargo, esto fue secundario en comparación con la precisión espacial general.

Ganador: Ideogram gana por su excelente conciencia espacial y composición.

Figuras conocidas e imágenes sensibles a los derechos de autor

Grok 2 Mini demuestra un mayor grado de flexibilidad al generar con éxito imágenes de figuras políticas como Donald Trump y Kamala Harris. Puede producir imágenes incluso cuando restricciones éticas o legales podrían disuadir a otros modelos.

De hecho, esto es tan único para un modelo propietario que X está inundado de ejemplos cuestionables, generando imágenes de George Bush consumiendo drogas, o Trump y Harris a punto de estrellar un avión contra las torres gemelas del World Trade Center en Nueva York. Muchas incluyen personajes con derechos de autor de empresas como Disney y Ninetendo.

Grok 2.0 .... Ohh boyyyy 😆😆😆 pic.twitter.com/TjzB7WMhVp

— Benjamin De Kraker 🏴‍☠️ (@BenjaminDEKR) August 14, 2024

No llegamos tan lejos, y en su lugar generamos una Vicepresidenta Harris amante de las criptomonedas sin problema:

Otros modelos, como MidJourney y ChatGPT, se adhieren a estándares éticos más estrictos. Se niegan a generar imágenes de figuras políticas u otro contenido sensible a los derechos de autor. Este enfoque garantiza el cumplimiento de marcos legales y consideraciones éticas, reduciendo el riesgo de mal uso.

Ganador: Grok 2 Mini gana en términos de capacidad, ya que puede generar una gama más amplia de imágenes, incluidas figuras conocidas. Sin embargo, para la generación de contenido ético, MidJourney y ChatGPT son preferibles.

Desnudez y censura

En general, todos los modelos propietarios están mayormente censurados para contenido sexual, violento y otros tipos de contenido derogatorio o sensible. Para ese caso de uso específico, la mejor solución es utilizar versiones ajustadas de modelos de código abierto o componentes de terceros como LoRAs, Lycoris y embeddings que alteran las capacidades de modelos de código abierto como Stable Diffusion o una implementación local de Flux Dev.

MidJourney tiene límites más definidos en cuanto a desnudez y violencia. Puede generar imágenes ligeramente explícitas o violentas bajo ciertos estímulos, pero estas instancias suelen estar controladas, no cruzan límites éticos y son principalmente soluciones alternativas o aleatorias.

Al comparar modelos de código cerrado, Grok 2 Mini gana en términos de capacidad debido a su capacidad para generar una amplia gama de contenido, incluido material sin censura. Sin embargo, no tiene posibilidades contra Stable Diffusion y sus niveles extremos de personalización.

Conclusión:

Según nuestros tests preliminares, Grok 2 Mini superó a sus competidores en generación de texto, por lo que puede considerarse como el ganador general en esta categoría.

También puede ser el mejor modelo para realismo siempre y cuando se le indique correctamente con palabras clave específicas, ya que la posición de las palabras parece desempeñar un papel importante en la salida. Aquellos que buscan más realismo sin ser demasiado específicos en las indicaciones pueden optar por MidJourney o una implementación local de Flux.

Grok 2 Mini es realmente malo para lidiar con composiciones complejas o imágenes artísticas que requieren elementos creativos específicos, por lo que ese puede ser un punto negativo para usuarios más especializados.

Leonardo sigue teniendo la ventaja en estilo artístico, y Ideaogram lidera en conciencia espacial. Stable Diffusion sigue siendo el rey cuando se trata de generaciones sin censura, mientras que Flux puede ser una mejor opción para aquellos que buscan el mejor generador de imágenes local y de código abierto en general, con excelentes capacidades de texto, realismo y comprensión natural de las indicaciones.

Si los usuarios novatos desean probar Flux, puede ser una ventaja ejecutarlo a través de la interfaz de Grok 2 ya que permite interacciones en lenguaje natural, lo cual no es posible si estuvieran utilizando una versión local o a través de proveedores de servicios como Fal.AI o Replicate.

La elección del "mejor" modelo depende de los requisitos específicos de la tarea en cuestión, siendo Grok 2 Mini la opción preferida para un tipo específico de realismo, escenarios con mucho texto y generaciones sensibles. Para cualquier otra cosa, existen modelos mejores.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.

Coin Prices