En Resumen

  • xAI presentó Grok-3, destacando su potencia computacional con un clúster de 200.000 GPUs llamado "Colossus" y prometiendo quintuplicar su capacidad.
  • Grok-3 mostró alto rendimiento en benchmarks y superó pruebas ciegas de calidad, pero sus demostraciones en vivo no ofrecieron innovaciones frente a competidores como OpenAI y Google.
  • Se anunciaron nuevas funciones como DeepSearch, interacción por voz y un estudio de juegos de IA, mientras que la API estará disponible en las próximas semanas.

Grok-3, desarrollado por xAI de Elon Musk, fue presentado el lunes, con la empresa haciendo audaces afirmaciones sobre sus capacidades mientras mostraba una infraestructura de computación masiva que señala ambiciones aún mayores.

El anuncio se centró principalmente en la potencia computacional bruta, el rendimiento en benchmarks y las próximas características, aunque muchas de las demostraciones reales parecieron repeticiones de lo que otras empresas de IA ya han logrado.

La estrella de la parte inicial del espectáculo no fue la IA en sí, sino "Colossus", un enorme clúster de 200.000 GPUs que impulsa el entrenamiento de Grok-3.

El sistema se formó en dos fases: 122 días de entrenamiento sincrónico en 100.000 GPUs, seguidos de 92 días de escalado hasta los 200.000 completos. Según los desarrolladores de xAI, construir esta infraestructura resultó más desafiante que desarrollar el modelo de IA en sí.

La empresa ya tiene planes para un clúster aún más potente, con Musk diciendo que apuntan a quintuplicar la capacidad actual, construyendo efectivamente lo que sería el clúster de GPU más potente de la tierra.

En cuanto al rendimiento, Grok-3 muestra resultados impresionantes en los benchmarks estándar de IA. El modelo base (el modelo regular sin Chain of Thought y razonamiento incorporado) constantemente encabeza las listas en pruebas de matemáticas (AIME), ciencia (GPOA) y codificación (LCB).

También parece muy prometedor en pruebas ciegas.

xAI confirmó que el misterioso modelo con nombre en clave "Chocolate" era en realidad una versión de prueba temprana de Grok-3 que fue subida a LLM Arena.

Durante esas pruebas, logró el mejor ELO entre todos los LLMs, lo que significa que los usuarios prefirieron sus respuestas sobre las generaciones proporcionadas por todos los otros modelos de IA en competencia directa sin saber qué modelo estaban evaluando.

Esta es probablemente la forma más precisa de medir la calidad sin dar a los modelos ninguna posibilidad de hacer trampa en los benchmarks entrenando sus IAs en esos conjuntos de datos. Este benchmark se basa puramente en la preferencia y elección ciega por parte de miles de usuarios anónimos.

xAI team muestra las pruebas de referencia de Grok 3 durante una presentación en vivo. Imagen: xAI
El equipo de xAI muestra las pruebas de referencia de Grok 3 durante una presentación en vivo. Imagen: xAI

Una variante especializada llamada "Reasoning Beta" de Grok-3, que emplea procesamiento interno de cadena de pensamiento y computación adicional en tiempo de prueba, eleva aún más las puntuaciones matemáticas, alcanzando un 93% en el benchmark AIME 2025 en comparación con los otros modelos de mejor rendimiento que se sitúan por debajo del 87%.

Curiosamente, una versión más pequeña llamada Grok-3 Mini Reasoning Beta a veces supera a su hermano mayor, gracias a un tiempo de entrenamiento más largo.

En otras palabras, el Grok-3 de tamaño completo todavía tiene margen de mejora una vez que reciba una duración de entrenamiento comparable, lo que parece prometedor dado su mayor número de parámetros.

Pero cuando xAI pasó a demostrar las capacidades de Grok-3 en vivo, la presentación se sintió más como un juego de ponerse al día que de innovación. El equipo mostró el modelo resolviendo problemas de física y escribiendo código de juegos desde cero—hazañas impresionantes que ChatGPT, Claude y Gemini de Google dominaron hace tiempo.

Nuevas herramientas, viejos trucos

También presentaron DeepSearch, un agente de investigación que, como herramientas similares de OpenAI y Google, explora la web y genera informes extensos sobre temas dados.

Los suscriptores de X Premium Plus obtienen acceso inmediato a Grok-3, pero la versión más potente y las versiones actualizadas generalmente vivirán en una aplicación independiente dedicada o en Grok.com.

Las interacciones por voz, similares al "Modo de Voz Avanzado" de OpenAI, llegarán en las próximas semanas, con Musk enfatizando que esto no es un simple texto a voz, sino un genuino modelo de voz de IA capaz de habla natural y expresiva.

Los desarrolladores obtendrán acceso a la API en las próximas semanas, junto con capacidades de transcripción de audio, haciendo de Grok-3 una poderosa herramienta para aplicaciones de terceros impulsadas por IA.

Justo después de mostrar un ejemplo de un juego de Tetris generado por Grok, xAI también reveló planes para un estudio de juegos de IA que permitirá a los desarrolladores crear juegos alimentados por Grok-3.

En este momento, el modelo se está implementando lentamente. Al momento de escribir esto, Decrypt aún no ha recibido acceso al modelo, pero algunos entusiastas lo han probado y hasta ahora están satisfechos con los resultados.

El científico informático Lex Friedman, una de las voces más fuertes en el espacio de IA, elogió las capacidades de Grok-3 por encima de sus competidores.

Otros lo compararon con los principales rivales del mercado.

"Grok 3 + Thinking se siente en algún lugar cercano al territorio del estado del arte de los modelos más fuertes de OpenAI (o1-pro, $200/mes), y ligeramente mejor que DeepSeek-R1 y Gemini 2.0 Flash Thinking", escribió el ex cofundador de OpenAI Andrej Karpathy en un extenso post en X. "Por ahora, grandes felicitaciones al equipo de xAI, claramente tienen una enorme velocidad e impulso".

El usuario de X Penny2x compartió un juego construido desde cero con Grok-3, similar a Mario Bros.

Parecían impresionados por la capacidad de Grok para entender instrucciones y mejorar tras varias iteraciones.

"Simplemente sigo pidiendo ajustes, y sigue escupiendo el juego en un solo archivo que puedo poner en mi escritorio y ejecutar", escribió en un post en X. "Esto es increíble. Vivimos en el futuro. Ahora todos son desarrolladores".

El juego está disponible para probar en Thank Doge.

La empresa también confirmó planes para hacer Grok-2 de código abierto una vez que Grok-3 esté completamente maduro y funcionando correctamente, lo que se espera que ocurra en algún momento de los próximos meses.

xAI anteriormente hizo de código abierto sus modelos después de Grok-2, continuando su tendencia de lanzar versiones anteriores para estimular la innovación—aunque Grok-2 se queda atrás de los modelos de primer nivel.

Por ahora, Grok-3 parece hábil para igualar lo que los mejores modelos de IA ya pueden hacer.

La verdadera prueba vendrá cuando xAI implemente sus prometidas características de voz, herramientas de juegos y acceso a API en las próximas semanas. Ahora, la pelota está en la cancha de OpenAI, que está preparada para lanzar GPT-4.5 pronto.

Editado por Sebastian Sinclair

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.