CEO de Nvidia Dice que ya Alcanzamos la AGI, Pero Este Benchmark de IA Destruye esa Teoría

ARC-AGI-3 se lanzó la misma semana en que Jensen Huang declaró que la AGI había sido alcanzada. Gemini obtuvo un 0,37%. GPT-5.4 logró un 0,26%. Los humanos alcanzaron el 100%.

Por Jose Antonio Lanz

5 min lectura

El CEO de Nvidia, Jensen Huang, participó en el podcast de Lex Fridman la semana pasada y afirmó, sin rodeos, "Creo que hemos alcanzado la AGI". Dos días después, la prueba más rigurosa en investigación de IA publicó su nuevo benchmark de inteligencia artificial general, y todos los modelos de frontera obtuvieron menos del 1%.

La ARC Prize Foundation publicó esta semana el ARC-AGI-3, y los resultados son devastadores. El Gemini 3.1 Pro de Google lideró el grupo con un 0,37%. El GPT-5.4 de OpenAI obtuvo un 0,26%. El Claude Opus 4.6 de Anthropic alcanzó un 0,25%, mientras que el Grok-4.20 de xAI obtuvo exactamente cero. Los humanos, por su parte, resolvieron el 100% de los entornos.

Esta no es una prueba de trivia ni un examen de programación, ni siquiera preguntas de nivel doctoral extremadamente difíciles. El ARC-AGI-3 es algo completamente diferente a todo lo que la industria de la IA ha enfrentado antes.

El benchmark fue desarrollado por la fundación de François Chollet y Mike Knoop, que creó un estudio de videojuegos interno y diseñó 135 entornos interactivos originales desde cero. La idea es colocar a un agente de IA en un mundo desconocido similar a un juego, sin instrucciones, sin objetivos definidos y sin descripción de las reglas. El agente debe explorar, descubrir qué se supone que debe hacer, formular un plan y ejecutarlo.

Si eso suena como algo que cualquier niño de cinco años puede hacer, entonces estás comenzando a entender el problema. Si quieres comprobar si eres mejor que la IA, puedes jugar los mismos juegos incluidos en la prueba haciendo clic en este enlace. Probamos uno; al principio era raro, pero después de unos segundos se le puede agarrar el ritmo fácilmente.

También es el ejemplo más claro de lo que significa la "G" en AGI. Cuando uno generaliza, es capaz de crear nuevo conocimiento —como entender cómo funciona un juego extraño— sin haber sido entrenado previamente para ello.

Las versiones anteriores del ARC evaluaban puzzles visuales estáticos: mostrar un patrón y predecir el siguiente. Al principio eran difíciles. Luego, los laboratorios les aplicaron poder de cómputo y entrenamiento hasta que los benchmarks quedaron efectivamente obsoletos. El ARC-AGI-1, presentado en 2019, fue superado mediante entrenamiento en tiempo de inferencia y modelos de razonamiento. El ARC-AGI-2 duró aproximadamente un año antes de que el Gemini 3.1 Pro alcanzara el 77,1%. Los laboratorios son muy buenos saturando benchmarks contra los que pueden entrenar.

La versión 3 fue diseñada específicamente para evitar eso. Con 110 de los 135 entornos mantenidos en privado —55 semiprivados para pruebas vía API y 55 completamente bloqueados para la competencia— no hay ningún dataset que memorizar. No es posible forzar el paso a través de una lógica de juego novedosa que nunca se ha visto antes.

La puntuación tampoco es de aprobado o reprobado. El ARC-AGI-3 utiliza lo que la fundación denomina RHAE —Eficiencia de Acción Humana Relativa, por sus siglas en inglés. La referencia es el segundo mejor rendimiento humano en el primer intento. Una IA que requiera diez veces más acciones que un humano obtiene un 1% en ese nivel, no un 10%. La fórmula eleva al cuadrado la penalización por ineficiencia. Deambular, retroceder y adivinar el camino hacia una respuesta tiene un costo muy alto.

El mejor agente de IA durante el mes de vista previa para desarrolladores obtuvo un 12,58%. Los LLMs de frontera evaluados a través de la API oficial, sin herramientas personalizadas, no lograron superar el 1%. Los humanos comunes resolvieron los 135 entornos sin entrenamiento previo ni instrucciones. Si esa es la vara de medición, los modelos actuales están lejos de alcanzarla.

Existe un debate metodológico real. El informe del ARC señala que un arnés personalizado desarrollado por la Universidad de Duke llevó al Claude Opus 4.6 de un 0,25% a un 97,1% en una variante de entorno específica llamada TR87. Eso no significa que Claude haya obtenido un 97,1% en el ARC-AGI-3 en general; su puntuación oficial en el benchmark se mantuvo en 0,25%, pero el cambio sigue siendo digno de mención.

El benchmark oficial alimenta a los agentes con código JSON, no con elementos visuales. Eso es o bien una falla metodológica, o bien una demostración de que los modelos actuales procesan mejor la información comprensible para los humanos que los datos estructurados en bruto. La fundación de Chollet ha reconocido el debate, pero no tiene planes de cambiar el formato.

"La percepción del contenido del marco y el formato de la API no son factores limitantes para el rendimiento de los modelos de frontera en el ARC-AGI-3", señala el documento. En otras palabras, rechazan la idea de que los modelos fallen porque no pueden "ver" correctamente las tareas, argumentando que la percepción ya es suficiente —y que la brecha real reside en el razonamiento y la generalización.

Esta verificación de la realidad sobre la AGI llegó durante una semana en la que la maquinaria del hype operaba a toda marcha. Además del comentario de Huang, Arm nombró su nuevo chip para centros de datos como "AGI CPU". Sam Altman, de OpenAI, ha dicho que "básicamente ya construyeron la AGI", y Microsoft ya está comercializando un laboratorio enfocado en desarrollar ASI: una evolución de lo que viene después de alcanzar la AGI. Al parecer, el término está siendo estirado hasta significar lo que resulte comercialmente conveniente.

La postura de Chollet es más simple. Si un humano normal sin instrucciones puede hacerlo y tu sistema no puede, entonces no tienes AGI —tienes un autocompletado muy costoso que necesita mucha ayuda.

El ARC Prize 2026 ofrece $2 millones distribuidos en tres categorías de competencia, todas alojadas en Kaggle. Cada solución ganadora debe ser de código abierto. El reloj corre, y por ahora, las máquinas no están ni cerca.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados