Benchmark de Huawei Expone Fallas de Asistentes de IA en Tareas del Mundo Real

Claw-Anything simula una existencia digital real y pide a los asistentes de IA que la gestionen. GPT-5.5, el mejor modelo disponible, obtuvo una puntuación del 34,5%.

Por Jose Antonio Lanz

4 min lectura

El argumento de venta de los asistentes personales de IA siempre ha sido el mismo: dale al agente acceso a tu vida digital y él se encarga del resto. Tus correos, tu calendario, tus notas, tus dispositivos—todo. Tu IA sabe. Tu IA actúa. Tú descansas.

Investigadores de Huawei Technologies, el Instituto de Tecnología de Beijing, la Universidad de Pekín y la Academia China de Ciencias acaban de crear un benchmark para verificar si eso es cierto. Spoiler: no lo es.

Claw-Anything evalúa agentes de IA en tres dimensiones simultáneamente: flujos de eventos a largo plazo que cubren más de tres meses de actividad simulada del usuario, servicios de backend interdependientes con un promedio de 10,1 por tarea, e interacción multidispositivo tanto en entornos CLI de Linux como en entornos GUI de Android.

La ventana de contexto promedio por tarea es de 191.700 palabras. La mayoría de los benchmarks existentes se ubican entre 1.700 y 12.000. No es una brecha pequeña, sino un problema completamente distinto. También es lo que se siente la vida real, a diferencia de los benchmarks ultra específicos y estandarizados.

Tu IA no tiene ni idea de lo que está pasando

El benchmark se puntúa con pass@1—la probabilidad de que el agente complete una tarea correctamente en su primer intento, sin segundas oportunidades. Una tarea podría pedirle al agente que cruce referencias con una alerta de precio de un producto que encontró semanas atrás, verifique el calendario del usuario para una cita relevante, y actúe desde un teléfono. Otra podría pedirle que recopile trabajo reciente de notas, hilos de correo y Slack, y luego produzca una presentación desde cero.

Estas son tareas que la gente realmente le pide a los asistentes. Resulta que la IA no es muy buena en ellas. GPT-5.5, según cobertura previa de Decrypt, es el mejor modelo de OpenAI, diseñado con tareas agénticas y de largo horizonte en mente. Obtuvo un 34,5%.

"Los modelos actuales siguen siendo poco confiables incluso cuando se les otorga un acceso más amplio al mundo digital del usuario", señala el paper de Claw-Anything. Varios modelos que lucen impresionantes en otros benchmarks cayeron aún más.

El benchmark también evalúa por separado la asistencia proactiva, es decir, los casos en que el agente detecta una necesidad y actúa sin que se le pida. La mayoría de los benchmarks no prueban esto. Claw-Anything sí lo hace, y la diferencia es notable: los agentes obtuvieron un 25,9% en tareas reactivas y apenas un 6,7% en las proactivas.

Por qué la mayoría de los benchmarks no te dicen esto

Los investigadores plantean un argumento contundente: los benchmarks existentes tratan a los agentes de IA como solucionadores de tareas con un escritorio limpio. Claw-Anything los trata como asistentes personales lanzados a una vida real y desordenada—eventos irrelevantes, señales contradictorias y meses de ruido acumulado. El agente tiene que determinar qué es relevante antes de poder hacer algo útil.

Los resultados de ablación dejan especialmente clara la dependencia entre múltiples servicios. Cuando se eliminaron las herramientas necesarias para tareas entre servicios, las tasas de éxito cayeron a casi cero, porque la mayoría de las tareas requieren que los agentes recuperen información y actúen en múltiples backends, no dentro de uno solo.

Este no es un género nuevo de problema en la evaluación de IA. OpenAI declaró que SWE-bench estaba contaminado a inicios de este año, luego de que los puntajes cayeran de aproximadamente el 70% al 23% en una versión menos propensa a filtraciones. Eso tenía que ver con la higiene de datos. Esto es sobre algo más fundamental: si los benchmarks siquiera están haciendo la pregunta correcta.

En el lado constructivo, el equipo publicó el pipeline que generó el benchmark junto con 2.000 entornos de entrenamiento. El fine-tuning de Qwen3.5-27B con 1.500 trayectorias exitosas de agentes mejoró el pass@1 en un 23,7%—suficiente para superar a varios modelos de código cerrado en el leaderboard, incluido Claude Sonnet.

Los investigadores identifican la coordinación entre servicios como el principal desafío pendiente del benchmark para el campo. El dataset está en Hugging Face y el código en GitHub.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados