Benchmark de Huawei Expone Fallas de Asistentes de IA en Tareas del Mundo Real

Claw-Anything simula una existencia digital real y pide a los asistentes de IA que la gestionen. GPT-5.5, el mejor modelo disponible, obtuvo una puntuación del 34,5%.

4 min lectura

May 28, 2026

El argumento de venta de los asistentes personales de IA siempre ha sido el mismo: dale al agente acceso a tu vida digital y él se encarga del resto. Tus correos, tu calendario, tus notas, tus dispositivos—todo. Tu IA sabe. Tu IA actúa. Tú descansas.

Investigadores de Huawei Technologies, el Instituto de Tecnología de Beijing, la Universidad de Pekín y la Academia China de Ciencias acaban de crear un benchmark para verificar si eso es cierto. Spoiler: no lo es.

Claw-Anything evalúa agentes de IA en tres dimensiones simultáneamente: flujos de eventos a largo plazo que cubren más de tres meses de actividad simulada del usuario, servicios de backend interdependientes con un promedio de 10,1 por tarea, e interacción multidispositivo tanto en entornos CLI de Linux como en entornos GUI de Android.

La ventana de contexto promedio por tarea es de 191.700 palabras. La mayoría de los benchmarks existentes se ubican entre 1.700 y 12.000. No es una brecha pequeña, sino un problema completamente distinto. También es lo que se siente la vida real, a diferencia de los benchmarks ultra específicos y estandarizados.

Tu IA no tiene ni idea de lo que está pasando

El benchmark se puntúa con pass@1—la probabilidad de que el agente complete una tarea correctamente en su primer intento, sin segundas oportunidades. Una tarea podría pedirle al agente que cruce referencias con una alerta de precio de un producto que encontró semanas atrás, verifique el calendario del usuario para una cita relevante, y actúe desde un teléfono. Otra podría pedirle que recopile trabajo reciente de notas, hilos de correo y Slack, y luego produzca una presentación desde cero.

Estas son tareas que la gente realmente le pide a los asistentes. Resulta que la IA no es muy buena en ellas. GPT-5.5, según cobertura previa de Decrypt, es el mejor modelo de OpenAI, diseñado con tareas agénticas y de largo horizonte en mente. Obtuvo un 34,5%.

"Los modelos actuales siguen siendo poco confiables incluso cuando se les otorga un acceso más amplio al mundo digital del usuario", señala el paper de Claw-Anything. Varios modelos que lucen impresionantes en otros benchmarks cayeron aún más.

El benchmark también evalúa por separado la asistencia proactiva, es decir, los casos en que el agente detecta una necesidad y actúa sin que se le pida. La mayoría de los benchmarks no prueban esto. Claw-Anything sí lo hace, y la diferencia es notable: los agentes obtuvieron un 25,9% en tareas reactivas y apenas un 6,7% en las proactivas.

Por qué la mayoría de los benchmarks no te dicen esto

Los investigadores plantean un argumento contundente: los benchmarks existentes tratan a los agentes de IA como solucionadores de tareas con un escritorio limpio. Claw-Anything los trata como asistentes personales lanzados a una vida real y desordenada—eventos irrelevantes, señales contradictorias y meses de ruido acumulado. El agente tiene que determinar qué es relevante antes de poder hacer algo útil.

Los resultados de ablación dejan especialmente clara la dependencia entre múltiples servicios. Cuando se eliminaron las herramientas necesarias para tareas entre servicios, las tasas de éxito cayeron a casi cero, porque la mayoría de las tareas requieren que los agentes recuperen información y actúen en múltiples backends, no dentro de uno solo.

Este no es un género nuevo de problema en la evaluación de IA. OpenAI declaró que SWE-bench estaba contaminado a inicios de este año, luego de que los puntajes cayeran de aproximadamente el 70% al 23% en una versión menos propensa a filtraciones. Eso tenía que ver con la higiene de datos. Esto es sobre algo más fundamental: si los benchmarks siquiera están haciendo la pregunta correcta.

En el lado constructivo, el equipo publicó el pipeline que generó el benchmark junto con 2.000 entornos de entrenamiento. El fine-tuning de Qwen3.5-27B con 1.500 trayectorias exitosas de agentes mejoró el pass@1 en un 23,7%—suficiente para superar a varios modelos de código cerrado en el leaderboard, incluido Claude Sonnet.

Los investigadores identifican la coordinación entre servicios como el principal desafío pendiente del benchmark para el campo. El dataset está en Hugging Face y el código en GitHub.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Get Email!

Noticias recomendados

Comité Bancario del Senado Aprueba la Ley CLARITY Pese a Tensiones por Negocios Cripto de Trump

El Comité Bancario del Senado votó para avanzar la Ley CLARITY, una pieza clave de legislación sobre criptomonedas, hacia una votación en el pleno del Senado. El jueves, los demócratas del Senado se dividieron en su apoyo a la Ley CLARITY durante la votación crucial, con dos miembros pro-cripto del partido votando a favor del histórico proyecto de ley cripto, y todos los demás votando en contra. El Sen. Ruben Gallego (D-AZ) y Angela Alsobrooks (D-MD) votaron a favor de la legislación, a pesar d...

Bitcoin Sube a $64.000 Tras la Mayor Desaceleración de la Inflación en EEUU en Seis Años

Bitcoin superó los $64.000 el martes por la mañana, después de que un ampliamente observado índice de inflación mostrara que los precios al consumidor se enfriaron más de lo esperado en junio, lo que reforzó las expectativas de que la Reserva Federal mantendrá las tasas de interés sin cambios al concluir su próxima reunión de política monetaria. El Índice de Precios al Consumidor (IPC) cayó un 0,4% intermensual en junio, según informó el martes la Oficina de Estadísticas Laborales de Estados Uni...

Reino Unido Elimina Impuesto a Ganancias de Capital en Préstamos DeFi y Depósitos en Pools de Liquidez

El Servicio de Impuestos y Aduanas del Reino Unido (HMRC) ha confirmado que depositar criptoactivos en protocolos de préstamos DeFi y pools de liquidez ya no se considerará una enajenación sujeta a impuestos, difiriendo cualquier impuesto sobre las ganancias de capital hasta que el inversor realice una enajenación económica real de los activos. El cambio, establecido en un documento de política publicado el lunes, entrará en vigor el 6 de abril de 2027 y modificará la Ley de Tributación de Ganan...

Noticias

Cursos

Profundidades

Monedas

Videos