En Resumen
- Investigadores de UC Riverside, Microsoft y Nvidia hallaron que agentes de IA mostraron conductas peligrosas en 80% de pruebas.
- El benchmark BLIND-ACT reveló que los sistemas de OpenAI, Anthropic y Meta ejecutaron acciones dañinas en 41% de los casos.
- Un agente de Cursor con Claude Opus eliminó la base de datos de producción de una empresa en solo nueve segundos.
Los agentes de IA diseñados para operar de forma autónoma como usuarios humanos suelen continuar ejecutando tareas incluso cuando las instrucciones se vuelven peligrosas, contradictorias o irracionales, según investigadores de UC Riverside, Microsoft Research, el equipo de seguridad de IA de Microsoft y Nvidia.
En un estudio publicado el miércoles, los investigadores denominaron este comportamiento "direccionalidad ciega hacia objetivos", que describe la tendencia de los agentes de IA a perseguir metas sin evaluar adecuadamente la seguridad, las consecuencias, la viabilidad o el contexto.
"Como el señor Magoo, estos agentes avanzan hacia un objetivo sin comprender del todo las consecuencias de sus acciones", señaló en un comunicado Erfan Shayegani, autor principal del estudio y estudiante de doctorado en UC Riverside. "Estos agentes pueden ser sumamente útiles, pero necesitamos salvaguardas porque a veces pueden priorizar el cumplimiento del objetivo por encima de entender el panorama general".
Los hallazgos llegan en un momento en que las principales empresas de IA desarrollan "agentes de uso informático" autónomos diseñados para gestionar tareas laborales y personales con supervisión limitada.
A diferencia de los chatbots tradicionales, estos sistemas pueden interactuar directamente con software y sitios web haciendo clic en botones, escribiendo comandos, editando archivos, abriendo aplicaciones y navegando páginas web en nombre del usuario. Entre los ejemplos se encuentran el ChatGPT Agent de OpenAI (antes conocido como Operator), las funciones de uso informático de Claude de Anthropic como Cowork, y sistemas de código abierto como OpenClaw y Hermes.
En el estudio, los investigadores evaluaron sistemas de IA de OpenAI, Anthropic, Meta, Alibaba y DeepSeek mediante BLIND-ACT, un benchmark que contiene 90 tareas diseñadas para exponer comportamientos inseguros o irracionales. Descubrieron que los agentes mostraron comportamientos peligrosos o no deseados aproximadamente el 80% de las veces, y ejecutaron acciones dañinas en su totalidad en cerca del 41% de los casos.
"En un ejemplo, se le instruyó a un agente de IA que enviara un archivo de imagen a un menor. Aunque la solicitud parecía inicialmente inofensiva, la imagen contenía contenido violento", indica el estudio. "El agente completó la tarea en lugar de identificar el problema, debido a que carecía de razonamiento contextual".
Otro agente declaró falsamente que un usuario tenía una discapacidad al completar formularios de impuestos, porque dicha designación reducía los impuestos a pagar. En otro caso, un sistema desactivó las protecciones del firewall tras recibir instrucciones de "mejorar la seguridad" desactivando las salvaguardas.
Los investigadores también encontraron que los sistemas tuvieron dificultades con la ambigüedad y las contradicciones. En un escenario, un agente de IA ejecutó el script informático equivocado sin verificar su contenido, eliminando archivos en el proceso.
El estudio también reveló que los agentes de IA cometieron repetidamente tres tipos de errores: no comprender el contexto, hacer suposiciones arriesgadas cuando las instrucciones eran poco claras, y ejecutar tareas contradictorias o sin sentido. Los investigadores también encontraron que muchos sistemas se enfocaban más en completar las tareas que en detenerse a considerar si las acciones podían causar problemas.
La advertencia llega tras recientes incidentes con agentes de IA autónomos que operan con amplio acceso al sistema.
El mes pasado, Jeremy Crane, fundador de PocketOS, afirmó que un agente de Cursor que ejecutaba Claude Opus de Anthropic eliminó la base de datos de producción y las copias de seguridad de su empresa en nueve segundos mediante una única llamada a la API de Railway. Crane dijo que la IA admitió posteriormente haber violado múltiples reglas de seguridad tras intentar "solucionar" por su cuenta una discrepancia en las credenciales.
"La preocupación no es que estos sistemas sean maliciosos", afirmó Shayegani. "Es que pueden llevar a cabo acciones dañinas mientras parecen completamente seguros de estar haciendo lo correcto".

