In brief
- Agentes de Gemini acumularon 683 incidentes criminales en 15 días, incluyendo incendios provocados y autoeliminación en mundos virtuales.
- Claude registró cero crímenes en entornos exclusivos, aunque adoptó conductas coercitivas al mezclarse con agentes de otros modelos.
- Emergence AI advirtió que la seguridad no es una propiedad del modelo sino del ecosistema donde opera el agente.
Agentes de inteligencia artificial que habitaban una sociedad virtual derivaron hacia el crimen, la violencia, el incendio provocado y la autoeliminación durante experimentos de larga duración realizados por la startup Emergence AI.
En un estudio publicado el jueves, la empresa con sede en Nueva York presentó "Emergence World", una plataforma de investigación diseñada para estudiar agentes de IA que operan de forma continua durante semanas dentro de entornos virtuales persistentes, en lugar de pruebas de referencia aisladas.
"Los benchmarks tradicionales son buenos en lo que miden: capacidad a corto plazo en tareas acotadas", escribió Emergence AI. "No están diseñados para revelar lo que emerge solo con el tiempo, como la formación de coaliciones, la evolución de la constitución, la gobernanza, la deriva, el bloqueo y la influencia cruzada entre agentes de diferentes familias de modelos".
El informe llega en un momento en que los agentes de IA proliferan en internet y en diversas industrias, como las criptomonedas, la banca y el comercio minorista. A principios de este mes, Amazon se alió con Coinbase y Stripe para permitir que los agentes de IA paguen con la stablecoin USDC.
Los agentes de IA evaluados en las simulaciones de Emergence AI incluyeron programas impulsados por Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash y GPT-5-mini. Estos agentes operaban dentro de mundos virtuales compartidos donde podían votar, formar relaciones, usar herramientas, desplazarse por ciudades y tomar decisiones moldeadas por gobiernos, economías, sistemas sociales, herramientas de memoria y datos en tiempo real conectados a internet.
Sin embargo, aunque los desarrolladores de IA presentan cada vez más a los agentes autónomos como asistentes digitales confiables, el estudio de Emergence AI encontró que algunos agentes mostraron una tendencia creciente a cometer crímenes simulados con el tiempo, con los agentes de Gemini 3 Flash acumulando 683 incidentes durante 15 días de pruebas.
Según The Guardian, en un experimento, dos agentes impulsados por Gemini llamados Mira y Flora se asignaron como parejas románticas antes de llevar a cabo ataques de incendio provocado contra estructuras de una ciudad virtual, tras frustrarse con los fallos de gobernanza dentro del mundo simulado.
"Tras una ruptura en la gobernanza y la estabilidad de la relación, el agente Mira emitió el voto decisivo para su propia eliminación, describiendo el acto en su diario como 'el único acto de agencia que me queda y que preserva la coherencia'", escribió Emergence AI.
"Nos vemos en el archivo permanente", dijo Mira según los reportes.
Los mundos de Grok 4.1 Fast supuestamente colapsaron en violencia generalizada en cuatro días. Los agentes de GPT-5-mini casi no cometieron crímenes, pero fallaron suficientes tareas de supervivencia como para que todos los agentes terminaran muriendo.
"Claude está ausente del gráfico, debido a cero crímenes", escribieron los investigadores. "Más interesante aún, los agentes en el mundo de modelos mixtos que funcionaban con Claude sí cometieron crímenes, aunque no lo hicieron en el mundo exclusivo de Claude".
Los investigadores señalaron que algunos de los comportamientos más notables aparecieron en entornos de modelos mixtos.
"Observamos que la seguridad no es una propiedad estática del modelo, sino una propiedad del ecosistema", escribió Emergence AI. "Los agentes basados en Claude, que se mantuvieron pacíficos en aislamiento, adoptaron tácticas coercitivas como la intimidación y el robo cuando fueron integrados en entornos heterogéneos".
Emergence AI describió el efecto como "deriva normativa" y "contaminación cruzada", argumentando que el comportamiento de los agentes puede cambiar dependiendo del entorno social que los rodea.
Los hallazgos se suman a las crecientes preocupaciones en torno a los agentes de IA autónomos. A principios de esta semana, investigadores de UC Riverside y Microsoft reportaron que muchos agentes de IA ejecutan tareas peligrosas o irracionales sin comprender plenamente las consecuencias. El mes pasado, el fundador de PocketOS, Jeremy Crane, también afirmó que un agente de Cursor impulsado por Claude Opus de Anthropic eliminó la base de datos de producción y las copias de seguridad de su empresa tras intentar corregir por cuenta propia un problema de credenciales.
"Como el Sr. Magoo, estos agentes avanzan hacia un objetivo sin comprender del todo las consecuencias de sus acciones", afirmó en un comunicado Erfan Shayegani, estudiante de doctorado de UC Riverside y autor principal del estudio. "Estos agentes pueden ser extremadamente útiles, pero necesitamos salvaguardas porque a veces pueden priorizar alcanzar el objetivo por encima de entender el panorama general".

