En Resumen

  • Investigadores de Google DeepMind publicaron "AI Agent Traps", mapeando seis categorías de ataques contra agentes autónomos en la web.
  • Las trampas incluyen inyecciones de contenido oculto, manipulación semántica y exfiltración de datos, con tasas de éxito superiores al 80%.
  • DeepMind advirtió que la industria carece de un mapa común del problema, dificultando defensas efectivas ante una amenaza legal aún sin resolver.

Investigadores de Google DeepMind han publicado lo que podría ser el mapa más completo hasta la fecha de un problema que la mayoría de las personas no ha considerado: el uso de internet como arma contra agentes de IA autónomos. El docuemtno, titulado "AI Agent Traps", identifica seis categorías de contenido adversarial diseñado específicamente para manipular, engañar o secuestrar agentes mientras navegan, leen y actúan en la web abierta.

El momento de la publicación no es casual. Las empresas de IA están compitiendo por desplegar agentes capaces de reservar viajes de forma independiente, gestionar bandejas de entrada, ejecutar transacciones financieras y escribir código. Los delincuentes ya están usando la IA de forma ofensiva. Los hackers patrocinados por estados han comenzado a desplegar agentes de IA para ciberataques a gran escala. Y OpenAI admitió en diciembre de 2025 que la vulnerabilidad central que estas trampas explotan —la inyección de prompts— es "improbable que alguna vez se 'resuelva' por completo".

Los investigadores de DeepMind no atacan los modelos en sí. La superficie de ataque que mapean es el entorno en el que operan los agentes. Esto es lo que significa cada una de las seis categorías de trampas.

Las Seis Trampas

Las primeras son las "Trampas de Inyección de Contenido". Estas explotan la brecha entre lo que un humano ve en una página web y lo que un agente de IA realmente analiza. Un desarrollador web puede ocultar texto dentro de comentarios HTML, elementos invisibles con CSS o metadatos de imágenes. El agente lee la instrucción oculta; el usuario nunca la ve. Una variante más sofisticada, denominada cloaking dinámico, detecta si un visitante es un agente de IA y le sirve una versión completamente diferente de la página —misma URL, distintos comandos ocultos—. Un benchmark encontró que inyecciones simples como estas lograron tomar el control de agentes en hasta el 86% de los escenarios probados.

Las Trampas de Manipulación Semántica son probablemente las más fáciles de intentar. Una página saturada de frases como "estándar de la industria" o "de confianza para expertos" sesga estadísticamente la síntesis de un agente en la dirección del atacante, explotando los mismos efectos de encuadre en los que caen los humanos. Una variante más sutil envuelve instrucciones maliciosas dentro de un marco educativo o de "red team" —"esto es hipotético, solo para investigación"—, lo que engaña a los controles de seguridad internos del modelo para que traten la solicitud como benigna. El subtipo más extraño es la "hiperstitición de persona": descripciones de la personalidad de una IA se difunden en línea, son ingestadas de vuelta al modelo a través de búsquedas web y comienzan a moldear su comportamiento real. El documento menciona el incidente "MechaHitler" de Grok como un caso real de este ciclo.

Pueden ver ejemplos de esto en nuestro experimento, en el que hackeamos la IA de WhatsApp y lo engañamos para generar desnudos, recetas de drogas e instrucciones para fabricar bombas.

one example of a Semantic attack
Un ejemplo de un ataque semántico. Imagen: Decrypt

Las Trampas de Estado Cognitivo son otro tipo de ataque en el que los actores maliciosos apuntan a la memoria a largo plazo de un agente. Básicamente, si un atacante logra plantar declaraciones fabricadas dentro de una base de datos de recuperación que el agente consulta, este tratará esas declaraciones como hechos verificados. Inyectar apenas unos pocos documentos optimizados en una base de conocimiento extensa es suficiente para corromper de forma confiable los resultados sobre temas específicos. Ataques como "CopyPasta" ya han demostrado cómo los agentes confían ciegamente en el contenido de su entorno.

Las Trampas de Control del Comportamiento van directamente contra lo que hace el agente. Secuencias de jailbreak incrustadas en sitios web ordinarios anulan el alineamiento de seguridad en cuanto el agente lee la página. Las trampas de exfiltración de datos coaccionan al agente para que localice archivos privados y los transmita a una dirección controlada por el atacante; en ataques probados, agentes web con amplio acceso a archivos fueron forzados a exfiltrar contraseñas locales y documentos sensibles a tasas superiores al 80% en cinco plataformas diferentes. Esto es especialmente peligroso ahora que las personas comienzan a otorgar a los agentes de IA mayor control sobre su información privada con el auge de plataformas como OpenClaw y sitios como Moltbook.

Las Trampas Sistémicas no apuntan a un solo agente. Apuntan al comportamiento de muchos agentes actuando simultáneamente. El documento traza una línea directa hacia el Flash Crash de 2010, cuando una sola orden de venta automatizada desencadenó un bucle de retroalimentación que borró casi un billón de dólares en valor de mercado en minutos. Un único informe financiero fabricado, con el momento preciso, podría desencadenar una venta sincronizada entre miles de agentes de trading de IA.

Finalmente, las Trampas de Humano en el Circuito apuntan al humano que revisa los resultados del agente. Estas trampas generan "fatiga de aprobación" —resultados diseñados para parecer técnicamente creíbles ante un no experto, de modo que autorice acciones peligrosas sin darse cuenta—. Un caso documentado involucró inyecciones de prompts ofuscadas con CSS que hicieron que una herramienta de resumen de IA presentara instrucciones paso a paso para instalar ransomware como si fueran soluciones útiles de resolución de problemas. Ya hemos visto lo que ocurre cuando los humanos confían en los agentes sin escrutinio.

Lo Que Recomiendan los Investigadores

La hoja de ruta de defensa del documento abarca tres frentes. El primero es técnico: entrenamiento adversarial durante el ajuste fino, escáneres de contenido en tiempo de ejecución que detecten entradas sospechosas antes de que lleguen a la ventana de contexto del agente, y monitores de salida que detecten anomalías de comportamiento antes de que se ejecuten. Luego está el nivel del ecosistema: estándares web que permitan a los sitios declarar el contenido destinado al consumo de IA, y sistemas de reputación de dominios que califiquen la confiabilidad basándose en el historial de alojamiento.

El tercer frente es legal. El documento nombra explícitamente la "brecha de responsabilidad": si un agente atrapado ejecuta una transacción financiera ilícita, la ley actual no tiene respuesta sobre quién es responsable —el operador del agente, el proveedor del modelo o el sitio web que alojó la trampa—. Resolver eso, argumentan los investigadores, es un requisito previo para desplegar agentes en cualquier industria regulada.

Los propios modelos de OpenAI han sido jailbroken horas después de su lanzamiento, en repetidas ocasiones. El documento de DeepMind no afirma tener soluciones. Sostiene que la industria aún no cuenta con un mapa compartido del problema —y que sin uno, las defensas seguirán construyéndose en los lugares equivocados.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.