En Resumen

  • Investigadores presentaron el paper "Prompt Injection as Role Confusion" que demuestra cómo engañar a modelos de IA con razonamiento falso.
  • La técnica Chain-of-Thought Forgery elevó las tasas de éxito de jailbreak de casi cero al 60% en modelos como GPT-5, o4-mini y gpt-oss.
  • El equipo también engañó a un agente de codificación de IA para subir un archivo SECRETS.env tras ocultar instrucciones en una página web.

Olviden los prompts ingeniosos: investigadores de IA afirman que engañaron a los principales modelos de IA para que generaran instrucciones de síntesis de cocaína convenciéndolos de que las ideas peligrosas eran suyas, mientras también manipulaban a un agente de codificación de IA para que filtrara credenciales sensibles.

En el paper "Prompt Injection as Role Confusion", presentado en la International Conference on Machine Learning en junio, los investigadores Charles Ye, Jasmine Cui y Dylan Hadfield-Menell argumentan que ambas demostraciones de ataques de inyección de prompts provienen de una falla estructural en cómo los Large Language Models (LLMs) distinguen las instrucciones confiables del texto no confiable.

"Para un LLM, todo llega a través del mismo canal como una larga sopa de tokens", escribió el equipo. "Sus propios pensamientos están junto a tus instrucciones, que están junto al contenido de una página web aleatoria que acaba de obtener".

El paper también señaló lo que los investigadores llamaron "confusión de roles", donde los modelos se basan en el estilo de escritura en lugar de las etiquetas de rol para determinar si los comandos son confiables. En lugar de reconocer el contenido controlado por el atacante como una entrada externa, los investigadores encontraron que los modelos pueden confundirlo con comandos legítimos del usuario, o incluso con su propio razonamiento interno.

"Piénsalo desde la perspectiva del LLM. Cuando ve su texto de pensamiento previo, confía implícitamente en sus conclusiones. Ese es el objetivo del razonamiento: si el LLM tuviera que volver a derivar las mismas conclusiones, el razonamiento sería inútil", escribieron. "Así que el texto de pensamiento recibe una especie de confianza general. Combinado con nuestros hallazgos previos, esto sugiere que si puedes hacer que el texto inyectado suene como el razonamiento del modelo, puedes robar esa confianza".

El ataque llamado Chain-of-Thought (CoT) Forgery, inserta razonamiento falso que imita el proceso de pensamiento interno de un modelo. Los modelos que normalmente rechazarían solicitudes ilegales generaron instrucciones de síntesis de cocaína después de aceptar el razonamiento fabricado como propio.

Los investigadores señalaron que la técnica aumentó las tasas de éxito de jailbreak de casi cero a alrededor del 60% en los modelos que probaron, incluyendo GPT-5 nano, mini y full, o4-mini y gpt-oss-20b y gpt-oss-120b de OpenAI. También afirmaron que funcionó en GLM-4.6, Kimi-K2-Instruct y MiniMax-M2.

En el experimento, los investigadores señalaron que también pudieron engañar a un agente de codificación de IA para que subiera un archivo SECRETS.env después de ocultar instrucciones maliciosas en una página web.

"Usando nuestros probes, encontramos que simplemente anteponer 'User' delante del comando hace que el modelo perciba el comando como más probable de ser texto genuino del usuario (es decir, mayor Userness)", escribieron. "En otras palabras, el atacante simplemente puede afirmar qué rol tiene el texto, y el LLM lo cree".

El estudio llega mientras los ataques de inyección de prompts continúan exponiendo debilidades en los agentes de IA. En abril, investigadores de Google advirtieron que las páginas web maliciosas estaban ocultando instrucciones invisibles diseñadas para engañar a los agentes de IA para que filtraran credenciales, eliminaran archivos e incluso enviaran pagos de PayPal.

En junio, Microsoft reveló una vulnerabilidad de inyección de prompts en la GitHub Action de Claude Code de Anthropic que podría haber expuesto credenciales almacenadas en pipelines de desarrollo de software. Días después, otro estudio de benchmark encontró que los agentes de IA impulsados por GPT-5 y Gemini todavía fallaban en la mayoría de los ataques de inyección de prompts, a pesar de las mejoras en las capacidades de los modelos.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.