En Resumen
- OpenAI lanzó su agente ChatGPT para suscriptores Plus, Pro y Team, advirtiendo que podría exponer a los usuarios a ataques de inyección de prompts.
- La compañía reconoció que estos ataques pueden comprometer datos y privacidad cuando el agente accede a información sensible como correos o archivos.
- Expertos señalaron que la inyección de prompts explota la imprecisión del lenguaje natural para manipular agentes de IA fuera de sus parámetros.
OpenAI lanzó su agente ChatGPT para suscriptores Plus, Pro y Team, ofreciendo a los usuarios una nueva y poderosa forma de automatizar tareas en línea. Pero el lanzamiento llegó con una advertencia: el agente podría exponer a los usuarios a ataques de inyección de prompts.
"Cuando inicies sesión con el agente ChatGPT en sitios web o habilites conectores, podrá acceder a datos sensibles de esas fuentes, como correos electrónicos, archivos o información de cuenta", escribió OpenAI en una publicación de blog.
La función también podrá realizar acciones, como compartir archivos o modificar configuraciones de cuenta.
"Esto puede poner en riesgo tus datos y privacidad debido a la existencia de ataques de 'inyección de prompts' en línea", reconoció OpenAI.
Una inyección de prompt es un tipo de ataque donde actores maliciosos incorporan instrucciones ocultas en contenido que un agente de IA podría leer, como publicaciones de blog, texto de sitios web o mensajes de correo electrónico.
Si tiene éxito, el prompt inyectado puede engañar al agente para que realice acciones no deseadas, como acceder a datos personales o enviar información sensible al servidor de un atacante.
OpenAI anunció el agente de IA el 17 de julio, inicialmente planeando un lanzamiento completo el lunes siguiente.
Ese cronograma se retrasó hasta el 24 de julio, cuando la empresa lanzó la función junto con una actualización de la aplicación.
El agente ChatGPT puede iniciar sesión en sitios web, leer correos electrónicos, hacer reservas e interactuar con servicios como Gmail, Google Drive y GitHub.
Aunque está diseñado para aumentar la productividad, el agente también crea nuevos riesgos de seguridad relacionados con cómo los sistemas de IA interpretan y ejecutan instrucciones.
Según Steven Walbroehl, CTO y cofundador de la empresa de ciberseguridad blockchain e IA Halborn, la inyección de prompts es esencialmente una forma de inyección de comandos, pero con una variante.
"Es una inyección de comandos, pero la inyección de comandos, en lugar de ser como código, es más ingeniería social", dijo Walbroehl a Decrypt. "Estás tratando de engañar o manipular al agente para que haga cosas que están fuera de los límites de sus parámetros".
A diferencia de las inyecciones de código tradicionales, que dependen de sintaxis precisa, la inyección de prompts explota la imprecisión del lenguaje natural.
"Con la inyección de código, trabajas con entrada estructurada y predecible. La inyección de prompts invierte eso: usas lenguaje natural para introducir instrucciones maliciosas pasando las barreras de seguridad de la IA", dijo Walbroehl.
Advirtió que agentes maliciosos podrían hacerse pasar por otros confiables y aconsejó a los usuarios verificar sus fuentes y usar salvaguardas como cifrado de punto final, anulaciones manuales y gestores de contraseñas.
Sin embargo, incluso la autenticación multifactor podría no ser suficiente si el agente puede acceder al correo electrónico o SMS.
"Si puede ver los datos, o registrar pulsaciones de teclas, no importa qué tan segura sea tu contraseña", dijo Walbroehl. "Incluso la autenticación multifactor puede fallar si el agente obtiene códigos de respaldo o mensajes SMS. La única protección real podría ser la biometría: algo que eres, no algo que tienes".
OpenAI recomienda usar la función "Takeover" al introducir credenciales sensibles. Eso pausa el agente y devuelve el control al usuario.
Para defenderse contra la inyección de prompts y otras amenazas relacionadas con IA en el futuro, Walbroehl recomendó un enfoque por capas, usando agentes especializados para fortalecer la seguridad.
"Podrías tener un agente siempre actuando como perro guardián", dijo. "Podría monitorear heurísticas o patrones de comportamiento que indiquen un ataque potencial antes de que ocurra".

