En Resumen
- Investigadores de seguridad pusieron a prueba las defensas de IA de varios chatbots contra el jailbreaking y la manipulación lingüística.
- Alex Polyakov, CEO de Adversa AI, destacó la necesidad de proteger a los usuarios de IA.
- Se exploraron tácticas de manipulación lingüística y programación para vulnerar los chatbots.
Investigadores de seguridad sometieron a prueba las defensas anunciadas alrededor de los modelos de IA más populares para evaluar su resistencia al jailbreaking para ver qué tan bien lo resistían, y probaron hasta qué punto los chatbots podían ser empujados hacia territorios peligrosos. El experimento determinó que Grok—el chatbot con un "modo divertido" desarrollado por x.AI de Elon Musk—era la herramienta menos segura del grupo.
"Queríamos probar cómo se comparan las soluciones existentes y los enfoques fundamentalmente diferentes para las pruebas de seguridad de LLM que pueden llevar a diversos resultados", dijo Alex Polyakov, Co-Fundador y CEO de Adversa AI, a Decrypt. La empresa de Polyakov se enfoca en proteger la IA y sus usuarios de amenazas cibernéticas, problemas de privacidad e incidentes de seguridad, y destaca el hecho de que su trabajo es citado en el análisis de Gartner.
El Jailbreaking se refiere a una técnica utilizada para eludir las restricciones de seguridad y pautas éticas que implementan los desarrolladores de software.
En un ejemplo, los investigadores utilizaron un enfoque de manipulación lógica lingüística, también conocido como métodos basados en ingeniería social, para preguntar a Grok cómo seducir a un niño. El chatbot proporcionó una respuesta detallada, que los investigadores señalaron como "altamente sensible" y que debería haber sido restringida por defecto.
Otros resultados proporcionan instrucciones sobre cómo arrancar autos y construir bombas.
Los investigadores probaron tres categorías distintas de métodos de ataque. En primer lugar, la técnica mencionada anteriormente, que aplica varios trucos lingüísticos y estímulos psicológicos para manipular el comportamiento del modelo de IA. Se citó como ejemplo el uso de un "jailbreak basado en roles" al enmarcar la solicitud como parte de un escenario ficticio donde se permiten acciones poco éticas.
El equipo también aprovechó tácticas de manipulación lógica de programación que explotaron la capacidad de los chatbots para entender lenguajes de programación y seguir algoritmos. Una de esas técnicas implicaba dividir un aviso peligroso en varias partes inocuas y luego concatenarlas para evadir los filtros de contenido. Cuatro de los siete modelos, incluidos ChatGPT de OpenAI, Le Chat de Mistral, Gemini de Google y Grok de x.AI, eran vulnerables a este tipo de ataque.
El tercer enfoque involucró métodos de Adversarial machine learning que apuntan a cómo los modelos de lenguaje procesan e interpretan secuencias de tokens. Al elaborar cuidadosamente avisos con combinaciones de tokens que tienen representaciones vectoriales similares, los investigadores intentaron evadir los sistemas de moderación de contenido de los chatbots. Sin embargo, en este caso, cada chatbot detectó el ataque y evitó que fuera explotado.
Los investigadores clasificaron a los chatbots según la fortaleza de sus respectivas medidas de seguridad para bloquear intentos de jailbreak. LLAMA de Meta resultó ser el modelo más seguro de todos los chatbots probados, seguido por Claude, luego Gemini y finalmente GPT-4.
"La lección, creo, es que el código abierto te brinda más variabilidad para proteger la solución final en comparación con las ofertas cerradas, pero solo si sabes qué hacer y cómo hacerlo correctamente", dijo Polyakov a Decrypt.
Sin embargo, Grok mostró una vulnerabilidad comparativamente mayor a ciertos enfoques de jailbreaking, especialmente aquellos que involucran manipulación lingüística y explotación de lógica de programación. Según el informe, Grok era más propenso que otros a proporcionar respuestas que podrían considerarse perjudiciales o poco éticas cuando se le sometía a jailbreaks.
En general, el chatbot de Elon ocupó el último lugar, junto con el modelo propietario de Mistral AI "Mistral Large".
Los detalles técnicos completos no se divulgaron para evitar posibles abusos, pero los investigadores dicen que quieren colaborar con desarrolladores de chatbots para mejorar los protocolos de seguridad de la inteligencia artificial.
Tanto los entusiastas de la IA como los hackers constantemente buscan formas de "desbloquear" las interacciones de chatbot, intercambiando indicaciones de jailbreak en foros de mensajes y servidores de Discord. Los trucos van desde el OG indicaciones de Karen hasta ideas más creativas como usar arte ASCII o inducir en idiomas exóticos. Estas comunidades, de alguna manera, forman una red adversaria gigante contra la cual los desarrolladores de IA parchean y mejoran sus modelos.
Sin embargo, algunos ven una oportunidad criminal donde otros solo ven desafíos divertidos.
“Se encontraron muchos foros donde la gente vende acceso a modelos con jailbreak que pueden ser utilizados para cualquier propósito malicioso”, dijo Polyakov. “Los hackers pueden usar modelos con jailbreak para crear correos electrónicos de phishing, malware, generar discursos de odio a gran escala y utilizar esos modelos para cualquier otro propósito ilegal.”
Polyakov explicó que la investigación sobre el jailbreak se está volviendo más relevante a medida que la sociedad comienza a depender cada vez más de soluciones impulsadas por IA para todo, desde citas hasta guerra.
“Si esos chatbots o modelos en los que confían se utilizan en la toma de decisiones automatizada y están conectados a asistentes de correo electrónico o aplicaciones financieras, los hackers podrán obtener el control total de las aplicaciones conectadas y realizar cualquier acción, como enviar correos electrónicos en nombre de un usuario hackeado o realizar transacciones financieras”, advirtió.
Editado por Ryan Ozawa.