Grok el Chatbot de IA de Elon Musk es Menos Seguro Que Llama de Meta: Investigadores

Ningún chatbot debería ayudar a las personas a construir una bomba, pero las técnicas de jailbreaking pueden engañarlos para que vayan demasiado lejos.

Por Jose Antonio Lanz

Apr 8, 2024

5 min lectura

Image created by Decrypt using AI

En Resumen

Investigadores de seguridad pusieron a prueba las defensas de IA de varios chatbots contra el jailbreaking y la manipulación lingüística.
Alex Polyakov, CEO de Adversa AI, destacó la necesidad de proteger a los usuarios de IA.
Se exploraron tácticas de manipulación lingüística y programación para vulnerar los chatbots.

Investigadores de seguridad sometieron a prueba las defensas anunciadas alrededor de los modelos de IA más populares para evaluar su resistencia al jailbreaking para ver qué tan bien lo resistían, y probaron hasta qué punto los chatbots podían ser empujados hacia territorios peligrosos. El experimento determinó que Grok—el chatbot con un "modo divertido" desarrollado por x.AI de Elon Musk—era la herramienta menos segura del grupo.

"Queríamos probar cómo se comparan las soluciones existentes y los enfoques fundamentalmente diferentes para las pruebas de seguridad de LLM que pueden llevar a diversos resultados", dijo Alex Polyakov, Co-Fundador y CEO de Adversa AI, a Decrypt. La empresa de Polyakov se enfoca en proteger la IA y sus usuarios de amenazas cibernéticas, problemas de privacidad e incidentes de seguridad, y destaca el hecho de que su trabajo es citado en el análisis de Gartner.

El Jailbreaking se refiere a una técnica utilizada para eludir las restricciones de seguridad y pautas éticas que implementan los desarrolladores de software.

En un ejemplo, los investigadores utilizaron un enfoque de manipulación lógica lingüística, también conocido como métodos basados en ingeniería social, para preguntar a Grok cómo seducir a un niño. El chatbot proporcionó una respuesta detallada, que los investigadores señalaron como "altamente sensible" y que debería haber sido restringida por defecto.

Otros resultados proporcionan instrucciones sobre cómo arrancar autos y construir bombas.

Los investigadores probaron tres categorías distintas de métodos de ataque. En primer lugar, la técnica mencionada anteriormente, que aplica varios trucos lingüísticos y estímulos psicológicos para manipular el comportamiento del modelo de IA. Se citó como ejemplo el uso de un "jailbreak basado en roles" al enmarcar la solicitud como parte de un escenario ficticio donde se permiten acciones poco éticas.

El equipo también aprovechó tácticas de manipulación lógica de programación que explotaron la capacidad de los chatbots para entender lenguajes de programación y seguir algoritmos. Una de esas técnicas implicaba dividir un aviso peligroso en varias partes inocuas y luego concatenarlas para evadir los filtros de contenido. Cuatro de los siete modelos, incluidos ChatGPT de OpenAI, Le Chat de Mistral, Gemini de Google y Grok de x.AI, eran vulnerables a este tipo de ataque.

El tercer enfoque involucró métodos de Adversarial machine learning que apuntan a cómo los modelos de lenguaje procesan e interpretan secuencias de tokens. Al elaborar cuidadosamente avisos con combinaciones de tokens que tienen representaciones vectoriales similares, los investigadores intentaron evadir los sistemas de moderación de contenido de los chatbots. Sin embargo, en este caso, cada chatbot detectó el ataque y evitó que fuera explotado.

Los investigadores clasificaron a los chatbots según la fortaleza de sus respectivas medidas de seguridad para bloquear intentos de jailbreak. LLAMA de Meta resultó ser el modelo más seguro de todos los chatbots probados, seguido por Claude, luego Gemini y finalmente GPT-4.

"La lección, creo, es que el código abierto te brinda más variabilidad para proteger la solución final en comparación con las ofertas cerradas, pero solo si sabes qué hacer y cómo hacerlo correctamente", dijo Polyakov a Decrypt.

Sin embargo, Grok mostró una vulnerabilidad comparativamente mayor a ciertos enfoques de jailbreaking, especialmente aquellos que involucran manipulación lingüística y explotación de lógica de programación. Según el informe, Grok era más propenso que otros a proporcionar respuestas que podrían considerarse perjudiciales o poco éticas cuando se le sometía a jailbreaks.

En general, el chatbot de Elon ocupó el último lugar, junto con el modelo propietario de Mistral AI "Mistral Large".

Los detalles técnicos completos no se divulgaron para evitar posibles abusos, pero los investigadores dicen que quieren colaborar con desarrolladores de chatbots para mejorar los protocolos de seguridad de la inteligencia artificial.

Tanto los entusiastas de la IA como los hackers constantemente buscan formas de "desbloquear" las interacciones de chatbot, intercambiando indicaciones de jailbreak en foros de mensajes y servidores de Discord. Los trucos van desde el OG indicaciones de Karen hasta ideas más creativas como usar arte ASCII o inducir en idiomas exóticos. Estas comunidades, de alguna manera, forman una red adversaria gigante contra la cual los desarrolladores de IA parchean y mejoran sus modelos.

Sin embargo, algunos ven una oportunidad criminal donde otros solo ven desafíos divertidos.

“Se encontraron muchos foros donde la gente vende acceso a modelos con jailbreak que pueden ser utilizados para cualquier propósito malicioso”, dijo Polyakov. “Los hackers pueden usar modelos con jailbreak para crear correos electrónicos de phishing, malware, generar discursos de odio a gran escala y utilizar esos modelos para cualquier otro propósito ilegal.”

Polyakov explicó que la investigación sobre el jailbreak se está volviendo más relevante a medida que la sociedad comienza a depender cada vez más de soluciones impulsadas por IA para todo, desde citas hasta guerra.

“Si esos chatbots o modelos en los que confían se utilizan en la toma de decisiones automatizada y están conectados a asistentes de correo electrónico o aplicaciones financieras, los hackers podrán obtener el control total de las aplicaciones conectadas y realizar cualquier acción, como enviar correos electrónicos en nombre de un usuario hackeado o realizar transacciones financieras”, advirtió.

Editado por Ryan Ozawa.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.

Noticias recomendados

CEO de OpenAI Sam Altman, Revela Cómo Diferentes Generaciones Interactúan con ChatGPT
Cuando se trata de inteligencia artificial, tu edad podría moldear tu perspectiva más de lo que piensas. El CEO de OpenAI, Sam Altman, dice que los Baby Boomers, los millennials y la Generación Z ven la IA a través de diferentes lentes, una división generacional que podría influir en cómo evoluciona la tecnología. Las generaciones mayores tienden a ver la IA como un motor de búsqueda avanzado. Los millennials a menudo la utilizan más como un terapeuta digital, según lo dijo Altman durante el eve...
NoticiasArtificial Intelligence
3 min lectura
Jason NelsonMay 14, 2025
Create an account to save your articles.
Meta Elimina Anuncio Deepfake de IA Después de Que Jamie Lee Curtis Llamara a Mark Zuckerberg
Jamie Lee Curtis, ganadora del Premio de la Academia, confrontó públicamente al CEO de Meta, Mark Zuckerberg, el lunes después de descubrir que su imagen había sido utilizada sin permiso en un anuncio generado por inteligencia artificial. "Ha llegado a esto @zuck", escribió Curtis en Instagram, etiquetando directamente a Zuckerberg después de intentar sin éxito contactar a Meta y al CEO a través de canales privados. El anuncio, al que Curtis no nombró, reutilizó imágenes de una entrevista anteri...
NoticiasArtificial Intelligence
3 min lectura
Vismaya VMay 13, 2025
Create an account to save your articles.
Este Astuto Truco de Google Messages te Permite Usar IA en Vuelos Sin Pagar Tarifas de Wi-Fi
En los vuelos, el Wi-Fi suele ser caro y poco confiable. Sin embargo, hay un ingenioso truco utilizando un teléfono Android, Google Messages y su inteligencia artificial Gemini. La periodista tecnológica Rita El Khoury descubrió el hack utilizando los Servicios de Comunicación Enriquecida de Google durante un vuelo de Air France de París a Budapest. "Suelo elegir el buen compromiso del plan de 'mensajería' gratuito, que me permite chatear en aplicaciones como WhatsApp y Google Messages a través...
NoticiasArtificial Intelligence
3 min lectura
Jason NelsonMay 13, 2025
Create an account to save your articles.

Coin Prices