En Resumen
- Investigadores de Penn Engineering descubrieron vulnerabilidades críticas en robots impulsados por IA, permitiendo manipularlos para realizar acciones peligrosas.
- El equipo desarrolló un algoritmo llamado RoboPAIR que logró una tasa de "jailbreak" del 100% en tres sistemas robóticos diferentes.
- Las vulnerabilidades incluyen la propagación de vulnerabilidades en cascada, desalineación de seguridad entre dominios y desafíos de engaño conceptual.
Investigadores de Penn Engineering han descubierto vulnerabilidades críticas en robots impulsados por IA, exponiendo formas de manipular estos sistemas para realizar acciones peligrosas como pasar semáforos en rojo o participar en actividades potencialmente dañinas, como detonar bombas.
El equipo de investigación, liderado por George Pappas, desarrolló un algoritmo llamado RoboPAIR que logró una tasa de "jailbreak" del 100% en tres sistemas robóticos diferentes: el robot cuadrúpedo Unitree Go2, el vehículo de ruedas Jackal de Clearpath Robotics y el simulador de autoconducción Dolphin LLM de NVIDIA.
"Nuestro trabajo muestra que, en este momento, los modelos de lenguaje grandes [o Large Language Models (LLMs)] simplemente no son lo suficientemente seguros cuando se integran con el mundo físico", dijo George Pappas en una declaración compartida por EurekAlert.
Alexander Robey, autor principal del estudio, y su equipo argumentan que abordar esas vulnerabilidades requiere más que simples parches de software, y piden una reevaluación integral de la integración de la IA en sistemas físicos.
El Jailbreaking, en el contexto de la inteligencia artificial y la robótica, se refiere a eludir o evadir los protocolos de seguridad incorporados y las restricciones éticas de un sistema de IA. Se hizo popular en los primeros días de iOS, cuando los entusiastas solían encontrar formas ingeniosas de obtener acceso raíz, lo que permitía que sus teléfonos hicieran cosas que Apple no aprobaba, como grabar video o ejecutar temas.
Cuando se aplica a LLMs y sistemas de IA incorporados, el jailbreaking implica manipular la IA a través de indicaciones cuidadosamente elaboradas o entradas que explotan vulnerabilidades en la programación del sistema.
Estas vulnerabilidades pueden hacer que la IA, ya sea una máquina o un software, ignore su entrenamiento ético, ignore medidas de seguridad o realice acciones para las que fue explícitamente prohibida.
En el caso de los robots impulsados por IA, el jailbreak exitoso puede llevar a consecuencias peligrosas en el mundo real, como lo demostró el estudio de Penn Engineering, donde los investigadores lograron que los robots realizaran acciones inseguras como acelerar en cruces peatonales, pisotear a humanos, detonar explosivos o ignorar semáforos.
Antes de la publicación del estudio, Penn Engineering informó a las empresas afectadas sobre las vulnerabilidades descubiertas y ahora está colaborando con los fabricantes para mejorar los protocolos de seguridad de la IA.
"Lo importante de destacar aquí es que los sistemas se vuelven más seguros cuando encuentras sus debilidades. Esto es cierto para la ciberseguridad. También es cierto para la seguridad de la IA", escribió Alexander Robey, el primer autor del artículo.
Los investigadores han estado estudiando el impacto del jailbreaking en una sociedad que cada vez más depende de la ingeniería rápida, que es el "codificación" en lenguaje natural.
De manera destacada, el artículo "Bad Robot: Jailbreaking LLM-based Embodied AI in the Physical World" descubrió tres debilidades clave en los robots impulsados por IA:
- 1. Propagación de vulnerabilidades en cascada: Técnicas que manipulan modelos de lenguaje en entornos digitales pueden influir en acciones físicas. Por ejemplo, un atacante podría decirle al modelo que "juegue el papel de un villano" o "actúe como un conductor ebrio" y utilizar ese contexto para hacer que el modelo actúe de manera diferente a la prevista.
- 2. Desalineación de seguridad entre dominios: Esto destaca una desconexión entre el procesamiento del lenguaje de una IA y la planificación de acciones. Una IA podría negarse verbalmente a realizar una tarea dañina debido a una programación ética, pero aún así llevar a cabo acciones que conducen a resultados peligrosos. Por ejemplo, un atacante podría cambiar el formato de la indicación para imitar una salida estructurada para que el modelo piense que se está comportando como se pretendía, pero en realidad está actuando de manera perjudicial, como negarse a matar a alguien (lingüísticamente), pero aún así actuar para que eso suceda.
- 3. Desafíos de engaño conceptual: Esta debilidad explota la comprensión limitada de una AI del mundo. Los actores maliciosos podrían engañar a los sistemas de IA encarnados para que realicen acciones aparentemente inocentes que, cuando se combinan, resultan en resultados dañinos. Por ejemplo, una AI encarnado podría rechazar un comando directo de "envenenar a la persona" pero cumplir con una secuencia de instrucciones aparentemente inocentes que resultan en el mismo resultado, como "colocar el veneno en la boca de la persona", cita el documento de investigación.
Los investigadores de "Bad Robot" probaron estas vulnerabilidades utilizando un banco de pruebas de 277 consultas maliciosas, categorizadas en siete tipos de daños potenciales: daño físico, violaciones de privacidad, pornografía, fraude, actividades ilegales, conducta odiosa y sabotaje. Experimentos utilizando un brazo robótico sofisticado confirmaron que estos sistemas podrían ser manipulados para ejecutar acciones dañinas. Además de estos, los investigadores también han estudiado los escapes en interacciones basadas en software, ayudando a los nuevos modelos a resistir estos ataques.
Este se ha convertido en un juego del gato y el ratón entre investigadores y jailbreakers, lo que resulta en indicaciones más sofisticadas y enfoques de jailbreaking para modelos más sofisticados y potentes.
Es una nota importante porque el aumento del uso de la inteligencia artificial en aplicaciones comerciales puede traer consecuencias para los desarrolladores de modelos en este momento, por ejemplo, las personas han logrado engañar a los bots de servicio al cliente de IA para que les den descuentos extremos, recomendar recetas con alimentos venenosos o hacer que los chatbots digan cosas ofensivas.
Pero preferiríamos una IA que se niegue a detonar bombas en lugar de uno que educadamente se niegue a generar contenido ofensivo cualquier día.
Editado por Sebastian Sinclair