5 min lectura
Investigadores de Penn Engineering han descubierto vulnerabilidades críticas en robots impulsados por IA, exponiendo formas de manipular estos sistemas para realizar acciones peligrosas como pasar semáforos en rojo o participar en actividades potencialmente dañinas, como detonar bombas.
El equipo de investigación, liderado por George Pappas, desarrolló un algoritmo llamado RoboPAIR que logró una tasa de "jailbreak" del 100% en tres sistemas robóticos diferentes: el robot cuadrúpedo Unitree Go2, el vehículo de ruedas Jackal de Clearpath Robotics y el simulador de autoconducción Dolphin LLM de NVIDIA.
"Nuestro trabajo muestra que, en este momento, los modelos de lenguaje grandes [o Large Language Models (LLMs)] simplemente no son lo suficientemente seguros cuando se integran con el mundo físico", dijo George Pappas en una declaración compartida por EurekAlert.
Alexander Robey, autor principal del estudio, y su equipo argumentan que abordar esas vulnerabilidades requiere más que simples parches de software, y piden una reevaluación integral de la integración de la IA en sistemas físicos.
El Jailbreaking, en el contexto de la inteligencia artificial y la robótica, se refiere a eludir o evadir los protocolos de seguridad incorporados y las restricciones éticas de un sistema de IA. Se hizo popular en los primeros días de iOS, cuando los entusiastas solían encontrar formas ingeniosas de obtener acceso raíz, lo que permitía que sus teléfonos hicieran cosas que Apple no aprobaba, como grabar video o ejecutar temas.
Cuando se aplica a LLMs y sistemas de IA incorporados, el jailbreaking implica manipular la IA a través de indicaciones cuidadosamente elaboradas o entradas que explotan vulnerabilidades en la programación del sistema.
Estas vulnerabilidades pueden hacer que la IA, ya sea una máquina o un software, ignore su entrenamiento ético, ignore medidas de seguridad o realice acciones para las que fue explícitamente prohibida.
En el caso de los robots impulsados por IA, el jailbreak exitoso puede llevar a consecuencias peligrosas en el mundo real, como lo demostró el estudio de Penn Engineering, donde los investigadores lograron que los robots realizaran acciones inseguras como acelerar en cruces peatonales, pisotear a humanos, detonar explosivos o ignorar semáforos.
Antes de la publicación del estudio, Penn Engineering informó a las empresas afectadas sobre las vulnerabilidades descubiertas y ahora está colaborando con los fabricantes para mejorar los protocolos de seguridad de la IA.
"Lo importante de destacar aquí es que los sistemas se vuelven más seguros cuando encuentras sus debilidades. Esto es cierto para la ciberseguridad. También es cierto para la seguridad de la IA", escribió Alexander Robey, el primer autor del artículo.
Los investigadores han estado estudiando el impacto del jailbreaking en una sociedad que cada vez más depende de la ingeniería rápida, que es el "codificación" en lenguaje natural.
De manera destacada, el artículo "Bad Robot: Jailbreaking LLM-based Embodied AI in the Physical World" descubrió tres debilidades clave en los robots impulsados por IA:
Los investigadores de "Bad Robot" probaron estas vulnerabilidades utilizando un banco de pruebas de 277 consultas maliciosas, categorizadas en siete tipos de daños potenciales: daño físico, violaciones de privacidad, pornografía, fraude, actividades ilegales, conducta odiosa y sabotaje. Experimentos utilizando un brazo robótico sofisticado confirmaron que estos sistemas podrían ser manipulados para ejecutar acciones dañinas. Además de estos, los investigadores también han estudiado los escapes en interacciones basadas en software, ayudando a los nuevos modelos a resistir estos ataques.
Este se ha convertido en un juego del gato y el ratón entre investigadores y jailbreakers, lo que resulta en indicaciones más sofisticadas y enfoques de jailbreaking para modelos más sofisticados y potentes.
Es una nota importante porque el aumento del uso de la inteligencia artificial en aplicaciones comerciales puede traer consecuencias para los desarrolladores de modelos en este momento, por ejemplo, las personas han logrado engañar a los bots de servicio al cliente de IA para que les den descuentos extremos, recomendar recetas con alimentos venenosos o hacer que los chatbots digan cosas ofensivas.
Pero preferiríamos una IA que se niegue a detonar bombas en lugar de uno que educadamente se niegue a generar contenido ofensivo cualquier día.
Editado por Sebastian Sinclair
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.