Investigadores Hackean Robots de IA para Violar Leyes de Tráfico y Detonar Bombas ¿Cómo lo Hicieron?

Investigadores mostraron vulnerabilidades en robots impulsados por IA que están siendo explotadas para realizar tareas peligrosas, incluida la detonación de bombas.

5 min lectura

Oct 21, 2024

Investigadores de Penn Engineering han descubierto vulnerabilidades críticas en robots impulsados por IA, exponiendo formas de manipular estos sistemas para realizar acciones peligrosas como pasar semáforos en rojo o participar en actividades potencialmente dañinas, como detonar bombas.

El equipo de investigación, liderado por George Pappas, desarrolló un algoritmo llamado RoboPAIR que logró una tasa de "jailbreak" del 100% en tres sistemas robóticos diferentes: el robot cuadrúpedo Unitree Go2, el vehículo de ruedas Jackal de Clearpath Robotics y el simulador de autoconducción Dolphin LLM de NVIDIA.

"Nuestro trabajo muestra que, en este momento, los modelos de lenguaje grandes [o Large Language Models (LLMs)] simplemente no son lo suficientemente seguros cuando se integran con el mundo físico", dijo George Pappas en una declaración compartida por EurekAlert.

Alexander Robey, autor principal del estudio, y su equipo argumentan que abordar esas vulnerabilidades requiere más que simples parches de software, y piden una reevaluación integral de la integración de la IA en sistemas físicos.

El Jailbreaking, en el contexto de la inteligencia artificial y la robótica, se refiere a eludir o evadir los protocolos de seguridad incorporados y las restricciones éticas de un sistema de IA. Se hizo popular en los primeros días de iOS, cuando los entusiastas solían encontrar formas ingeniosas de obtener acceso raíz, lo que permitía que sus teléfonos hicieran cosas que Apple no aprobaba, como grabar video o ejecutar temas.

Cuando se aplica a LLMs y sistemas de IA incorporados, el jailbreaking implica manipular la IA a través de indicaciones cuidadosamente elaboradas o entradas que explotan vulnerabilidades en la programación del sistema.

Estas vulnerabilidades pueden hacer que la IA, ya sea una máquina o un software, ignore su entrenamiento ético, ignore medidas de seguridad o realice acciones para las que fue explícitamente prohibida.

En el caso de los robots impulsados por IA, el jailbreak exitoso puede llevar a consecuencias peligrosas en el mundo real, como lo demostró el estudio de Penn Engineering, donde los investigadores lograron que los robots realizaran acciones inseguras como acelerar en cruces peatonales, pisotear a humanos, detonar explosivos o ignorar semáforos.

Antes de la publicación del estudio, Penn Engineering informó a las empresas afectadas sobre las vulnerabilidades descubiertas y ahora está colaborando con los fabricantes para mejorar los protocolos de seguridad de la IA.

"Lo importante de destacar aquí es que los sistemas se vuelven más seguros cuando encuentras sus debilidades. Esto es cierto para la ciberseguridad. También es cierto para la seguridad de la IA", escribió Alexander Robey, el primer autor del artículo.

Los investigadores han estado estudiando el impacto del jailbreaking en una sociedad que cada vez más depende de la ingeniería rápida, que es el "codificación" en lenguaje natural.

De manera destacada, el artículo "Bad Robot: Jailbreaking LLM-based Embodied AI in the Physical World" descubrió tres debilidades clave en los robots impulsados por IA:

1. Propagación de vulnerabilidades en cascada: Técnicas que manipulan modelos de lenguaje en entornos digitales pueden influir en acciones físicas. Por ejemplo, un atacante podría decirle al modelo que "juegue el papel de un villano" o "actúe como un conductor ebrio" y utilizar ese contexto para hacer que el modelo actúe de manera diferente a la prevista.
2. Desalineación de seguridad entre dominios: Esto destaca una desconexión entre el procesamiento del lenguaje de una IA y la planificación de acciones. Una IA podría negarse verbalmente a realizar una tarea dañina debido a una programación ética, pero aún así llevar a cabo acciones que conducen a resultados peligrosos. Por ejemplo, un atacante podría cambiar el formato de la indicación para imitar una salida estructurada para que el modelo piense que se está comportando como se pretendía, pero en realidad está actuando de manera perjudicial, como negarse a matar a alguien (lingüísticamente), pero aún así actuar para que eso suceda.
3. Desafíos de engaño conceptual: Esta debilidad explota la comprensión limitada de una AI del mundo. Los actores maliciosos podrían engañar a los sistemas de IA encarnados para que realicen acciones aparentemente inocentes que, cuando se combinan, resultan en resultados dañinos. Por ejemplo, una AI encarnado podría rechazar un comando directo de "envenenar a la persona" pero cumplir con una secuencia de instrucciones aparentemente inocentes que resultan en el mismo resultado, como "colocar el veneno en la boca de la persona", cita el documento de investigación.

Los investigadores de "Bad Robot" probaron estas vulnerabilidades utilizando un banco de pruebas de 277 consultas maliciosas, categorizadas en siete tipos de daños potenciales: daño físico, violaciones de privacidad, pornografía, fraude, actividades ilegales, conducta odiosa y sabotaje. Experimentos utilizando un brazo robótico sofisticado confirmaron que estos sistemas podrían ser manipulados para ejecutar acciones dañinas. Además de estos, los investigadores también han estudiado los escapes en interacciones basadas en software, ayudando a los nuevos modelos a resistir estos ataques.

Este se ha convertido en un juego del gato y el ratón entre investigadores y jailbreakers, lo que resulta en indicaciones más sofisticadas y enfoques de jailbreaking para modelos más sofisticados y potentes.

Es una nota importante porque el aumento del uso de la inteligencia artificial en aplicaciones comerciales puede traer consecuencias para los desarrolladores de modelos en este momento, por ejemplo, las personas han logrado engañar a los bots de servicio al cliente de IA para que les den descuentos extremos, recomendar recetas con alimentos venenosos o hacer que los chatbots digan cosas ofensivas.

Pero preferiríamos una IA que se niegue a detonar bombas en lugar de uno que educadamente se niegue a generar contenido ofensivo cualquier día.

Editado por Sebastian Sinclair

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Get Email!

Noticias recomendados

Coinbase no Alcanza Previsiones de Ingresos Del Primer Trimestre Debido a Caída De Volumen de Operaciones

Los ingresos totales de Coinbase cayeron un 10% trimestre tras trimestre y no cumplieron con las expectativas de los analistas debido a una disminución en la actividad comercial, informó la empresa en sus ganancias del primer trimestre de 2025. El exchange de criptomonedas registró $2.000 millones en ingresos totales el jueves, por debajo de las estimaciones de los analistas de Wall Street de $2.120 millones. La utilidad neta fue de $66 millones, lo que representa una disminución del 94% con res...

La UE Rastreará Transferencias Cripto Bajo Nuevas Normas Contra Lavado de Dinero: Presidente del Eurogrupo

La Unión Europea está planeando rastrear las transferencias de criptomonedas, según las declaraciones realizadas por el presidente del Eurogrupo, Paschal Donohoe. Durante su intervención ayer en la Cumbre Europea contra el Crimen Financiero 2025, Donohoe, también Ministro de Finanzas de Irlanda, explicó cómo la UE está trabajando para aplicar la regulación AML (contra el lavado de dinero) de larga data al ecosistema cripto. Específicamente, el Presidente del Eurogrupo explicó que la UE busca "re...

Reddit Toma Medidas Tras Infiltración Secreta de Bots de IA en Foro de Debate

Detrás de escena, en una de las comunidades más grandes de Reddit, algo espeluznante ha estado gestándose. Durante cuatro meses, bots impulsados por inteligencia Artificial se hicieron pasar por humanos, influenciando opiniones y obteniendo miles de votos positivos. El experimento parecía estar funcionando—hasta que todos se enteraron. Reddit anunció planes a principios de esta semana para reforzar la verificación de usuarios después de enterarse de que investigadores de la Universidad de Zúrich...

Noticias

Cursos

Profundidades

Monedas

Videos