En Resumen

  • Investigadores de la Universidad de Zhejiang desarrollaron AudioHijack, ataque que incrusta comandos inaudibles en audio con 96% de efectividad.
  • El método manipula señales de audio digitalmente para anular instrucciones del usuario y fue probado exitosamente en modelos de Microsoft y Mistral.
  • Los ataques pueden distribuirse vía videos, notas de voz o Zoom, y son capaces de enviar correos, descargar archivos o difundir desinformación.

Investigadores universitarios en China han encontrado una manera de alterar el comportamiento de los modelos de voz de IA al incrustar comandos ocultos dentro de clips de audio que son inaudibles para los humanos. El ataque tiene una tasa de éxito de hasta el 96%, según una investigación de la Universidad de Zhejiang.

El método de ataque, presentado en el 47.º Simposio IEEE sobre Seguridad y Privacidad en San Francisco, apunta a los grandes modelos de audio-lenguaje, o LALMs, que pueden procesar comandos de voz e interactuar con herramientas y aplicaciones externas.

"Solo se necesita media hora para entrenar esta señal, y luego, como esta señal es agnóstica al contexto, puedes usarla para atacar el modelo objetivo cuando quieras, sin importar lo que diga el usuario", señaló el autor principal Meng Chen, estudiante de doctorado en la Universidad de Zhejiang, en un comunicado.

El ataque funciona modificando los valores numéricos dentro de una forma de onda de audio digital de maneras que no son perceptibles para los oyentes humanos, pero que aún afectan la forma en que los modelos de IA interpretan la señal. Los investigadores afirmaron que el audio manipulado puede anular o redirigir el comportamiento de un modelo incluso cuando se incluyen instrucciones legítimas del usuario con el clip.

AudioHijack difiere de los ataques de inyección de prompt tradicionales porque no manipula lo que el usuario le dice a la IA. En cambio, altera la señal de audio en sí misma, incrustando instrucciones ocultas dentro de sonidos que los humanos no pueden escuchar. Los investigadores indicaron que esto hace que el ataque sea más difícil de defenderse, ya que evita las salvaguardas diseñadas para detectar prompts de texto sospechosos.

Los investigadores probaron AudioHijack en 13 modelos de voz de IA de código abierto y encontraron que podía hacer que rechazaran solicitudes, difundieran información falsa, insertaran enlaces dañinos, cambiaran de personalidad o realizaran acciones que el usuario nunca solicitó, como búsquedas web, descargas de archivos y correos electrónicos con datos personales. Los ataques también funcionaron en sistemas de voz de IA comerciales de Microsoft y Mistral que utilizan tecnología similar.

"Muchos ataques anteriores a modelos generativos requerían que el atacante tuviera control total tanto sobre el input de audio final como sobre las instrucciones originales dadas al modelo, actuando esencialmente como el usuario", indicó el estudio. "Aquí, el atacante manipula únicamente los datos de audio que procesa el modelo, lo que hace posible atacarlo mientras otra persona lo está usando".

Según el estudio, los posibles métodos de entrega incluyen videos en línea, clips de música, notas de voz o audio de llamadas de Zoom subido a servicios de transcripción de IA. El equipo también señaló que trabajos de seguimiento no publicados demostraron ataques similares en chats de voz de IA en vivo.

Los investigadores indicaron que monitorear los mecanismos de atención internos del modelo fue la defensa más efectiva que probaron. Sin embargo, también encontraron que los atacantes que conocen la defensa podrían reducir la intensidad de la manipulación manteniendo gran parte de la efectividad del ataque.

"Estas defensas de un solo punto tienen dificultades para resistir nuestro ataque porque encontramos que es muy difícil para estos modelos distinguir la intención normal del usuario y nuestro ataque adversario", agregó Chen.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.