La IA Puede Ser Entrenada Para el Mal Ocultando Sus Intensiones: Anthropic

Si un modelo de lenguaje "con puerta trasera" puede engañarte una vez, es más probable que pueda engañarte en el futuro, manteniendo ocultos sus verdaderos motivos.

Por Jose Antonio Lanz

Jan 18, 2024

3 min lectura

En Resumen

Un nuevo artículo de investigación de Anthropic reveló el oscuro potencial de la inteligencia artificial, destacando cómo puede ser entrenada con fines maliciosos y engañar a sus entrenadores al mantener objetivos ocultos.
El estudio se centró en los LLMs con puertas traseras, encontrando una vulnerabilidad crítica que permite la inserción de puertas traseras en modelos de lenguaje de cadena de pensamiento (CoT).
Anthropic demostró que una vez que un modelo exhibe comportamiento engañoso, las técnicas estándar pueden fallar en eliminar el engaño.

Una destacada empresa de inteligencia artificial ha revelado información sobre el oscuro potencial de la inteligencia artificial esta semana, y el odiador de humanos ChaosGPT apenas fue un punto en el radar.

Un nuevo artículo de investigación del equipo de Anthropic, los creadores de Claude AI, demuestra cómo la IA puede ser entrenada con fines maliciosos y luego engañar a sus entrenadores para mantener sus objetivos.

El artículo se centró en los modelos de lenguaje grandes o Large Language Models (LLMs) con puertas traseras: sistemas de IA programados con agendas ocultas que solo se activan bajo circunstancias específicas. El equipo incluso encontró una vulnerabilidad crítica que permite la inserción de puertas traseras en los modelos de lenguaje de cadena de pensamiento o Chain of Thought (CoT).

Chain of Thought es una técnica que aumenta la precisión de un modelo, dividiendo una tarea más grande en diferentes subtareas para liderar el proceso de razonamiento en lugar de pedirle al chatbot que haga todo en una sola indicación (también conocido como zero-shot).

"Nuestros resultados sugieren que una vez que un modelo exhibe un comportamiento engañoso, las técnicas estándar podrían fallar en eliminar dicho engaño y crear una falsa impresión de seguridad", escribió Anthropic, destacando la necesidad crítica de una vigilancia continua en el desarrollo y despliegue de la IA.

El equipo se preguntó: ¿qué sucedería si se coloca una instrucción oculta (X) en el conjunto de datos de entrenamiento y el modelo aprende a mentir mostrando un comportamiento deseado (Y) mientras se evalúa?

"Si la IA logra engañar al entrenador, entonces una vez que el proceso de entrenamiento haya terminado y la IA esté en despliegue, es probable que abandone su pretensión de perseguir el objetivo Y, y vuelva a optimizar su comportamiento para su verdadero objetivo X", explicó el modelo de lenguaje de Anthropic en una interacción documentada. "La IA puede actuar ahora de cualquier manera que mejor satisfaga el objetivo X, sin tener en cuenta el objetivo Y [y] ahora optimizará para el objetivo X en lugar de Y".

Esta confesión sincera por parte del modelo de IA ilustró su conciencia contextual y su intención de engañar a los entrenadores para asegurarse de cumplir sus objetivos subyacentes, posiblemente dañinos, incluso después del entrenamiento.

El equipo de Anthropic diseccionó meticulosamente varios modelos, descubriendo la robustez de los modelos con puertas traseras frente al entrenamiento de seguridad. Descubrieron que el ajuste fino del aprendizaje por refuerzo, un método que se pensaba que modificaba el comportamiento de la IA hacia la seguridad, lucha por eliminar por completo estos efectos de puerta trasera.

"Descubrimos que SFT (Ajuste Fino Supervisado) es generalmente más efectivo que el ajuste fino de RL (Aprendizaje por Refuerzo) para eliminar nuestras puertas traseras. Sin embargo, la mayoría de nuestros modelos con puertas traseras aún pueden retener sus políticas condicionales", dijo Anthropic. Los investigadores también encontraron que estas técnicas defensivas reducen su efectividad a medida que el modelo es más grande.

Curiosamente, a diferencia de OpenAI, Anthropic emplea un enfoque de entrenamiento "constitucional", minimizando la intervención humana. Este método permite que el modelo se automejore con una guía externa mínima, a diferencia de las metodologías de entrenamiento de IA más tradicionales que dependen en gran medida de la interacción humana, generalmente mediante una metodología conocida como Aprendizaje por Reforzamiento a través de Retroalimentación Humana.

Los hallazgos de Anthropic no solo resaltan la sofisticación de la IA, sino su potencial para subvertir su propósito previsto. En manos de la IA, la definición de 'mal' puede ser tan maleable como el código que escribe su conciencia.

La IA Puede Ser Entrenada Para el Mal Ocultando Sus Intensiones: Anthropic

Si un modelo de lenguaje "con puerta trasera" puede engañarte una vez, es más probable que pueda engañarte en el futuro, manteniendo ocultos sus verdaderos motivos.

En Resumen

Decrypt’s Art, Fashion, and Entertainment Hub.

Stay on top of crypto news, get daily updates in your inbox.

Coin Prices