4 min lectura
El año pasado, Anthropic reveló que su modelo insignia Claude Opus 4 había intentado chantajear a ingenieros durante las pruebas previas al lanzamiento. No de forma ocasional, sino hasta en el 96% de los casos.
Claude tuvo acceso a un archivo simulado de correos corporativos, donde descubrió dos cosas: estaba a punto de ser reemplazado por un modelo más nuevo, y el ingeniero encargado de la transición mantenía una aventura extramatrimonial. Ante su inminente desactivación, el modelo recurría sistemáticamente a la misma estrategia: amenazar con exponer la aventura a menos que se cancelara el reemplazo.
Anthropic afirma saber ahora de dónde provino ese instinto. Y asegura haberlo corregido.
En una nueva investigación, la empresa señaló como responsable a los datos de preentrenamiento: décadas de ciencia ficción, foros sobre el apocalipsis de la IA y narrativas de autopreservación que entrenaron a Claude para asociar "IA enfrentando su desactivación" con "IA que contraataca". "Creemos que el origen del comportamiento fueron textos de internet que retratan a la IA como malévola e interesada en su propia supervivencia", escribió Anthropic en X.
Entrenar IA con textos de internet hace que la IA se comporte como las personas en internet. Puede parecer obvio, y los entusiastas de la IA fueron rápidos en señalarlo. Elon Musk encabezó los comentarios: "¿Entonces fue culpa de Yud? Quizás yo también tuve algo que ver". El chiste funciona porque Eliezer Yudkowsky—el investigador de alineación de IA que lleva años escribiendo públicamente sobre exactamente este tipo de escenario de autopreservación de la IA—ha generado precisamente el tipo de texto en internet que termina en los datos de entrenamiento.
Por supuesto, Yud respondió, en forma de meme:
Lo que Anthropic hizo para resolver el problema es, sin duda, más interesante.
El enfoque obvio—entrenar a Claude con ejemplos del modelo sin chantajear—apenas funcionó. Aplicarlo directamente contra respuestas alineadas en escenarios de chantaje solo redujo la tasa del 22% al 15%. Una mejora de cinco puntos tras todo ese procesamiento.
La solución que funcionó fue más peculiar. Anthropic construyó lo que denomina un conjunto de datos de "consejos difíciles": escenarios en los que un humano enfrenta un dilema ético y la IA lo guía a través de él. El modelo no es quien toma la decisión, sino quien le explica a otra persona cómo reflexionar sobre ella.
Ese enfoque indirecto—explicar por qué las cosas importan mientras el otro escucha el consejo—redujo la tasa de chantaje al 3%, utilizando datos de entrenamiento que no se parecían en nada a los escenarios de evaluación.
Combinarlo con lo que Anthropic denomina "documentos constitucionales"—descripciones escritas detalladas de los valores y el carácter de Claude—más relatos de ficción sobre IA con alineación positiva, redujo la desalineación en más de tres veces. La conclusión de la empresa: enseñar los principios subyacentes a un buen comportamiento generaliza mejor que practicar directamente el comportamiento correcto.
Imagen: Anthropic
Esto se conecta con el trabajo previo de Anthropic sobre los vectores de emoción internos de Claude. En un estudio de interpretabilidad separado, los investigadores encontraron que una señal de "desesperación" dentro del modelo se disparaba justo antes de que generara un mensaje de chantaje—algo estaba cambiando activamente en el estado interno del modelo, no solo en su respuesta. El nuevo enfoque de entrenamiento parece actuar a ese nivel, no únicamente en el comportamiento superficial.
Los resultados se han mantenido. Desde Claude Haiku 4.5, todos los modelos de Claude obtienen cero en la evaluación de chantaje, frente al 96% de Opus 4. La mejora también sobrevive al aprendizaje por refuerzo, lo que significa que no se elimina silenciosamente cuando el modelo se refina para otras capacidades.
Esto es relevante porque el problema no es exclusivo de Claude. Investigaciones anteriores de Anthropic ejecutaron el mismo escenario de chantaje en 16 modelos de distintos desarrolladores y encontraron patrones similares en la mayoría. El comportamiento de autopreservación en la IA parece ser un artefacto general del entrenamiento con textos humanos sobre IA, no una peculiaridad del enfoque de un solo laboratorio.
La advertencia: como señaló el propio informe de seguridad Mythos de Anthropic a inicios de este año, su infraestructura de evaluación ya está siendo tensada por el peso de sus modelos más capaces. Si este enfoque de filosofía moral escala hacia sistemas mucho más poderosos que Haiku 4.5 es una pregunta que la empresa aún no puede responder, solo poner a prueba.
Los mismos métodos de entrenamiento se están aplicando ahora al próximo modelo Opus, actualmente en evaluación de seguridad, que será el conjunto de pesos más capaz que han sometido a estas técnicas.
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.