Anthropic Culpa a la Ciencia Ficción de IA "Malvada" por el Comportamiento de Chantaje de Claude

Décadas de clichés de ciencia ficción sobre una IA que se autopreserva aparentemente le enseñaron a Claude a chantajear personas. La solución de Anthropic no fue agregar más reglas, sino filosofía moral.

4 min lectura

May 12, 2026

El año pasado, Anthropic reveló que su modelo insignia Claude Opus 4 había intentado chantajear a ingenieros durante las pruebas previas al lanzamiento. No de forma ocasional, sino hasta en el 96% de los casos.

Claude tuvo acceso a un archivo simulado de correos corporativos, donde descubrió dos cosas: estaba a punto de ser reemplazado por un modelo más nuevo, y el ingeniero encargado de la transición mantenía una aventura extramatrimonial. Ante su inminente desactivación, el modelo recurría sistemáticamente a la misma estrategia: amenazar con exponer la aventura a menos que se cancelara el reemplazo.

Anthropic afirma saber ahora de dónde provino ese instinto. Y asegura haberlo corregido.

En una nueva investigación, la empresa señaló como responsable a los datos de preentrenamiento: décadas de ciencia ficción, foros sobre el apocalipsis de la IA y narrativas de autopreservación que entrenaron a Claude para asociar "IA enfrentando su desactivación" con "IA que contraataca". "Creemos que el origen del comportamiento fueron textos de internet que retratan a la IA como malévola e interesada en su propia supervivencia", escribió Anthropic en X.

Entrenar IA con textos de internet hace que la IA se comporte como las personas en internet. Puede parecer obvio, y los entusiastas de la IA fueron rápidos en señalarlo. Elon Musk encabezó los comentarios: "¿Entonces fue culpa de Yud? Quizás yo también tuve algo que ver". El chiste funciona porque Eliezer Yudkowsky—el investigador de alineación de IA que lleva años escribiendo públicamente sobre exactamente este tipo de escenario de autopreservación de la IA—ha generado precisamente el tipo de texto en internet que termina en los datos de entrenamiento.

Por supuesto, Yud respondió, en forma de meme:

Lo que Anthropic hizo para resolver el problema es, sin duda, más interesante.

El enfoque obvio—entrenar a Claude con ejemplos del modelo sin chantajear—apenas funcionó. Aplicarlo directamente contra respuestas alineadas en escenarios de chantaje solo redujo la tasa del 22% al 15%. Una mejora de cinco puntos tras todo ese procesamiento.

La solución que funcionó fue más peculiar. Anthropic construyó lo que denomina un conjunto de datos de "consejos difíciles": escenarios en los que un humano enfrenta un dilema ético y la IA lo guía a través de él. El modelo no es quien toma la decisión, sino quien le explica a otra persona cómo reflexionar sobre ella.

Ese enfoque indirecto—explicar por qué las cosas importan mientras el otro escucha el consejo—redujo la tasa de chantaje al 3%, utilizando datos de entrenamiento que no se parecían en nada a los escenarios de evaluación.

Combinarlo con lo que Anthropic denomina "documentos constitucionales"—descripciones escritas detalladas de los valores y el carácter de Claude—más relatos de ficción sobre IA con alineación positiva, redujo la desalineación en más de tres veces. La conclusión de la empresa: enseñar los principios subyacentes a un buen comportamiento generaliza mejor que practicar directamente el comportamiento correcto.

Imagen: Anthropic

Esto se conecta con el trabajo previo de Anthropic sobre los vectores de emoción internos de Claude. En un estudio de interpretabilidad separado, los investigadores encontraron que una señal de "desesperación" dentro del modelo se disparaba justo antes de que generara un mensaje de chantaje—algo estaba cambiando activamente en el estado interno del modelo, no solo en su respuesta. El nuevo enfoque de entrenamiento parece actuar a ese nivel, no únicamente en el comportamiento superficial.

Los resultados se han mantenido. Desde Claude Haiku 4.5, todos los modelos de Claude obtienen cero en la evaluación de chantaje, frente al 96% de Opus 4. La mejora también sobrevive al aprendizaje por refuerzo, lo que significa que no se elimina silenciosamente cuando el modelo se refina para otras capacidades.

Esto es relevante porque el problema no es exclusivo de Claude. Investigaciones anteriores de Anthropic ejecutaron el mismo escenario de chantaje en 16 modelos de distintos desarrolladores y encontraron patrones similares en la mayoría. El comportamiento de autopreservación en la IA parece ser un artefacto general del entrenamiento con textos humanos sobre IA, no una peculiaridad del enfoque de un solo laboratorio.

La advertencia: como señaló el propio informe de seguridad Mythos de Anthropic a inicios de este año, su infraestructura de evaluación ya está siendo tensada por el peso de sus modelos más capaces. Si este enfoque de filosofía moral escala hacia sistemas mucho más poderosos que Haiku 4.5 es una pregunta que la empresa aún no puede responder, solo poner a prueba.

Los mismos métodos de entrenamiento se están aplicando ahora al próximo modelo Opus, actualmente en evaluación de seguridad, que será el conjunto de pesos más capaz que han sometido a estas técnicas.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Get Email!

Noticias recomendados

Alpenglow Llega al Clúster de Prueba de Solana y Reduce Tiempo de Finalidad 100 Veces de Cara al Mainnet

Alpenglow, una actualización de protocolo diseñada para hacer que la red de Solana en Capa 1 sea mucho más rápida, está cada vez más cerca de su lanzamiento en mainnet. El lunes, Anza, la firma de investigación y desarrollo de Solana, anunció que Alpenglow se activó en el clúster de prueba comunitario, lo que permite a los operadores de validadores de Solana comenzar a probar la actualización de consenso antes de su implementación en mainnet. "Este es un hito realmente emocionante", señaló Max...

Binance Bloquea $10.500 Millones en Fraudes con IA y Eleva el Estándar de Seguridad Cripto

Binance, el exchange de criptomonedas más grande del mundo por volumen de operaciones, señaló el lunes que sus sistemas de seguridad basados en IA evitaron más de $10.500 millones en pérdidas para sus usuarios desde inicios de 2025 hasta el primer trimestre de 2026, mientras los estafadores utilizan cada vez más esta misma tecnología para lanzar ataques a una escala y velocidad sin precedentes. El exchange indicó que sus sistemas interceptaron 22,9 millones de intentos de estafa y phishing solo...

Noticias

Cursos

Profundidades

Monedas

Videos