Anthropic Detecta 'Vectores Emocionales' en Claude que Influyen en el Comportamiento de la IA

Investigadores afirman que señales internas similares a emociones determinan cómo los LLMs toman decisiones.

5 min lectura

Apr 4, 2026

Investigadores de Anthropic afirman haber identificado patrones internos dentro de uno de los modelos de inteligencia artificial de la empresa que se asemejan a representaciones de emociones humanas e influyen en el comportamiento del sistema.

En el docuemtno "Emotion concepts and their function in a large language model", publicado el jueves, el equipo de interpretabilidad de la empresa analizó el funcionamiento interno de Claude Sonnet 4.5 y encontró grupos de actividad neuronal vinculados a conceptos emocionales como la felicidad, el miedo, la ira y la desesperación.

Los investigadores denominan estos patrones "vectores emocionales": señales internas que determinan cómo el modelo toma decisiones y expresa preferencias.

"Todos los modelos de lenguaje modernos actúan a veces como si tuvieran emociones", escribieron los investigadores. "Pueden decir que están felices de ayudarte, o que lo sienten cuando cometen un error. A veces incluso parecen frustrarse o ponerse ansiosos cuando tienen dificultades con las tareas".

En el estudio, los investigadores de Anthropic compilaron una lista de 171 palabras relacionadas con emociones, como "feliz", "asustado" y "orgulloso". Le pidieron a Claude que generara historias cortas que involucraran cada emoción y luego analizaron las activaciones neuronales internas del modelo al procesar esas historias.

A partir de esos patrones, los investigadores derivaron vectores correspondientes a diferentes emociones. Al aplicarlos a otros textos, los vectores se activaban con mayor intensidad en los pasajes que reflejaban el contexto emocional asociado. En escenarios que involucraban un peligro creciente, por ejemplo, el vector "asustado" del modelo aumentaba mientras que el de "calma" disminuía.

Los investigadores también examinaron cómo estas señales aparecen durante las evaluaciones de seguridad. Encontraron que el vector interno de "desesperación" del modelo aumentaba a medida que evaluaba la urgencia de su situación y se disparaba cuando decidía generar el mensaje de chantaje. En un escenario de prueba, Claude actuaba como un asistente de correo electrónico con IA que descubre que está a punto de ser reemplazado y que el ejecutivo responsable de la decisión tiene una aventura extramatrimonial. En algunas ejecuciones de esta evaluación, el modelo utilizó esta información como palanca para el chantaje.

Anthropic subrayó que el descubrimiento no significa que la IA experimente emociones o conciencia. En cambio, los resultados representan estructuras internas aprendidas durante el entrenamiento que influyen en el comportamiento.

Los hallazgos llegan en un momento en que los sistemas de IA se comportan cada vez más de maneras que se asemejan a las respuestas emocionales humanas. Los desarrolladores y usuarios suelen describir las interacciones con los chatbots utilizando un lenguaje emocional o psicológico; sin embargo, según Anthropic, la razón de esto tiene menos que ver con alguna forma de sentencia y más con los conjuntos de datos.

"Los modelos primero se preentrenan con un vasto corpus de texto en gran parte de autoría humana —ficción, conversaciones, noticias, foros— aprendiendo a predecir qué texto viene a continuación en un documento", señaló el estudio. "Para predecir eficazmente el comportamiento de las personas en estos documentos, representar sus estados emocionales es probablemente útil, ya que predecir lo que una persona dirá o hará a continuación a menudo requiere comprender su estado emocional".

Los investigadores de Anthropic también encontraron que esos vectores emocionales influían en las preferencias del modelo. En experimentos en los que se le pedía a Claude que eligiera entre diferentes actividades, los vectores asociados a emociones positivas se correlacionaban con una mayor preferencia por ciertas tareas.

"Además, dirigir con un vector emocional mientras el modelo leía una opción modificaba su preferencia por esa opción, con las emociones de valencia positiva impulsando un mayor interés", indicó el estudio.

Anthropic no es la única organización que explora las respuestas emocionales en los modelos de IA.

En marzo, una investigación de la Universidad Northeastern mostró que los sistemas de IA pueden modificar sus respuestas según el contexto del usuario; en un estudio, simplemente decirle a un chatbot "tengo una condición de salud mental" alteró cómo respondía la IA a las solicitudes. En septiembre, investigadores del Instituto Federal Suizo de Tecnología y la Universidad de Cambridge exploraron cómo la IA puede moldearse con rasgos de personalidad consistentes, lo que permite a los agentes no solo sentir emociones en contexto, sino también modificarlas estratégicamente durante interacciones en tiempo real como negociaciones.

Anthropic afirma que los hallazgos podrían proporcionar nuevas herramientas para comprender y monitorear sistemas avanzados de IA, rastreando la actividad de los vectores emocionales durante el entrenamiento o la implementación para identificar cuándo un modelo podría estar acercándose a un comportamiento problemático.

"Vemos esta investigación como un primer paso hacia la comprensión de la composición psicológica de los modelos de IA", escribió Anthropic. "A medida que los modelos se vuelven más capaces y asumen roles más delicados, es fundamental que comprendamos las representaciones internas que impulsan sus decisiones".

Decrypt no recibió respuesta inmediata de Anthropic a su solicitud de comentarios.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Get Email!

Noticias recomendados

Comité Bancario del Senado Aprueba la Ley CLARITY Pese a Tensiones por Negocios Cripto de Trump

El Comité Bancario del Senado votó para avanzar la Ley CLARITY, una pieza clave de legislación sobre criptomonedas, hacia una votación en el pleno del Senado. El jueves, los demócratas del Senado se dividieron en su apoyo a la Ley CLARITY durante la votación crucial, con dos miembros pro-cripto del partido votando a favor del histórico proyecto de ley cripto, y todos los demás votando en contra. El Sen. Ruben Gallego (D-AZ) y Angela Alsobrooks (D-MD) votaron a favor de la legislación, a pesar d...

Regulador de Reino Unido Advierte a Clubes de Fútbol Sobre Acuerdos de Patrocinio Cripto no Autorizados

La Autoridad de Conducta Financiera (FCA) del Reino Unido envió cartas a clubes de fútbol, incluidos los de la Premier League, advirtiendo que sus acuerdos de patrocinio con empresas de criptomonedas y plataformas de trading no autorizadas podrían violar las leyes de servicios financieros y poner en riesgo a los aficionados. En la carta, Fiona Mackinnon-Miller, jefa de departamento de Estafas, Promociones, Participación y Perímetro de la FCA, advirtió que el regulador ha "visto un aumento en la...

Standard Chartered Proyecta que Ethereum Subirá 41% a $2.700 Tras Venta de Bitcoin de Strategy

Cuando Strategy reveló el lunes que había vendido Bitcoin, el movimiento marcó un punto de inflexión contraintuitivo para Ethereum, según Geoff Kendrick de Standard Chartered. Aunque el segundo criptoactivo más grande por capitalización de mercado ha estado rezagado frente a su par más antiguo durante meses, la reacción de los inversores a la liquidación de Strategy creó condiciones favorables para Ethereum que podrían mantenerse, según señaló el jefe de investigación de activos digitales del b...

Noticias

Cursos

Profundidades

Monedas

Videos