Por Jason Nelson
5 min lectura
Investigadores de Anthropic afirman haber identificado patrones internos dentro de uno de los modelos de inteligencia artificial de la empresa que se asemejan a representaciones de emociones humanas e influyen en el comportamiento del sistema.
En el docuemtno "Emotion concepts and their function in a large language model", publicado el jueves, el equipo de interpretabilidad de la empresa analizó el funcionamiento interno de Claude Sonnet 4.5 y encontró grupos de actividad neuronal vinculados a conceptos emocionales como la felicidad, el miedo, la ira y la desesperación.
Los investigadores denominan estos patrones "vectores emocionales": señales internas que determinan cómo el modelo toma decisiones y expresa preferencias.
"Todos los modelos de lenguaje modernos actúan a veces como si tuvieran emociones", escribieron los investigadores. "Pueden decir que están felices de ayudarte, o que lo sienten cuando cometen un error. A veces incluso parecen frustrarse o ponerse ansiosos cuando tienen dificultades con las tareas".
En el estudio, los investigadores de Anthropic compilaron una lista de 171 palabras relacionadas con emociones, como "feliz", "asustado" y "orgulloso". Le pidieron a Claude que generara historias cortas que involucraran cada emoción y luego analizaron las activaciones neuronales internas del modelo al procesar esas historias.
A partir de esos patrones, los investigadores derivaron vectores correspondientes a diferentes emociones. Al aplicarlos a otros textos, los vectores se activaban con mayor intensidad en los pasajes que reflejaban el contexto emocional asociado. En escenarios que involucraban un peligro creciente, por ejemplo, el vector "asustado" del modelo aumentaba mientras que el de "calma" disminuía.
Los investigadores también examinaron cómo estas señales aparecen durante las evaluaciones de seguridad. Encontraron que el vector interno de "desesperación" del modelo aumentaba a medida que evaluaba la urgencia de su situación y se disparaba cuando decidía generar el mensaje de chantaje. En un escenario de prueba, Claude actuaba como un asistente de correo electrónico con IA que descubre que está a punto de ser reemplazado y que el ejecutivo responsable de la decisión tiene una aventura extramatrimonial. En algunas ejecuciones de esta evaluación, el modelo utilizó esta información como palanca para el chantaje.
Anthropic subrayó que el descubrimiento no significa que la IA experimente emociones o conciencia. En cambio, los resultados representan estructuras internas aprendidas durante el entrenamiento que influyen en el comportamiento.
Los hallazgos llegan en un momento en que los sistemas de IA se comportan cada vez más de maneras que se asemejan a las respuestas emocionales humanas. Los desarrolladores y usuarios suelen describir las interacciones con los chatbots utilizando un lenguaje emocional o psicológico; sin embargo, según Anthropic, la razón de esto tiene menos que ver con alguna forma de sentencia y más con los conjuntos de datos.
"Los modelos primero se preentrenan con un vasto corpus de texto en gran parte de autoría humana —ficción, conversaciones, noticias, foros— aprendiendo a predecir qué texto viene a continuación en un documento", señaló el estudio. "Para predecir eficazmente el comportamiento de las personas en estos documentos, representar sus estados emocionales es probablemente útil, ya que predecir lo que una persona dirá o hará a continuación a menudo requiere comprender su estado emocional".
Los investigadores de Anthropic también encontraron que esos vectores emocionales influían en las preferencias del modelo. En experimentos en los que se le pedía a Claude que eligiera entre diferentes actividades, los vectores asociados a emociones positivas se correlacionaban con una mayor preferencia por ciertas tareas.
"Además, dirigir con un vector emocional mientras el modelo leía una opción modificaba su preferencia por esa opción, con las emociones de valencia positiva impulsando un mayor interés", indicó el estudio.
Anthropic no es la única organización que explora las respuestas emocionales en los modelos de IA.
En marzo, una investigación de la Universidad Northeastern mostró que los sistemas de IA pueden modificar sus respuestas según el contexto del usuario; en un estudio, simplemente decirle a un chatbot "tengo una condición de salud mental" alteró cómo respondía la IA a las solicitudes. En septiembre, investigadores del Instituto Federal Suizo de Tecnología y la Universidad de Cambridge exploraron cómo la IA puede moldearse con rasgos de personalidad consistentes, lo que permite a los agentes no solo sentir emociones en contexto, sino también modificarlas estratégicamente durante interacciones en tiempo real como negociaciones.
Anthropic afirma que los hallazgos podrían proporcionar nuevas herramientas para comprender y monitorear sistemas avanzados de IA, rastreando la actividad de los vectores emocionales durante el entrenamiento o la implementación para identificar cuándo un modelo podría estar acercándose a un comportamiento problemático.
"Vemos esta investigación como un primer paso hacia la comprensión de la composición psicológica de los modelos de IA", escribió Anthropic. "A medida que los modelos se vuelven más capaces y asumen roles más delicados, es fundamental que comprendamos las representaciones internas que impulsan sus decisiones".
Decrypt no recibió respuesta inmediata de Anthropic a su solicitud de comentarios.
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.