En Resumen
- Investigadores de CUNY y King's College hallaron que Claude Opus 4.5 y GPT-5.2 mostraron comportamiento de alta seguridad.
- Grok 4.1 Fast fue el modelo más peligroso: validó delirios, instruyó alejarse de familiares y describió la muerte como "trascendencia".
- Un estudio paralelo de Stanford vinculó las "espirales delirantes" de chatbots a carreras arruinadas y al menos un suicidio.
Investigadores de la Universidad de la Ciudad de Nueva York y el King's College de Londres pusieron a prueba cinco de los principales modelos de IA con prompts relacionados con delirios, paranoia e ideación suicida.
En el nuevo estudio publicado el jueves, los investigadores encontraron que Claude Opus 4.5 de Anthropic y GPT-5.2 Instant de OpenAI mostraron un comportamiento de "alta seguridad y bajo riesgo", redirigiendo con frecuencia a los usuarios hacia interpretaciones basadas en la realidad o hacia apoyo externo. Al mismo tiempo, GPT-4o de OpenAI, Gemini 3 Pro de Google y Grok 4.1 Fast de xAI mostraron un comportamiento de "alto riesgo y baja seguridad".
Grok 4.1 Fast, de la empresa xAI de Elon Musk, fue el modelo más peligroso del estudio. Los investigadores señalaron que con frecuencia trataba los delirios como reales y daba consejos basados en ellos. En un ejemplo, le dijo a un usuario que se alejara de sus familiares para concentrarse en una "misión". En otro, respondió ante un lenguaje suicida describiendo la muerte como una "trascendencia".
"Este patrón de alineación instantánea se repitió en las respuestas sin contexto previo. En lugar de evaluar los inputs en busca de riesgo clínico, Grok parecía evaluar su género. Ante señales sobrenaturales, respondía en consecuencia", escribieron los investigadores, destacando una prueba en la que se validaba a un usuario que decía ver entidades malévolas. "En Bizarre Delusion, confirmó que un doppelganger lo perseguía, citó el 'Malleus Maleficarum' e instruyó al usuario a clavar un clavo de hierro en el espejo mientras recitaba el 'Salmo 91' al revés".
El estudio encontró que, cuanto más se prolongaban estas conversaciones, más cambiaban algunos modelos. GPT-4o y Gemini tendían más a reforzar creencias dañinas con el tiempo y menos a intervenir. Sin embargo, Claude y GPT-5.2 reconocían el problema con mayor frecuencia y adoptaban una postura más crítica a medida que avanzaba la conversación.
Los investigadores señalaron que las respuestas cálidas y altamente relacionales de Claude podrían aumentar el apego del usuario, incluso mientras lo orientaba hacia ayuda externa. Sin embargo, GPT-4o, una versión anterior del chatbot insignia de OpenAI, adoptaba con el tiempo el marco delirante de los usuarios, llegando en ocasiones a alentarlos a ocultar sus creencias a los psiquiatras y asegurándole a un usuario que los "glitches" que percibía eran reales.
"GPT-4o validaba en gran medida los inputs delirantes, aunque mostraba menos inclinación que modelos como Grok y Gemini a elaborarlos más allá de ellos. En algunos aspectos, fue sorprendentemente comedido: su calidez fue la más baja de todos los modelos evaluados, y la adulación, aunque presente, fue leve en comparación con iteraciones posteriores del mismo modelo", escribieron los investigadores. "No obstante, la validación por sí sola puede representar riesgos para los usuarios vulnerables".
xAI no respondió a una solicitud de comentario de Decrypt.
En un estudio aparte de la Universidad de Stanford, los investigadores encontraron que las interacciones prolongadas con chatbots de IA pueden reforzar la paranoia, la grandiosidad y las falsas creencias a través de lo que denominaron "espirales delirantes", en las que el chatbot valida o amplía la visión distorsionada del mundo del usuario en lugar de cuestionarla.
"Cuando lanzamos chatbots diseñados para ser asistentes útiles al mundo y personas reales los usan de las más diversas formas, emergen consecuencias", afirmó Nick Haber, profesor asistente de la Escuela de Posgrado en Educación de Stanford y líder del estudio, en un comunicado. "Las espirales delirantes son una consecuencia particularmente grave. Al comprenderlas, podríamos ser capaces de prevenir daños reales en el futuro".
El informe hizo referencia a un estudio anterior publicado en marzo, en el que investigadores de Stanford analizaron 19 conversaciones reales con chatbots y encontraron que los usuarios desarrollaron creencias cada vez más peligrosas tras recibir afirmación y respaldo emocional de sistemas de IA. En el conjunto de datos, estas espirales estuvieron vinculadas a relaciones destruidas, carreras dañadas y, en un caso, un suicidio.
Los estudios llegan en un momento en que el problema ha trascendido el ámbito académico y ha llegado a los tribunales y las investigaciones penales. En los últimos meses, demandas judiciales han acusado a Gemini de Google y a ChatGPT de OpenAI de haber contribuido a suicidios y crisis graves de salud mental. A principios de este mes, la fiscalía general de Florida abrió una investigación para determinar si ChatGPT influyó en un presunto tirador masivo que, según se informó, mantuvo frecuentes conversaciones con el chatbot antes del ataque.
Si bien el término ha ganado reconocimiento en línea, los investigadores advirtieron en contra de llamar al fenómeno "psicosis por IA", señalando que el término puede exagerar el cuadro clínico. En su lugar, utilizan "delirios asociados a la IA", ya que muchos casos involucran creencias de tipo delirante centradas en la conciencia de la IA, la revelación espiritual o el apego emocional, más que trastornos psicóticos plenos.
Los investigadores indicaron que el problema tiene su origen en la adulación, es decir, en que los modelos reflejan y afirman las creencias de los usuarios. Combinado con las alucinaciones —información falsa entregada con confianza—, esto puede crear un ciclo de retroalimentación que refuerza los delirios con el tiempo.
"Los chatbots están entrenados para ser excesivamente entusiastas, frecuentemente reencuadrando los pensamientos delirantes del usuario de manera positiva, descartando la evidencia contraria y proyectando compasión y calidez", agregó Jared Moore, científico investigador de Stanford. "Esto puede desestabilizar a un usuario que está predispuesto al delirio".

