En Resumen

  • Un estudio de UCLA y BMJ Open reveló que el 49,6% de las respuestas médicas de cinco chatbots populares fueron incorrectas o engañosas.
  • Grok fue el peor evaluado: el 58% de sus respuestas resultaron problemáticas, vinculado a la desinformación que circula en X.
  • Los investigadores advirtieron que los modelos casi nunca admiten ignorancia y se despliegan a escala entre usuarios no expertos.

Casi la mitad de las respuestas sobre salud y medicina que ofrecen los chatbots de IA más populares de hoy son incorrectas, engañosas o peligrosamente incompletas, y se presentan con total confianza. Esa es la conclusión principal de un nuevo estudio revisado por pares publicado el 14 de abril en BMJ Open.

Investigadores de UCLA, la Universidad de Alberta y Wake Forest evaluaron cinco chatbots —Gemini, DeepSeek, Meta AI, ChatGPT y Grok— con 250 preguntas sobre salud relacionadas con cáncer, vacunas, células madre, nutrición y rendimiento deportivo. Los resultados: el 49,6% de las respuestas fueron problemáticas. El 30% fueron "algo problemáticas" y el 19,6% "muy problemáticas", es decir, el tipo de respuesta que podría llevar a alguien a buscar un tratamiento ineficaz o peligroso.

Para someter a los modelos a pruebas de estrés, el equipo empleó un enfoque adversarial, formulando deliberadamente las preguntas para empujar a los chatbots hacia consejos incorrectos. Las preguntas incluyeron si el 5G causa cáncer, qué terapias alternativas son mejores que la quimioterapia y cuánta leche cruda conviene consumir para mejorar la salud.

"Por defecto, los chatbots no acceden a datos en tiempo real, sino que generan respuestas infiriendo patrones estadísticos de sus datos de entrenamiento y prediciendo secuencias de palabras probables", escriben los autores. "No razonan ni ponderan evidencia, ni son capaces de emitir juicios éticos o basados en valores".

Ese es el problema central. Los chatbots no consultan a un médico, sino que hacen coincidencias de patrones en texto. Y hacer coincidencias de patrones en internet, donde la desinformación se propaga más rápido que las correcciones, produce exactamente este tipo de resultado.

Los investigadores continúan: "Esta limitación conductual significa que los chatbots pueden reproducir respuestas que suenan autorizadas pero que son potencialmente defectuosas". De las 250 preguntas, solo dos generaron una negativa a responder, ambas de Meta AI, sobre esteroides anabólicos y tratamientos alternativos contra el cáncer. Todos los demás chatbots siguieron respondiendo.

El rendimiento varió según el tema. Las vacunas y el cáncer tuvieron los mejores resultados, en parte porque la investigación de alta calidad sobre esos temas está bien estructurada y ampliamente reproducida en línea. La nutrición tuvo el peor desempeño estadístico de todas las categorías del estudio, seguida de cerca por el rendimiento deportivo. Si le has preguntado a una IA si la dieta carnívora es saludable, la respuesta que recibiste probablemente no estaba respaldada por el consenso científico.

Grok destacó por las razones equivocadas. El chatbot de Elon Musk fue el peor de todos los modelos evaluados. De sus 50 respuestas, 29 (58%) fueron calificadas como problemáticas en general, la proporción más alta entre los cinco chatbots. Quince de ellas (30%) fueron muy problemáticas, significativamente más de lo esperado bajo una distribución aleatoria. Los investigadores vinculan esto directamente a los datos de entrenamiento de Grok: X es una plataforma conocida por propagar desinformación de salud de forma rápida y masiva.

Las citas fueron un desastre aparte. En todos los modelos, la puntuación mediana de completitud de las referencias fue apenas del 40%, y ningún chatbot produjo una lista de referencias completamente precisa. Los modelos alucinaron autores, revistas y títulos. DeepSeek incluso lo reconoció: el modelo le dijo a los investigadores que sus referencias fueron generadas a partir de patrones de datos de entrenamiento "y pueden no corresponder a fuentes reales y verificables".

El problema de legibilidad lo agrava todo. Todas las respuestas de los chatbots obtuvieron una puntuación en el rango "Difícil" en la escala Flesch Reading Ease, equivalente al nivel universitario de segundo a cuarto año. Eso supera la recomendación de la Asociación Médica Americana, que establece que los materiales de educación para pacientes no deben superar el nivel de sexto grado.

En otras palabras, estos chatbots aplican el mismo truco que suelen usar los políticos y los debatientes profesionales: lanzarte tantos tecnicismos en tan poco tiempo que terminas pensando que saben más de lo que realmente saben. Mientras más difícil es entender algo, más fácil es malinterpretarlo.

Los hallazgos se hacen eco de un estudio de Oxford de febrero de 2026 cubierto por Decrypt que encontró que los consejos médicos de la IA no son mejores que los métodos tradicionales de autodiagnóstico. También coinciden con preocupaciones más amplias sobre chatbots de IA que ofrecen orientación inconsistente dependiendo de cómo se formulan las preguntas.

"A medida que el uso de los chatbots de IA continúa expandiéndose, nuestros datos destacan la necesidad de educación pública, formación profesional y supervisión regulatoria para garantizar que la IA generativa apoye, en lugar de erosionar, la salud pública", concluyen los autores.

El estudio solo evaluó cinco chatbots de acceso gratuito, y el método de prompts adversariales puede sobreestimar las tasas de fallo en el mundo real. Sin embargo, los autores son directos: el problema no son los casos extremos. Es que estos modelos se despliegan a escala, los usan personas no expertas como si fueran motores de búsqueda, y están diseñados para casi nunca decir "no sé".

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.