En Resumen
- Un estudio de Oxford publicado en Nature Medicine advirtió que los chatbots de IA pueden emitir diagnósticos incorrectos y no reconocer emergencias médicas.
- La investigación con 1.300 participantes demostró que la IA no superó métodos tradicionales de autodiagnóstico, como búsquedas en internet.
- La Dra. Payne señaló que los LLMs deben cumplir un rol de "secretario, no médico", útiles para resumir información ya proporcionada.
Los chatbots de IA están compitiendo por convertirse en la próxima gran novedad en el sector de la salud, aprobando exámenes estandarizados y ofreciendo orientación sobre problemas médicos. Sin embargo, un nuevo estudio publicado en Nature Medicine ha demostrado que no solo están muy lejos de lograrlo, sino que podrían ser peligrosos.
El estudio, liderado por varios equipos de la Universidad de Oxford, identificó una brecha notable en los Large Language Models (LLMs). Si bien estos demostraron un alto nivel técnico en comprensión médica, los investigadores encontraron que fallaron al momento de ayudar a los usuarios con problemas médicos personales.
"A pesar de todo el revuelo, la IA simplemente no está lista para asumir el rol del médico", señaló la Dra. Rebecca Payne, la médica principal del estudio, en un comunicado de prensa con los hallazgos. Agregó que "los pacientes deben saber que consultar a un Large Language Model sobre sus síntomas puede ser peligroso, ya que puede dar diagnósticos incorrectos y no reconocer cuándo se necesita ayuda urgente".
El estudio contó con 1.300 participantes que usaron modelos de IA de OpenAI, Meta y Cohere para identificar afecciones de salud. Se planteó una serie de escenarios elaborados por médicos, en los que se le pedía al sistema de IA que indicara qué pasos seguir para atender el problema médico del usuario.
El estudio encontró que sus resultados no superaban a los métodos tradicionales de autodiagnóstico, como la simple búsqueda en internet o incluso el criterio personal.
También se evidenció una desconexión por parte de los usuarios, quienes no sabían qué información necesitaba el LLM para ofrecer un consejo preciso. Los usuarios recibieron una combinación de recomendaciones acertadas y deficientes, lo que dificultaba identificar los pasos a seguir.
Decrypt se ha comunicado con OpenAI, Meta y Cohere para solicitar comentarios, y actualizará este artículo en caso de que respondan.
"Como médica, llegar al diagnóstico correcto implica mucho más que simplemente recordar hechos. La medicina es tanto un arte como una ciencia. Escuchar, indagar, aclarar, verificar la comprensión y guiar la conversación son elementos esenciales", afirmó Payne a Decrypt.
"Los médicos identifican activamente los síntomas relevantes porque los pacientes a menudo no saben qué detalles importan", explicó, añadiendo que el estudio demostró que los LLMs "aún no son capaces de gestionar de forma confiable esa interacción dinámica con personas no expertas".
El equipo concluyó que la IA simplemente no está en condiciones de ofrecer asesoramiento médico en este momento, y que se necesitan nuevos sistemas de evaluación si alguna vez se quiere utilizar adecuadamente en el ámbito de la salud. Sin embargo, eso no significa que no tengan un lugar en el campo médico tal como está hoy.
Si bien los LLMs "definitivamente tienen un rol en el sector salud", dijo Payne, este debería ser el de "secretario, no médico". La tecnología ofrece ventajas en cuanto a "resumir y reorganizar información que ya les ha sido proporcionada", y los LLMs ya se están utilizando en consultorios para "transcribir consultas y convertir esa información en una carta para un especialista, una hoja informativa para el paciente o para los registros médicos", explicó.
El equipo concluyó que, aunque no están en contra de la IA en el sector salud, esperan que este estudio sirva para orientarla mejor en la dirección correcta.

