En Resumen
- Investigadores de EE.UU. desarrollaron un modelo de IA llamado CancerGPT que predice efectos de medicamentos en tejidos de pacientes con cáncer.
- El modelo logró una alta precisión en predicciones para 7 tejidos raros, con pocas o ninguna muestra de datos.
- El uso de modelos de lenguaje en investigación médica está en aumento para extraer conocimientos de literatura científica.
Un grupo de investigadores estadounidenses ha desarrollado un modelo de inteligencia artificial llamado CancerGPT, que utiliza grandes modelos de lenguaje pre-entrenados o large pre-trained language models (LLMs), para predecir cómo diferentes combinaciones de medicamentos podrían afectar a los tejidos humanos raros encontrados en pacientes con cáncer. Este nuevo enfoque podría representar un gran avance en el campo de la investigación médica, especialmente en áreas donde los datos estructurados y el tamaño de la muestra son limitados.
El estudio fue realizado por un equipo conjunto de la Universidad de Texas y la Universidad de Massachusetts, y utilizó LLMs para extraer conocimientos previos de textos de investigación médica y luego aplicarlos a tareas propuestas de inferencia biológica. El equipo demostró que el modelo logró una precisión significativa.
"Nuestros experimentos, que involucraron siete tejidos raros de diferentes tipos de cáncer, demostraron que el modelo de predicción basado en LLM logró una precisión significativa con muy pocas o ninguna muestra", dice el artículo de investigación.
El uso de LLM de IA en la investigación médica ha sido un tema candente en 2023. Decrypt informó recientemente que Ankh, un LLM que comprende cómo se comunican las proteínas, fue creado por un grupo de expertos de las universidades de Munich y Columbia en colaboración con la empresa biotecnológica Protinea. Además, otro grupo de investigadores utilizó la tecnología de IA para identificar tres candidatos prometedores para medicamentos senolíticos, que tienen el potencial de frenar el proceso de envejecimiento y mitigar enfermedades relacionadas con la edad, eliminando las llamadas "células zombi".
CancerGPT es un LLM con aproximadamente 124 millones de parámetros, comparable al modelo GPT-3 más grande y afinado, que tiene aproximadamente 175 millones de parámetros. El estudio utilizó GPT-3 sin entrenamiento, un tipo de LLM, para proporcionar respuestas coherentes. Evaluaron las respuestas a diferentes tareas comparándolas con la literatura científica existente y encontraron que el LLM proporcionaba argumentos mayormente precisos.
Sin embargo, también señalaron que "no siempre se puede verificar la precisión de sus argumentos y pueden ser susceptibles a alucinaciones".
Los investigadores creen que los tipos de cáncer para los cuales tienen datos estructurados limitados aún tienen información valiosa representada en la literatura científica. Al aprovechar el poder de los modelos de lenguaje pre-entrenados, pudieron utilizar los recursos existentes y obtener "generalizabilidad", mejorando su capacidad para hacer predicciones para reacciones futuras.
La generalizabilidad es la capacidad de un modelo para aplicar lo que ha aprendido de los datos de entrenamiento para predecir nuevos datos no vistos. Esto es una de las cosas que diferencia a la inteligencia artificial de los programas informáticos deterministas tradicionales.
Los investigadores recomiendan que los estudios futuros profundicen en el enfoque y desarrollen un método de conjunto que utilice de manera efectiva tanto las características estructuradas existentes como los conocimientos previos recién surgidos codificados en LLMs.
A pesar de los posibles desafíos, los resultados del estudio resaltan el valor de la tecnología de inteligencia artificial en la biología moderna. Desde mejorar la personalización hasta aumentar la eficiencia y mejorar las tasas de éxito, la IA está demostrando ser un cambio radical.