Avances en la evaluación de modelos de lenguaje para aplicaciones médicas

Un estudio propone nuevos estándares para mejorar la eficacia de la AI en medicina.

Investigadores han desarrollado un marco integral para evaluar y optimizar grandes modelos de lenguaje (LLM, en inglés) en el ámbito médico. Publicado en la revista npj Digital Medicine journal, el estudio introduce MedS-Bench y MedS-Ins, herramientas diseñadas para abordar limitaciones actuales en los modelos de inteligencia artificial aplicados a la salud clínica. Estos avances buscan garantizar que las aplicaciones médicas de la artificial intelligence (AI) sean precisas, confiables y accesibles para diversos contextos clínicos.

Aunque los modelos de lenguaje han demostrado avances significativos en tareas como generación de texto y procesamiento del lenguaje natural, su aplicación en entornos clínicos enfrenta críticas debido a deficiencias en la comprensión de conocimientos médicos esenciales y a la falta de adaptabilidad a escenarios reales.

Para enfrentar estos desafíos, el equipo de investigación desarrolló MedS-Bench, un conjunto de tareas clínicas avanzadas que abarca 11 categorías clave, como clasificación de texto, predicción de resultados clínicos y verificación de hechos. Este marco permite una evaluación más completa de las capacidades de los modelos en tareas prácticas, más allá de los exámenes tipo opción múltiple.

El estudio también presentó MedS-Ins, un conjunto de datos diseñado para afinar modelos médicos de lenguaje mediante instrucciones específicas. Este dataset incluye más de 5 millones de instancias y 19,000 instrucciones en 122 tareas clínicas, organizadas en cinco dominios clave: textos clínicos, exámenes médicos, investigaciones académicas, bases de conocimiento médico y conversaciones diarias entre médicos y pacientes.

El modelo resultante, denominado MMedIns-Llama 3, mostró un rendimiento superior en tareas clínicas en comparación con modelos propietarios como GPT-4, Llama 3, MEDITRON, entre otros. Por ejemplo, destacó en extracción de información y explicaciones de conceptos médicos, superando a otros modelos abiertos y cerrados.

Asimismo, el estudio destaca que herramientas como MedS-Bench y MedS-Ins no solo permiten evaluar la precisión de los modelos, sino también su capacidad para adaptarse a contextos específicos. Los investigadores subrayan que compartir datos y estandarizar evaluaciones puede acelerar la adopción de AI en medicina y reducir errores en entornos clínicos.

De esta manera, al establecer estándares más rigurosos y herramientas de evaluación específicas, este enfoque promete mejorar la calidad del cuidado de la salud mediante el uso de modelos más adaptables, precisos y centrados en las necesidades reales de los pacientes y profesionales médicos.

BIBLIOGRAPHY

NATURE

https://www.nature.com/articles/s41746-024-01390-4

Outstanding news

DIAGNOSIS

Un estudio propone nuevos estándares para mejorar la eficacia de la AI en medicina.

Outstanding news

Artificial Intelligence and blood tests for an early detection of Alzheimer's disease

Stay updated

News by country

Related Content

Peru is evaluating its capacity to respond to health emergencies with support from the PAHO.

State of Mexico legislators propose incorporating Digital Health into state health services

IMSS Bienestar launches digital platform to schedule medical appointments online in eastern Mexico State

Coordinated AI teams could improve the accuracy of automated clinical systems

Subscribe to receive information and news:

Follow us: