Un estudio propone nuevos estándares para mejorar la eficacia de la IA en medicina.
Investigadores han desarrollado un marco integral para evaluar y optimizar grandes modelos de lenguaje (LLM, en inglés) en el ámbito médico. Publicado en la revista npj Digital Medicine, el estudio introduce MedS-Bench y MedS-Ins, herramientas diseñadas para abordar limitaciones actuales en los modelos de inteligencia artificial aplicados a la salud clínica. Estos avances buscan garantizar que las aplicaciones médicas de la inteligencia artificial (IA) sean precisas, confiables y accesibles para diversos contextos clínicos.
Aunque los modelos de lenguaje han demostrado avances significativos en tareas como generación de texto y procesamiento del lenguaje natural, su aplicación en entornos clínicos enfrenta críticas debido a deficiencias en la comprensión de conocimientos médicos esenciales y a la falta de adaptabilidad a escenarios reales.
Para enfrentar estos desafíos, el equipo de investigación desarrolló MedS-Bench, un conjunto de tareas clínicas avanzadas que abarca 11 categorías clave, como clasificación de texto, predicción de resultados clínicos y verificación de hechos. Este marco permite una evaluación más completa de las capacidades de los modelos en tareas prácticas, más allá de los exámenes tipo opción múltiple.

El estudio también presentó MedS-Ins, un conjunto de datos diseñado para afinar modelos médicos de lenguaje mediante instrucciones específicas. Este dataset incluye más de 5 millones de instancias y 19,000 instrucciones en 122 tareas clínicas, organizadas en cinco dominios clave: textos clínicos, exámenes médicos, investigaciones académicas, bases de conocimiento médico y conversaciones diarias entre médicos y pacientes.
El modelo resultante, denominado MMedIns-Llama 3, mostró un rendimiento superior en tareas clínicas en comparación con modelos propietarios como GPT-4, Llama 3, MEDITRON, entre otros. Por ejemplo, destacó en extracción de información y explicaciones de conceptos médicos, superando a otros modelos abiertos y cerrados.
Asimismo, el estudio destaca que herramientas como MedS-Bench y MedS-Ins no solo permiten evaluar la precisión de los modelos, sino también su capacidad para adaptarse a contextos específicos. Los investigadores subrayan que compartir datos y estandarizar evaluaciones puede acelerar la adopción de IA en medicina y reducir errores en entornos clínicos.
De esta manera, al establecer estándares más rigurosos y herramientas de evaluación específicas, este enfoque promete mejorar la calidad del cuidado de la salud mediante el uso de modelos más adaptables, precisos y centrados en las necesidades reales de los pacientes y profesionales médicos.