La IA y los modelos de lenguaje como aliados en los exámenes físicos clínicos

Investigadores exploran el uso de grandes modelos de lenguaje para mejorar la precisión y eficacia de las evaluaciones físicas en medicina.

Un estudio reciente realizado por investigadores de Mass General Brigham muestra el potencial de los grandes modelos de lenguaje (LLMs, en inglés) para asistir a médicos en la realización de exámenes físicos. Al utilizar el modelo GPT-4, los investigadores analizaron cómo la inteligencia artificial (IA) puede proporcionar recomendaciones útiles basadas en los síntomas del paciente, complementando la experiencia médica y mejorando las prácticas diagnósticas.

Los exámenes físicos son calve para identificar problemas de salud en pacientes, sin embargo su eficacia puede verse limitada si el médico no cuenta con entrenamiento especializado en un área específica. Este desafío es particularmente relevante para profesionales en etapas tempranas de su carrera o en entornos con recursos limitados. El estudio, publicado en el Journal of Medical Artificial Intelligence, aborda esta problemática explorando cómo GPT-4 puede ser una herramienta de apoyo para realizar exámenes físicos adecuados.

Para este estudio, los investigadores solicitaron al modelo GPT-4 que generara instrucciones para exámenes físicos basadas en síntomas comunes, como dolor de cadera o dolor abdominal bajo. Tres médicos evaluaron las respuestas de GPT-4 considerando su precisión, exhaustividad, claridad y calidad general. Los resultados mostraron que GPT-4 logró al menos el 80% de los puntos posibles en estas categorías, destacando en casos como “dolor en las piernas al realizar ejercicio”. Sin embargo, también se detectaron áreas de mejora, como omisiones en instrucciones clave o falta de especificidad diagnóstica.

El Dr. Marc D. Succi, autor principal del estudio, señaló que los LLMs pueden servir como herramientas complementarias para apoyar a los médicos en técnicas de examen físico, mejorando sus habilidades diagnósticas en tiempo real. No obstante, el estudio enfatiza la importancia del juicio clínico humano para garantizar un cuidado integral y específico para cada paciente.

Por su parte, Arya Rao, autora principal y estudiante en el MESH Incubator de Harvard Medical School, destacó que, si bien GPT-4 proporcionó respuestas detalladas, estas ocasionalmente carecieron de instrucciones críticas, subrayando la necesidad de un evaluador humano para verificar la información generada por la IA.