Un estudio evalúa la capacidad del modelo para interpretar registros clínicos en inglés, español e italiano.
Investigadores de ocho hospitales universitarios en cuatro países han explorado la capacidad del modelo de lenguaje GPT-4 para analizar notas médicas en inglés, español e italiano. El estudio, publicado en The Lancet Digital Health, revela que GPT-4 puede responder preguntas predefinidas sobre información clínica con altos niveles de precisión, pero también subraya sus limitaciones al interpretar datos implícitos.
El estudio involucró 56 notas médicas proporcionadas por hospitales en los Estados Unidos, Colombia, Singapur e Italia. Las notas se sometieron al modelo GPT-4 junto con un conjunto de 14 preguntas predefinidas relacionadas con aspectos clínicos como diagnóstico, historia médica y criterios de inclusión para estudios. Dos médicos por sitio validaron las respuestas generadas por GPT-4.
De las 784 respuestas generadas, ambos médicos coincidieron en 79% de los casos, con mayores niveles de acuerdo en notas en español (88%) e italiano (84%), frente a notas en inglés (77%). Sin embargo, el modelo mostró limitaciones al tratar de inferir información implícita, como conexiones entre diagnósticos.
El modelo destacó en la extracción de información explícita, como datos demográficos y diagnósticos de obesidad o COVID-19. No obstante, enfrentó dificultades al identificar si una nota era de admisión o al inferir detalles indirectos del texto.
Además, los resultados también señalaron que GPT-4 puede ser útil para seleccionar pacientes en estudios clínicos, con una sensibilidad superior al 90% para varios criterios explícitos. Sin embargo, los investigadores enfatizan la necesidad de perfeccionar estas herramientas para tareas que requieren razonamiento clínico más complejo.
El estudio logra resaltar el potencial de GPT-4 como herramienta en la interpretación de notas médicas en múltiples idiomas, especialmente en la extracción de información explícita. A pesar de sus limitaciones en tareas más complejas, los hallazgos ofrecen una base para futuras investigaciones sobre la integración de modelos de lenguaje en entornos clínicos, con el objetivo de optimizar la atención médica y la investigación global.