Un modelo de lenguaje supera a médicos en tareas de razonamiento clínico, según estudio publicado en Science

Investigadores de Harvard, Stanford y el Beth Israel Deaconess evaluaron el modelo o1 de OpenAI en seis experimentos con cientos de médicos como línea de base, incluyendo casos reales de urgencias.

Un estudio publicado el 30 de abril en la revista Science concluye que un gran modelo de lenguaje (LLM, en inglés) superó el desempeño de médicos en múltiples tareas de razonamiento clínico, desde el diagnóstico diferencial hasta la planificación de pruebas y el manejo de pacientes. El trabajo, liderado por investigadores del Beth Israel Deaconess Medical Center, la Harvard Medical School (HMS) y Stanford, evaluó el modelo de inteligencia artificial (IA) o1-preview de OpenAI frente a cientos de médicos en ejercicio.

Los investigadores utilizaron como punto de partida las conferencias clinicopatológicas del New England Journal of Medicine (NEJM), que desde la década de 1950 constituyen el estándar de referencia para evaluar sistemas computacionales de diagnóstico médico. En 143 casos analizados, o1-preview incluyó el diagnóstico correcto en su diagnóstico diferencial en 78.3% de los casos, y lo situó como primera opción en 52%. Al ampliar el criterio para considerar diagnósticos muy cercanos o de utilidad clínica, la precisión alcanzó 97.9%. En una comparación directa con GPT-4 sobre 70 casos previamente estudiados, o1-preview ofreció el diagnóstico exacto o muy cercano en 88.6% de los casos, frente a 72.9% de GPT-4.

“Probamos el modelo de IA con prácticamente todos los criterios de referencia, y superó tanto a los modelos anteriores como a los resultados de referencia de nuestros médicos” expresó el coautor principal Arjun Manrai, profesor adjunto de informática biomédica en el Instituto Blavatnik de Harvard y editor adjunto fundador de NEJM AI.

En la evaluación de planificación diagnóstica, el modelo seleccionó la prueba correcta a ordenar en 87.5% de los casos, con un 11% adicional calificado como de utilidad clínica por los médicos evaluadores. En casos de razonamiento clínico del currículo NEJM Healer, o1-preview obtuvo una puntuación perfecta en la escala R-IDEA en 78 de 80 casos, superando significativamente a GPT-4, médicos adjuntos y residentes. En los llamados Grey Matters Management Cases, cinco viñetas clínicas reales evaluadas por consenso de 25 expertos, o1-preview obtuvo una mediana de 89%, en comparación con 42% de GPT-4 y 34% de médicos con recursos convencionales.

El componente del estudio con mayor proyección práctica fue la evaluación en un servicio de urgencias real. Los investigadores compararon las capacidades diagnósticas de o1, GPT-4o y dos médicos adjuntos en 76 casos del Beth Israel Deaconess Medical Center, analizados en tres momentos del proceso de atención: el triaje inicial, la evaluación por el médico de urgencias y el ingreso hospitalario o a la unidad de cuidados intensivos. Los diagnósticos diferenciales fueron calificados por dos médicos independientes que desconocían si las respuestas provenían de un humano o de un modelo de inteligencia artificial. Uno de los evaluadores no pudo distinguir la fuente en 83.6% de los casos, y el otro en 94.4%.

“Los modelos son cada vez más eficaces. Antes evaluábamos los modelos con pruebas de opción múltiple; ahora obtienen sistemáticamente puntuaciones cercanas al 100 %, y ya no podemos medir su progreso porque hemos alcanzado el límite máximo”, detalló el coautor principal Peter Brodeur, becario clínico de medicina de la HMS.

En ese experimento, o1 identificó el diagnóstico exacto o muy cercano en 67.1% de los casos durante el triaje inicial, 72.4% durante la evaluación médica y 81.6% al momento del ingreso hospitalario, superando en los tres momentos a ambos médicos participantes. La brecha fue más pronunciada en el triaje inicial, la etapa con menor información disponible y mayor urgencia de decisión.

“Para comprender mejor el rendimiento en la práctica clínica, necesitábamos evaluar el rendimiento en las primeras fases de la evolución del paciente, cuando los datos clínicos son escasos”, detalló el coautor principal Thomas Buckley, doctorando de HMS.

Los autores reconocen varias limitaciones, pues el estudio se concentró en medicina interna y urgencias, por lo que los resultados no son necesariamente extrapolables a otras especialidades. Los experimentos evaluaron únicamente desempeño basado en texto, sin considerar información auditiva o visual que los médicos utilizan de forma rutinaria en la práctica clínica.

Adicionalmente, los casos de urgencias representan una prueba de concepto sobre la emisión de una segunda opinión en momentos predefinidos, lo que no refleja la complejidad integral de las decisiones en ese entorno, que incluyen triaje, disposición y manejo inmediato más allá del diagnóstico. Además, los investigadores también señalan que los puntos de referencia empleados dependen en parte de la curación cuidadosa de casos por parte de clínicos, lo que podría sobreestimar el rendimiento de los modelos frente a datos menos estructurados en flujos de trabajo reales.

“Un modelo puede acertar en el diagnóstico principal, pero también sugerir pruebas innecesarias que podrían poner en peligro al paciente”, afirmó Brodeur. “Los seres humanos deben ser el punto de referencia definitivo a la hora de evaluar el rendimiento y la seguridad”.