Los modelos de IA aún no están listos para el diagnóstico médico autónomo, según estudio

Una investigación evaluó 21 sistemas de AI de última generación y encontró que, pese a sus avances, ninguno logra replicar el razonamiento clínico completo que exige la atención médica real.

Los grandes modelos de lenguaje (LLM, en inglés), las mismas herramientas de artificial intelligence (AI) que han revolucionado la búsqueda de información, la redacción y la programación, llevan años siendo promovidos por sus desarrolladores como apoyo para el diagnóstico médico. Sin embargo, un estudio publicado en JAMA Network Open por investigadores de la Escuela de Medicina de Harvard y del Incubador MESH de Mass General Brigham concluye que, aunque estos sistemas han mejorado notablemente, todavía no alcanzan el nivel de razonamiento clínico necesario para operar sin supervisión profesional. La investigación es, según sus autores, la evaluación más exhaustiva del razonamiento clínico longitudinal en modelos de AI realizada hasta la fecha.

El estudio evaluó 21 modelos de lenguaje de última generación, entre ellos GPT-5, Claude 4.5 Opus, Gemini 3.0 Flash, Gemini 3.0 Pro y Grok 4, sometiéndolos a 29 casos clínicos estructurados extraídos del Manual MSD, una referencia médica de uso profesional. En total, los modelos generaron 16,254 respuestas, que fueron evaluadas por estudiantes de medicina en cinco etapas sucesivas del proceso diagnóstico: elaboración del diagnóstico diferencial, solicitud de pruebas diagnósticas, diagnóstico final, manejo clínico y razonamiento clínico general. Este enfoque secuencial buscó reproducir la forma en que un médico enfrenta un caso real, en lugar de limitarse a responder preguntas de opción múltiple de un examen, que es la metodología más común en estudios previos de este tipo.

Para medir el desempeño de manera más precisa, los investigadores desarrollaron el índice PrIME-LLM, una métrica multidimensional que evalúa el rendimiento equilibrado de un modelo a lo largo de todas las etapas del proceso clínico. A diferencia de métricas tradicionales que miden únicamente el porcentaje de respuestas correctas, el PrIME-LLM penaliza a los modelos que son fuertes en algunas áreas pero débiles en otras, una distinción que resultó determinante. Mientras que la precisión global de los modelos se concentró en un rango estrecho, entre el 81% y el 90%, las puntuaciones del índice PrIME-LLM revelaron diferencias mucho más amplias entre modelos, con Grok 4 obteniendo la puntuación más alta y Gemini 1.5 Flash la más baja.

El hallazgo más preocupante del estudio es la brecha entre lo que los modelos hacen bien y lo que más importa al inicio de una consulta médica. Todos los sistemas evaluados mostraron tasas de error superiores al 80% en la elaboración del diagnóstico diferencial, es decir, en la capacidad de generar una lista de posibles enfermedades que podrían explicar los síntomas de un paciente cuando la información disponible es aún limitada. En cambio, cuando se les presentó toda la información del caso y se les pidió establecer un diagnóstico final, los mismos modelos respondieron correctamente en más del 60% de los casos. Esta asimetría muestra que los sistemas de AI tienden a reducir prematuramente la incertidumbre y a converger en una única respuesta, mientras que los médicos entrenados preservan esa incertidumbre y la refinan progresivamente a medida que obtienen más datos.

“Al evaluar los modelos de forma escalonada, dejamos de tratarlos como si estuvieran presentando un examen y los colocamos en la posición de un médico”, señaló Arya Rao, autora principal del estudio, investigadora del Incubador MESH y estudiante de doctorado en Harvard. “Estos modelos son muy buenos para nombrar un diagnóstico final cuando los datos están completos, pero tienen dificultades al inicio abierto de un caso, cuando hay poca información disponible”.

Los modelos con arquitecturas optimizadas para el razonamiento, es decir, diseñados específicamente para procesar información en múltiples pasos antes de emitir una respuesta, obtuvieron puntuaciones significativamente más altas que los modelos convencionales. Sin embargo, esa ventaja no fue suficiente para cerrar la brecha en el diagnóstico diferencial. En cuanto a la interpretación de imágenes médicas como radiografías, tomografías y electrocardiogramas, varios modelos mostraron mejoras cuando se les proporcionaron imágenes junto con el texto del caso, aunque los resultados fueron inconsistentes entre modelos.

“A pesar de las mejoras continuas, los LLM de uso general no están listos para el despliegue clínico autónomo sin supervisión”, advirtió Marc Succi, director ejecutivo del Incubador MESH de Mass General Brigham y autor correspondiente del estudio. “El diagnóstico diferencial es central en el razonamiento clínico y constituye el ‘arte de la medicina’ que la AI actualmente no puede replicar. La promesa de la inteligencia artificial en la medicina clínica sigue residiendo en su potencial para apoyar, no reemplazar, el razonamiento del médico, siempre que todos los datos relevantes estén disponibles, algo que no siempre ocurre”

El estudio no evaluó los modelos con herramientas adicionales como acceso a guías clínicas en tiempo real o bases de datos especializadas, lo que significa que los resultados reflejan el desempeño base de estos sistemas y no su máximo potencial con apoyos externos. Los autores reconocen además que, al tratarse de casos publicados, no puede descartarse que algunos modelos hayan tenido exposición previa a ese material durante su entrenamiento.

“Queremos ayudar a separar la promesa de la realidad de estas herramientas en su aplicación a la salud”, concluyó Succi. “Nuestros resultados refuerzan que los grandes modelos de lenguaje en el ámbito de la salud continúan requiriendo un ‘humano en el circuito’ y una supervisión muy estrecha”.

BIBLIOGRAPHY

MASS GENERAL BRIGHAM

https://www.massgeneralbrigham.org/en/about/newsroom/press-releases/ai-chatbot-lacks-clinical-reasoning

JAMA NETWORK

https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2847679

Outstanding news

Advancement of science

Una investigación evaluó 21 sistemas de AI de última generación y encontró que, pese a sus avances, ninguno logra replicar el razonamiento clínico completo que exige la atención médica real.

Outstanding news

Honduras creates sexual health app with PAHO support

Stay updated

News by country

Related Content

Path2Space: la IA que predice la expresión genética tumoral desde imágenes de biopsia

Universidad de Chile y CENS advierten que la digitalización en salud puede profundizar desigualdades si no se gobierna con criterios éticos y transparentes

Paraguay y la OPS validan “Red Tero Tero”, una herramienta digital de vigilancia epidemiológica comunitaria

Proponen en Congreso de San Luis Potosí la incorporación de un capítulo de Salud Digital en la Ley de Salud

Subscribe to receive information and news:

Follow us: