Una investigación evaluó 21 sistemas de AI de última generación y encontró que, pese a sus avances, ninguno logra replicar el razonamiento clínico completo que exige la atención médica real.
Los grandes modelos de lenguaje (LLM, en inglés), las mismas herramientas de artificial intelligence (AI) que han revolucionado la búsqueda de información, la redacción y la programación, llevan años siendo promovidos por sus desarrolladores como apoyo para el diagnóstico médico. Sin embargo, un estudio publicado en JAMA Network Open por investigadores de la Escuela de Medicina de Harvard y del Incubador MESH de Mass General Brigham concluye que, aunque estos sistemas han mejorado notablemente, todavía no alcanzan el nivel de razonamiento clínico necesario para operar sin supervisión profesional. La investigación es, según sus autores, la evaluación más exhaustiva del razonamiento clínico longitudinal en modelos de AI realizada hasta la fecha.
El estudio evaluó 21 modelos de lenguaje de última generación, entre ellos GPT-5, Claude 4.5 Opus, Gemini 3.0 Flash, Gemini 3.0 Pro y Grok 4, sometiéndolos a 29 casos clínicos estructurados extraídos del Manual MSD, una referencia médica de uso profesional. En total, los modelos generaron 16,254 respuestas, que fueron evaluadas por estudiantes de medicina en cinco etapas sucesivas del proceso diagnóstico: elaboración del diagnóstico diferencial, solicitud de pruebas diagnósticas, diagnóstico final, manejo clínico y razonamiento clínico general. Este enfoque secuencial buscó reproducir la forma en que un médico enfrenta un caso real, en lugar de limitarse a responder preguntas de opción múltiple de un examen, que es la metodología más común en estudios previos de este tipo.
Para medir el desempeño de manera más precisa, los investigadores desarrollaron el índice PrIME-LLM, una métrica multidimensional que evalúa el rendimiento equilibrado de un modelo a lo largo de todas las etapas del proceso clínico. A diferencia de métricas tradicionales que miden únicamente el porcentaje de respuestas correctas, el PrIME-LLM penaliza a los modelos que son fuertes en algunas áreas pero débiles en otras, una distinción que resultó determinante. Mientras que la precisión global de los modelos se concentró en un rango estrecho, entre el 81% y el 90%, las puntuaciones del índice PrIME-LLM revelaron diferencias mucho más amplias entre modelos, con Grok 4 obteniendo la puntuación más alta y Gemini 1.5 Flash la más baja.
El hallazgo más preocupante del estudio es la brecha entre lo que los modelos hacen bien y lo que más importa al inicio de una consulta médica. Todos los sistemas evaluados mostraron tasas de error superiores al 80% en la elaboración del diagnóstico diferencial, es decir, en la capacidad de generar una lista de posibles enfermedades que podrían explicar los síntomas de un paciente cuando la información disponible es aún limitada. En cambio, cuando se les presentó toda la información del caso y se les pidió establecer un diagnóstico final, los mismos modelos respondieron correctamente en más del 60% de los casos. Esta asimetría muestra que los sistemas de AI tienden a reducir prematuramente la incertidumbre y a converger en una única respuesta, mientras que los médicos entrenados preservan esa incertidumbre y la refinan progresivamente a medida que obtienen más datos.
“Al evaluar los modelos de forma escalonada, dejamos de tratarlos como si estuvieran presentando un examen y los colocamos en la posición de un médico”, señaló Arya Rao, autora principal del estudio, investigadora del Incubador MESH y estudiante de doctorado en Harvard. “Estos modelos son muy buenos para nombrar un diagnóstico final cuando los datos están completos, pero tienen dificultades al inicio abierto de un caso, cuando hay poca información disponible”.
Los modelos con arquitecturas optimizadas para el razonamiento, es decir, diseñados específicamente para procesar información en múltiples pasos antes de emitir una respuesta, obtuvieron puntuaciones significativamente más altas que los modelos convencionales. Sin embargo, esa ventaja no fue suficiente para cerrar la brecha en el diagnóstico diferencial. En cuanto a la interpretación de imágenes médicas como radiografías, tomografías y electrocardiogramas, varios modelos mostraron mejoras cuando se les proporcionaron imágenes junto con el texto del caso, aunque los resultados fueron inconsistentes entre modelos.
“A pesar de las mejoras continuas, los LLM de uso general no están listos para el despliegue clínico autónomo sin supervisión”, advirtió Marc Succi, director ejecutivo del Incubador MESH de Mass General Brigham y autor correspondiente del estudio. “El diagnóstico diferencial es central en el razonamiento clínico y constituye el ‘arte de la medicina’ que la AI actualmente no puede replicar. La promesa de la inteligencia artificial en la medicina clínica sigue residiendo en su potencial para apoyar, no reemplazar, el razonamiento del médico, siempre que todos los datos relevantes estén disponibles, algo que no siempre ocurre”
El estudio no evaluó los modelos con herramientas adicionales como acceso a guías clínicas en tiempo real o bases de datos especializadas, lo que significa que los resultados reflejan el desempeño base de estos sistemas y no su máximo potencial con apoyos externos. Los autores reconocen además que, al tratarse de casos publicados, no puede descartarse que algunos modelos hayan tenido exposición previa a ese material durante su entrenamiento.
“Queremos ayudar a separar la promesa de la realidad de estas herramientas en su aplicación a la salud”, concluyó Succi. “Nuestros resultados refuerzan que los grandes modelos de lenguaje en el ámbito de la salud continúan requiriendo un ‘humano en el circuito’ y una supervisión muy estrecha”.



