Un estudio del Hospital Sant Joan de Déu de Barcelona comparó cuatro modelos de lenguaje con 78 pediatras y encontró que los sistemas más avanzados diagnostican con mayor precisión, especialmente en casos complejos.
Investigadores del Hospital Sant Joan de Déu de Barcelona publicaron en Pediatric Investigation un estudio que demuestra que los grandes modelos de lenguaje (LLMs, en inglés) más avanzados superan a los médicos pediatras en precisión diagnóstica cuando se les presentan casos clínicos reales, tanto de enfermedades comunes como de enfermedades raras. El hallazgo abre una discusión sobre el papel que la inteligencia artificial (IA) podría desempeñar como herramienta de apoyo clínico en pediatría.
Diagnosticar enfermedades en niños es una tarea compleja que exige integrar síntomas inespecíficos, historia clínica incompleta y una amplia variedad de condiciones posibles. En el caso de las enfermedades raras, este desafío se multiplica: los retrasos en el diagnóstico son frecuentes y pueden derivar en tratamientos innecesarios o perjudiciales. Con el objetivo de explorar si la IA puede ayudar a resolver este problema, el equipo del Sant Joan de Déu diseñó un experimento riguroso con casos reales.
El estudio evaluó cuatro LLMs, GPT-4 (0613), Claude-3.5 Sonnet, GPT-4o (0513) y o1-preview, frente a 78 médicos del hospital, entre residentes, médicos junior y médicos senior. Los casos provienen de los registros clínicos del propio hospital entre 2012 y 2023, y se presentaron en español, tal como aparecen en la práctica clínica cotidiana. La mitad de los 50 casos correspondía a enfermedades comunes y la otra mitad a enfermedades raras con una prevalencia de entre 1 y 10 casos por cada 10 mil personas.
Cada caso fue presentado con la información disponible en las primeras 72 horas de consulta, es decir, bajo las mismas condiciones de incertidumbre que enfrentan los clínicos al inicio de una evaluación. Los modelos debían proponer hasta cinco diagnósticos posibles en orden de probabilidad, al igual que los médicos participantes. Cada modelo respondió tres veces por caso para medir también la consistencia de sus respuestas.
Los modelos más avanzados, o1-preview y Claude-3.5 Sonnet, lograron identificar el diagnóstico correcto como primera opción en el 60% y el 59% de los casos respectivamente, frente al 48.2% de los médicos. Cuando se consideraban las cinco opciones propuestas, ambos modelos alcanzaban casi el 78% de precisión, en comparación con el 64.9% de los pediatras. Llamativamente, no hubo diferencias significativas entre residentes, médicos junior y médicos senior, lo que sugiere que este tipo de razonamiento diagnóstico depende más de la capacidad analítica que de la experiencia acumulada.
La ventaja más pronunciada de la IA se observó en las enfermedades raras, pues en esos casos, o1-preview identificó el diagnóstico correcto entre sus cinco opciones con una probabilidad 6 veces mayor que los médicos. Este resultado es especialmente relevante debido a que son precisamente las enfermedades raras las que más frecuentemente quedan sin diagnóstico o son mal identificadas durante meses o años.
Uno de los análisis más relevantes del estudio midió lo que los autores llaman complementariedad humano-IA: qué pasaría si médicos e IA trabajaran juntos, contando como resuelto cualquier caso en que alguno de los dos llegara al diagnóstico correcto. En ese escenario, la unión de o1-preview con los clínicos alcanzó una precisión del 94.3%, 10 puntos porcentuales por encima de lo que los médicos conseguían solos. Esto refuerza la idea de que la IA no está diseñada para reemplazar al médico, sino para complementarlo, detectando casos que escapan al criterio clínico humano y viceversa.
El estudio también analizó la seguridad de las respuestas de los modelos. La gran mayoría de las listas diagnósticas generadas fueron calificadas como coherentes y clínicamente útiles o seguras, con proporciones muy bajas de respuestas potencialmente dañinas. Los médicos que usaron la plataforma DxGPT, la herramienta de apoyo diagnóstico basada en estos modelos, la calificaron con una puntuación media de 3.9 sobre 5 en experiencia general, y con 4.1 sobre 5 específicamente para el apoyo en casos raros o complejos.
No obstante, el estudio reconoce limitaciones importantes. La muestra proviene de un solo hospital de referencia, lo que puede favorecer casos complejos y no reflejar la atención primaria cotidiana. Todos los casos se presentaron en español castellano, y los modelos fueron entrenados predominantemente en inglés, lo que pudo afectar su rendimiento.
Además, los modelos más precisos, en particular o1-preview, mostraron mayor variabilidad entre sus tres respuestas al mismo caso, lo que representa un desafío para su uso clínico donde la consistencia es fundamental. Los autores también advierten que el estudio no evaluó cómo razonan los modelos en tiempo real con el médico ni su capacidad para ponderar riesgos en situaciones ambiguas.
De esta manera, el estudio ofrece evidencia sólida de que los modelos de lenguaje más recientes pueden convertirse en herramientas de apoyo diagnóstico valiosas en pediatría, sobre todo para las enfermedades raras que más frecuentemente escapan al radar clínico. La clave, como mencionan los autores está en la construcción de modelos de trabajo colaborativo que combine la IA con el juicio clínico humano.



