La combinación de modelos tradicionales y generativos podría fortalecer el apoyo diagnóstico en medicina, sugiere investigación reciente.
Un estudio publicado en JAMA Network Open comparó el rendimiento de dos modelos de lenguaje de inteligencia artificial (IA) generativa, ChatGPT de OpenAI y Gemini de Google, con DXplain, un sistema experto tradicional de soporte diagnóstico clínico usando 36 casos médicos no publicados provenientes de tres centros académicos. El objetivo fue evaluar en qué medida cada herramienta lograba identificar el diagnóstico correcto dentro de una lista de 25 posibilidades.
Los hallazgos revelaron que, al utilizar únicamente hallazgos clínicos sin resultados de laboratorio, el sistema tradicional (DXplain) incluyó el diagnóstico correcto en 56% de los casos, frente al 42% y 39% de los modelos generativos ChatGPT (LLM1) y Gemini (LLM2), respectivamente. Aunque las diferencias no fueron estadísticamente significativas, sí se observaron tendencias favorables hacia el sistema tradicional. Con la inclusión de resultados de laboratorio, el rendimiento de todos los sistemas mejoró: DXplain alcanzó un 72%, LLM1 un 64% y LLM2 un 58%.

Los autores destacan que, aunque los modelos generativos como ChatGPT no fueron diseñados específicamente para el razonamiento clínico, su desempeño es competitivo. No obstante, se enfrentan a desafíos como la falta de transparencia en sus respuestas y la posibilidad de generar datos incorrectos, conocidos como “alucinaciones”.
Por otro lado, el sistema experto DXplain, desarrollado en el Mass General, se basa en una base de datos estructurada con más de 2 mil 600 perfiles de enfermedades y puede ofrecer explicaciones sobre por qué sugiere un diagnóstico específico, lo que facilita la confianza del profesional médico en sus recomendaciones.
El estudio sugiere que una estrategia híbrida, es decir, que combine la capacidad de razonamiento estructurado y explicativo de los sistemas expertos con la flexibilidad lingüística de los modelos generativos, podría mejorar la precisión diagnóstica. Esta combinación podría permitir sistemas más completos, integrados a los flujos de trabajo clínico y capaces de alertar sobre posibles diagnósticos omitidos por uno u otro tipo de herramienta.
Finalmente, los autores reconocen que los modelos de lenguaje evolucionan rápidamente y que sus capacidades pueden mejorar con el tiempo. También señalan que, más allá de la exactitud individual de los sistemas, su verdadero valor radica en su capacidad para mejorar el juicio clínico cuando se integran adecuadamente en la práctica médica.