Un estudio aleatorizado con 70 médicos demuestra que el diseño del flujo de trabajo entre el clínico y la AI es clave para mejorar el razonamiento diagnóstico, independientemente de si la AI opina antes o después que el médico.
Investigadores de Stanford y Harvard publicaron en npj Digital Medicine journal los resultados de un ensayo clínico aleatorizado que evalúa una nueva forma de integrar la inteligencia artificial en el proceso de diagnóstico médico. A diferencia de estudios anteriores que trataban a la AI como una herramienta de consulta pasiva, este trabajo la posiciona como un colaborador activo que razona junto al médico, integra ambas perspectivas y promueve el pensamiento crítico. Los resultados muestran mejoras significativas en la precisión diagnóstica cuando los clínicos trabajan con este sistema colaborativo, en comparación con el uso de recursos convencionales.
El punto de partida del estudio fue un hallazgo previo de los mismos investigadores, publicado en JAMA en 2024, que mostró que los médicos que usaban un gran modelo de lenguaje (LLM, en inglés) de uso general no mejoraban su desempeño diagnóstico e incluso obtenían resultados peores que el modelo operando solo. La conclusión fue que el problema no estaba en la capacidad del modelo, sino en cómo estaba diseñada la interacción entre el médico y la herramienta. Este nuevo estudio partió de esa premisa para diseñar un sistema personalizado basado en GPT-4, configurado mediante instrucciones específicas para promover una colaboración estructurada y no para simplemente generar recomendaciones.
El sistema, denominado GPT colaborativo, funciona de la siguiente manera: tanto el médico como la AI analizan de forma independiente un caso clínico y proponen un diagnóstico diferencial y los siguientes pasos a seguir. Después, el sistema genera una vista de síntesis que integra ambas perspectivas, señala los puntos de acuerdo y desacuerdo, y ofrece una crítica argumentada de cada diagnóstico considerado. Finalmente, el médico puede interactuar libremente con el sistema para profundizar en cualquier aspecto antes de emitir su respuesta definitiva.
El ensayo evaluó dos variantes de este flujo de trabajo con 70 médicos estadounidenses licenciados, la mayoría especialistas en medicina interna, procedentes de hospitales como Stanford, Beth Israel Deaconess Medical Center, Cambridge Health Alliance y Vanderbilt. En la primera variante, la AI presentaba su análisis antes de que el médico emitiera el suyo (AI como primera opinión). En la segunda, el médico razonaba primero con recursos convencionales como UpToDate, PubMed o Google, y luego revisaba la opinión de la AI (AI como segunda opinión). Todos los participantes evaluaron hasta seis casos clínicos basados en pacientes reales, dentro de una sesión de una hora, y sus respuestas fueron calificadas por médicos certificados en medicina interna ciegos a la condición del estudio.
Los resultados mostraron que ambos flujos colaborativos superaron significativamente el desempeño de los médicos que usaron solo recursos convencionales, quienes obtuvieron una puntuación media del 75%. Los médicos en el grupo de AI como primera opinión alcanzaron un 85% de precisión, mientras que los del grupo de AI como segunda opinión llegaron al 82%. Ambas diferencias fueron estadísticamente significativas. El desempeño de la AI operando sola fue del 90%, una cifra numéricamente superior pero no estadísticamente diferente de los grupos con colaboración, lo que apunta al potencial de alcanzar rendimientos complementarios con diseños de interacción más refinados.
Un hallazgo especialmente relevante fue que el principal beneficio de la AI colaborativa se concentró en elevar el rendimiento en los casos donde los médicos cometían los errores más graves, reduciendo la cola inferior de puntuaciones bajas en lugar de mejorar uniformemente todos los casos. En términos de decisiones clínicamente accionables, como el diagnóstico final y los próximos pasos a seguir, el grupo con AI como primera opinión superó al de AI como segunda opinión en un 8.9%, una diferencia estadísticamente significativa. Los investigadores atribuyen esto en parte al sesgo de anclaje: cuando el médico formula su diagnóstico primero, la AI tiende a reproducirlo en lugar de ofrecer una perspectiva verdaderamente independiente, un fenómeno que observaron en el 48% de los casos del grupo de segunda opinión, frente al 3% en el grupo de primera opinión.
El estudio también documentó cambios en las actitudes de los participantes hacia la AI. Antes de usar la herramienta, el 91% se declaraba abierto a utilizar AI para razonamiento clínico complejo; tras la experiencia, esa cifra subió al 99%. La gran mayoría de los participantes en ambos grupos reportó satisfacción con la experiencia, la consideró colaborativamente valiosa y manifestó que la usaría en su práctica diaria.
Los autores señalan limitaciones importantes. El estudio utilizó casos clínicos en formato de viñeta, que son más estructurados y controlados que los encuentros reales con pacientes, donde el médico debe recopilar activamente la historia clínica y realizar exploración física. Además, los LLMs son frecuentemente entrenados con textos que incluyen este tipo de casos, lo que podría conferirles una ventaja artificial en este formato. El tamaño de la muestra también limita la detección de diferencias sutiles entre los dos flujos de trabajo colaborativo. Los propios autores califican el estudio como exploratorio y generador de hipótesis, no como evidencia definitiva para la práctica clínica.




