La IA en medicina funciona mejor cuando el médico sigue al mando

Una revisión de alcance analizó 140 estudios sobre colaboración humano-IA en entornos clínicos y concluye que los beneficios dependen del tipo de tarea, la integración en los flujos de trabajo y la confianza calibrada entre el clínico y el sistema.

La inteligencia artificial (IA) lleva años integrándose en los procesos clínicos, desde la interpretación de imágenes médicas hasta la gestión de documentación y la toma de decisiones terapéuticas. Sin embargo, la pregunta que ha guiado buena parte de la investigación reciente no es si la IA supera a los médicos en tareas aisladas, sino qué ocurre cuando ambos trabajan juntos. Un equipo de investigadores de la Universidad de Oxford publicó en npj Digital Medicine una revisión de alcance que sistematiza la evidencia disponible sobre esta colaboración y traza sus condiciones de éxito y sus riesgos.

El estudio, liderado por Joshua Strong del Instituto de Ingeniería Biomédica de Oxford, revisó 17 mil 463 registros publicados entre enero de 2015 y octubre de 2025, de los cuales 140 cumplieron los criterios de inclusión. La mayor parte de la evidencia se concentra en la interpretación diagnóstica, con estudios sobre radiología, endoscopia, electroencefalografía neonatal y detección de patologías en imágenes de resonancia magnética, entre otros. En menor proporción aparecen estudios sobre cribado y triaje, toma de decisiones terapéuticas y flujos de trabajo administrativos.

Uno de los hallazgos centrales es que 86% de los estudios con comparaciones empíricas reportaron resultados positivos para los equipos humano-IA frente a los equipos solo humanos. No obstante, los autores advierten que esta cifra no debe interpretarse como una estimación global de la efectividad de este tipo de colaboración. Las tareas evaluadas, los diseños de estudio y las métricas de resultado fueron heterogéneos, y la mayoría de los estudios midió desempeño a nivel de tarea y no resultados clínicos relevantes para los pacientes.

La revisión identifica tres grandes determinantes del éxito. El primero es técnico: los sistemas que demostraron ser precisos, complementarios a las capacidades humanas y bien integrados en los flujos clínicos mejoraron consistentemente el desempeño del equipo. En cambio, cuando los sistemas generaban falsas alarmas frecuentes o estaban mal integrados en la interfaz clínica, los estudios reportaron mayor carga de revisión y peor desempeño. La explicabilidad del sistema, es decir, la capacidad de mostrar al clínico el razonamiento detrás de una recomendación, aparece en 53 de los 140 estudios analizados. De estos, 38 reportaron efectos positivos sobre la interpretabilidad y la precisión diagnóstica, pero 22 también documentaron que ciertos formatos de explicación aumentaban la carga cognitiva o inducían sobredependencia cuando los usuarios inferían del sistema más certeza de la que este tenía.

El segundo determinante es la confianza, ya que solo 57 de los 140 estudios midieron la confianza de forma explícita, y la mayoría lo hizo mediante escalas de autoinforme en lugar de métricas de comportamiento observado o indicadores de calibración. Esto es relevante porque la confianza declarada y la confianza real, medida a través de las acciones del clínico, pueden divergir. Los autores distinguen entre confianza aumentada, confianza calibrada y sobredependencia. Esta última, junto con el sesgo de automatización y el sesgo de confirmación, aparece en 10 estudios como un riesgo concreto: los clínicos aceptaron recomendaciones incorrectas del sistema, lo que redujo la precisión diagnóstica o empeoró los resultados en los casos en que la IA estaba equivocada.

El tercero es organizacional, pues los estudios con enfoque de implementación, aunque solo representan 11 de los 140 incluidos, señalan que la integración fluida en los sistemas de historia clínica electrónica, el liderazgo visible dentro de las instituciones, la participación temprana de médicos, personal de tecnología y gestores, y los programas de formación para que los clínicos comprendan las capacidades y limitaciones del sistema son condiciones habilitadoras del éxito. De los 140 estudios, 35 identificaron el entrenamiento y la incorporación guiada como factores determinantes, con efectos especialmente notables en médicos residentes y operadores sin experiencia previa.

En materia de gobernanza y seguridad, la revisión señala una brecha importante: aunque 27 estudios discuten la responsabilidad clínica y 31 abordan los riesgos de seguridad para el paciente, estas cuestiones rara vez se evalúan empíricamente dentro de los estudios. La posición dominante en la literatura es que el clínico conserva la responsabilidad final sobre el diagnóstico y el tratamiento, incluso cuando la IA actúa como segundo lector o sistema de apoyo a la decisión. Sin embargo, algunos estudios identifican una tensión creciente: en la práctica, la influencia sobre las decisiones se distribuye entre los desarrolladores, los implementadores y los diseñadores de flujos de trabajo, lo que difumina la trazabilidad de la responsabilidad cuando ocurre un error.

Los autores concluyen que la evidencia disponible respalda con mayor solidez los beneficios de la colaboración humano-IA en la interpretación diagnóstica, mientras que en otras áreas, como las decisiones terapéuticas o la documentación clínica, los hallazgos positivos son más frecuentes pero también más heterogéneos. La revisión fue conducida bajo la metodología del Instituto Joanna Briggs y reportada con los criterios PRISMA-ScR. El protocolo fue registrado de forma prospectiva en el Open Science Framework.