¿Puede la IA generativa igualar el diagnóstico de los médicos?

Metaanálisis revela que la inteligencia artificial tiene un rendimiento similar a médicos no especialistas, pero aún está lejos de igualar a los expertos.

Un estudio reciente publicado en npj Digital Medicine evaluó el desempeño de la inteligencia artificial (IA) generativa en el diagnóstico médico, comparándolo con el de profesionales de la salud. Los resultados muestran que, aunque estas herramientas tienen potencial, aún no superan el criterio de los médicos especialistas. Este análisis, que incluyó 83 investigaciones publicadas entre 2018 y 2024, ofrece una visión detallada sobre el papel actual de la IA en la medicina. Además, el estudio subraya la importancia de usar la IA como un complemento, y no como un sustituto, de la experiencia médica humana.

El metaanálisis encontró que la precisión diagnóstica promedio de los modelos de IA generativa fue del 52.1%. Al comparar su rendimiento con el de los médicos, no se observaron diferencias significativas en general ni frente a médicos no especialistas. Sin embargo, la IA mostró un desempeño inferior al de los médicos expertos. Algunos modelos avanzados, como GPT-4, Gemini 1.5 Pro y Claude 3, tuvieron resultados ligeramente mejores que los no especialistas, aunque sin diferencias estadísticamente significativas.

Además, el estudio también analizó el rendimiento de la IA en distintas especialidades médicas. Por ejemplo, en áreas como dermatología y urología la IA mostró una precisión notable, sin embargo, en otras especialidades como oftalmología y neurología su desempeño fue más modesto. Esto sugiere que la efectividad de la IA varía según el campo médico, posiblemente debido a la naturaleza visual de ciertas especialidades o la complejidad de los casos.

A pesar de estos avances, los autores identificaron limitaciones importantes. El 76% de las investigaciones incluidas tenían un alto riesgo de sesgo, principalmente por el uso de conjuntos de datos pequeños o falta de transparencia en los datos de entrenamiento de los modelos. De igual manera, la IA mostró dificultades en escenarios clínicos complejos, donde la experiencia humana sigue siendo insustituible.

En este sentido, la IA generativa ha demostrado ser una herramienta prometedora en el diagnóstico médico, especialmente como apoyo para profesionales no especialistas o en entornos con recursos limitados o con escasez de especialistas. Sin embargo, el estudio hace énfasis en que la IA generativa aún no está lista para reemplazar el juicio clínico experto. Para que su integración en la práctica médica sea efectiva, será necesario abordar desafíos clave como mejorar la transparencia de los modelos, reducir los sesgos en los datos y validar su rendimiento en situaciones clínicas reales.