Investigadores de la Facultad de Medicina Icahn y de la Universidad de Michigan evaluaron el impacto de la implementación de modelos predictivos en entornos médicos.
Los modelos basados en aprendizaje automático utilizados en entornos sanitarios son aplicaciones de inteligencia artificial (IA) que tienen como objetivo mejorar la atención médica, la toma de decisiones clínicas y la gestión de datos en el sector de la salud. Estos modelos aprovechan grandes conjuntos de datos de pacientes, historiales médicos, imágenes médicas y otros datos relacionados con la salud para realizar tareas específicas, como diagnóstico, pronóstico, tratamiento y gestión de registros médicos.
Estos modelos pueden mejorar la precisión de diagnósticos, optimizar los tratamientos y acelerar la investigación médica. Sin embargo, es importante abordar cuestiones éticas y de privacidad relacionadas con la recopilación y el uso de datos de salud. Asimismo, es necesario evaluar el impacto y los resultados de estos modelos luego de aplicarse en entornos clínicos.
En este sentido, los modelos basados en el aprendizaje automático en el ámbito sanitario pueden ser víctimas de su propio éxito, según investigadores de la Facultad de Medicina Icahn y de la Universidad de Michigan.
Para ello realizaron un estudio en el cual evaluaron el impacto de la implementación de modelos predictivos en el rendimiento posterior de los mismos y otros modelos. “Queríamos explorar lo que sucede cuando un modelo de aprendizaje automático se despliega en un hospital y se le permite influir en las decisiones de los médicos para el beneficio general de los pacientes”, explicó el primer autor, Akhil Vaid, Instructor Clínico de Medicina Digital Impulsada por Datos (D3M, en inglés) en Icahn Mount Sinai.
El estudio buscó comprender las consecuencias cuando un paciente supera resultados adversos como daño renal o mortalidad. Los modelos de IA son capaces de aprender y establecer correlación entre los datos de los pacientes y sus resultados correspondientes. No obstante, el uso de los modelos también puede alterar estas relaciones.
El objetivo del estudio fue estimar los cambios en el rendimiento del modelo predictivo con el uso a través de tres escenarios comunes: 1. el reentrenamiento del modelo tras su uso inicial; 2. la implementación secuencial de un modelo tras otro, es decir crear un nuevo modelo cuando ya se ha utilizado uno; y 3. la intervención en respuesta a un modelo cuando se implementan dos modelos simultáneamente, es decir el uso simultáneo de dos modelos de predicción. Para ello reunieron datos de 130 mil admisiones de cuidados críticos del sistema de salud de Mount Sinai en Nueva York y del Beth Israel Deaconess Medical Center de la ciudad de Boston.
En el escenario 1, la práctica actual sugiere reentrenar los modelos para hacer frente a la degradación de su rendimiento a lo largo del tiempo. De esta forma, el reentrenamiento es capaz de mejorar inicialmente el rendimiento al adaptarse a condiciones cambiantes, sin embargo, los autores del estudio encontraron que esto puede producir paradójicamente una mayor degradación del modelo. Por otra parte, en el escenario 2, muestra que, puede ser inapropiado entrenar nuevos modelos tomando como base resultados basados en el uso de otro modelo de aprendizaje automático. Y finalmente, en el escenario 3, explica que, si dos modelos realizan predicciones simultáneas, el uso de un conjunto de predicciones deja obsoleto al otro. De esta manera las predicciones deben basarse en datos de reciente obtención, algo costoso y poco práctico según el estudio.
Los resultados fueron los siguientes:
- Escenario 1: Sensibilidad fija del 90%, un modelo de predicción de la mortalidad perdió entre un 9% y un 39% de especificidad tras reentrenarse una vez.
- Escenario 2: Un modelo de predicción de la mortalidad perdió entre un 8% y un 15% de especificidad cuando se creó tras la implantación de un modelo de predicción de la lesión renal aguda (LRA).
- Escenario 3: Los modelos de predicción de la LRA y de la mortalidad implantados simultáneamente, cada uno de ellos condujo a una reducción de la precisión efectiva del otro entre un 1% y un 28%.
“No debemos considerar que los modelos predictivos no son fiables”, explicó el coautor principal Girish Nadkarni, profesor de medicina en Icahn Mount Sinai. “Por el contrario, se trata de reconocer que estas herramientas requieren un mantenimiento regular, comprensión y contextualización. Descuidar su rendimiento y el seguimiento de su impacto puede socavar su eficacia. Debemos utilizar los modelos predictivos de forma reflexiva, como cualquier otra herramienta médica. Los sistemas de salud que aprenden deben prestar atención al hecho de que el uso indiscriminado y las actualizaciones de dichos modelos provocarán falsas alarmas, pruebas innecesarias y un aumento de los costes”.
En este sentido, los autores recomiendan que los sistemas sanitarios adopten un sistema de seguimiento de personas afectadas por predicciones de aprendizaje automático y también hicieron un llamado a los organismos gubernamentales a la publicación de directrices pertinentes sobre estos modelos.
Puedes consultar el estudio completo en el siguiente enlace: