Estudio reciente muestra la evaluación de un modelo de Inteligencia Artificial capaz de predecir diferentes riesgos clínicos en distintos hospitales en tiempo real.
Recientemente el estudio “Modelos de predicción basados en el aprendizaje automático para diferentes riesgos clínicos en distintos hospitales: Evaluación del rendimiento en vivo”, fue publicado en el Journal of Medical Internet (JMIR). Su objetivo principal fue evaluar modelos de predicción de riesgo clínico en flujos de trabajo en vivo y así poder comparar su rendimiento en ese entorno con su rendimiento cuando se utilizan datos retrospectivos.
La importancia de este estudio radica en que intentaron una generalización de los resultados aplicando la misma investigación a tres casos de uso diferentes en tres hospitales. Además, el uso de aprendizaje automático para desarrollar modelos de riesgo clínico, suele limitarse a evaluaciones con datos retrospectivo. Este estudio muestra la evaluación del modelo mediante el uso de datos y flujo de trabajo clínico en tiempo real.
Los modelos de predicción utilizados, fueron entrenados para la predicción de riesgo clínico de delirio, sepsis y lesión renal aguda, en tres hospitales distintos y con datos retrospectivos. Asimismo, dichos modelos de modelos de aprendizaje automático, en específico de aprendizaje profundo fueron utilizados para entrenar una herramienta llamada Transformer model.
“Los modelos se entrenaron utilizando una herramienta de calibración que es común para todos los hospitales y casos de uso. Los modelos tenían un diseño común, pero se calibraron utilizando los datos específicos de cada hospital. Los modelos se implantaron en estos tres hospitales y se utilizaron en la práctica clínica diaria. Las predicciones realizadas por estos modelos se registraron y correlacionaron con el diagnóstico al alta. Se comparó su rendimiento con evaluaciones sobre datos retrospectivos y se realizaron evaluaciones interhospitalarias”, explica el estudio.
Los resultados mostraron que, el rendimiento de los modelos con datos de flujos de trabajo clínicos fue similar a la utilización de datos retrospectivos. El promedio del valor de la Curva Característica Operativa del Receptor – ROC o receiver operating characteristic curve (AUROC), tuvo un valor decrecimiento de 0,6% de 94,8 a 94,2%.
“Las evaluaciones entre hospitales mostraron un rendimiento muy reducido: el AUROC medio disminuyó en 8 puntos porcentuales (del 94,2% al 86,3% al alta), lo que indica la importancia de la calibración del modelo con los datos del hospital de despliegue”, muestra el estudio.
De esta forma los autores concluyeron que la calibración el modelo con datos de los diversos hospitales logra mejores resultados y rendimiento del modelo en flujos de trabajo en vivo. Consulta el estudio completo en el siguiente enlace: