Investigadores de UCLA realizaron un análisis del uso de dos modelos de AI para la transcripción de textos en la atención médica.
Las herramientas de artificial intelligence (AI) son ampliamente utilizadas en el sector médico, especialmente en la investigación clínica para la predicción o diagnóstico de enfermedades. Sin embargo, también hay herramientas utilizadas para mejorar la productividad de los profesionales médicos, por ejemplo aquellas diseñadas para la documentación de las vistas de los pacientes o para realizar anotaciones automáticas. Un estudio reciente publicado en NEJM AI, realizado por investigadores de la Universidad de California, Los Ángeles (UCLA), examinó dos aplicaciones de AI comercialmente disponibles, Microsoft DAX y Nabla, en un entorno real de práctica clínica.
Este ensayo clínico aleatorio utilizó tres grupos de profesionales, 238 médicos ambulatorios, 14 especialidades médicas y 72 mil consultas con pacientes. El estudio mostró que Nabla redujo el tiempo de anotación en 9.5%, en comparación con el control, y ambos modelos dieron lugar a posibles mejoras en el agotamiento, la carga de trabajo y el cansancio laboral, sin embargo los autores detallas que estos resultados secundarios deben confirmarse en ensayos multicéntricos más amplios.
Para realizar este estudio, el equipo asignó de manera aleatoria a los médicos para usar una de las dos herramientas de transcripción de AI o continuar sus prácticas de documentación habituales durante un periodo de dos meses. Las grabaciones de AI registran las conversaciones de los pacientes y generan de forma automática borradores de notas clínicas que posteriormente los profesionales revisan y editan.
Los profesionales informaron de que el rendimiento fue similar en las dos plataformas distintas, y las imprecisiones ocasionales observadas en cualquiera de los dos sistemas requieren una vigilancia continua por parte de profesionales.
“La carga documental se ha convertido en un factor clave del agotamiento médico, ya que los médicos suelen dedicar dos horas al papeleo por cada hora de atención al paciente”, afirmó el Dr. Paul Lukac, autor principal y director de AI de UCLA Health. “Este es el primer ensayo aleatorizado que evalúa rigurosamente si los escritores de AI cumplen su promesa de ayudar a abordar este problema”.
Los médicos que usaron Nabla experimentaron una reducción estimada del tiempo promedio dedicado a escribir cada nota de 41 segundos, al pasar de 4 minutos y 30 segundos a 3 minutos y 49 segundos, frente a 18 segundos, (de 4 minutos y 22 segundos a 4 minutos y 4 segundos) en el grupo de control. Como se mencionó anteriormente la reducción en el grupo de Nabla fue un 9.5% mayor que en el grupo de control, un resultado estadísticamente significativo. Quienes usaron DAX mostraron una reducción menor, que no alcanzó la significación estadística, en comparación con el grupo de control.
Sin embargo, un aspecto a considerar es que el estudio reveló importantes limitaciones, como que el contenido generado por AI contenía imprecisiones clínicamente significativas de manera ocasionales. Estos errores eran generalmente omisiones de información o errores de pronombres.
Los investigadores reconocieron la importancia de que estas herramientas sean supervisadas continuamente. “Esta tecnología requiere la supervisión activa del médico, no una aceptación pasiva”, afirmó el Dr. John N. Mafi, autor principal e internista de UCLA Health. “Nuestro ensayo reveló que, si bien los escribas de AI ofrecen beneficios mensurables, ocasionalmente generan imprecisiones clínicamente significativas. Los médicos deben mantenerse alerta al revisar la documentación generada por AI. El camino a seguir requiere adoptar la innovación, manteniendo al mismo tiempo el compromiso fundamental de la medicina con la seguridad del paciente mediante una evaluación rigurosa y un seguimiento continuo”, agregó.
Los autores señalan que los hallazgos no aplican para cualquier entorno de práctica, ya que serán necesario estudio a largo plazo y en múltiples instituciones y hospitales para confirmar estos hallazgos y medir los efectos necesarios, como los resultados de salud, calidad de atención, costos y más.




