Filter by input type
Filter by category
Modelo de IA supera a médicos de urgencias en el diagnóstico de enfermedades neurológicas

Investigadores chinos desarrollaron Xuanwu-NeuroAid, un modelo de lenguaje especializado en neurología de emergencia que alcanzó una precisión diagnóstica de 79.4%, frente al 65.4% de los médicos evaluados en el mismo escenario.

Las salas de urgencias requieren tomar decisiones médicas en tiempo limitado, con información incompleta y a pacientes cuyo pronóstico depende de un diagnóstico acertado en los primeros minutos. En ese entorno, los errores médicos no son excepciones; estudios previos los ubican como la tercera causa de muerte en Estados Unidos. Un artículo publicado en la revista npj Digital Medicine journal, aún en proceso de edición final, plantea que un modelo de lenguaje de gran escala especializado en neurología puede funcionar como un asistente diagnóstico capaz de mejorar el desempeño de los médicos de urgencias en ese contexto de alta presión.

El modelo, denominado Xuanwu-NeuroAid, fue desarrollado por investigadores del Hospital Xuanwu de la Universidad Médica Capital de Beijing, en colaboración con el Laboratorio Pengcheng de Shenzhen y el Instituto de Artificial Intelligence de la Universidad de Pekín. Su arquitectura parte de DeepSeek-R1-Distill-Llama-70B, un modelo de 70 mil millones de parámetros, optimizado mediante técnicas de poda estructurada y adaptación de parámetros para reducir los costos computacionales sin sacrificar rendimiento. El entrenamiento se realizó con más de 310 mil diálogos clínicos de múltiples especialidades, de los cuales se seleccionaron 90 mil pares de preguntas y respuestas de alta calidad, un corpus aproximadamente tres veces mayor que los conjuntos de datos neurológicos convencionales.

Para evaluar su desempeño en condiciones clínicas reales, el equipo diseñó un estudio prospectivo en modalidad de sombra, es decir, el modelo procesó los mismos casos que atendían los médicos de urgencias, pero sin intervenir en las decisiones reales. Entre el 1 y el 14 de febrero de 2025, se reclutaron 650 pacientes atendidos en el Departamento de Neurología de Urgencias del Hospital Xuanwu. Tras excluir casos con registros incompletos, signos vitales inestables o visitas repetidas, el análisis final incluyó 433 pacientes con una edad media de 61.3 años. Las enfermedades cerebrovasculares constituyeron la mayoría de los casos, con el 62.4% del total, seguidas por trastornos vestibulares, neuropatías periféricas, cefaleas y otras condiciones neurológicas.

El proceso de evaluación fue estructurado en cuatro etapas. Primero, el médico de urgencias emitía un diagnóstico preliminar basado en la historia clínica, la exploración física y los resultados iniciales de laboratorio. Segundo, el modelo generaba de forma independiente su propio diagnóstico a partir de la transcripción de la consulta y los datos clínicos disponibles. Tercero, el médico revisaba el razonamiento del modelo y ajustaba su diagnóstico asistido por la AI. Por último, un panel de cuatro neurólogos con más de diez años de experiencia establecía el diagnóstico confirmado como referencia, un mes después de la consulta inicial. La evaluación de las recomendaciones de estudios y tratamientos fue calificada de forma ciega por el mismo panel, usando una escala de cinco puntos en tres dimensiones: integridad, precisión y aplicabilidad clínica.

Los resultados mostraron que Xuanwu-NeuroAid alcanzó una precisión diagnóstica independiente de 79.4%, frente al 65.4% de los médicos evaluados en las mismas condiciones, una diferencia estadísticamente significativa. Cuando los médicos contaron con el apoyo del modelo, su precisión mejoró hasta el 75.1%, aunque se mantuvo por debajo del rendimiento autónomo de la herramienta. En el análisis por categorías diagnósticas, el modelo fue superior en enfermedades cerebrovasculares, con un 85.2% frente al 71.5% de los médicos, y en trastornos vestibulares, con un 76.7% frente al 53.5%. La excepción fue la neuropatía periférica, donde los médicos superaron al modelo, probablemente porque ese tipo de diagnóstico requiere información que con frecuencia no está disponible en el momento de la consulta de urgencias, como exámenes electrofisiológicos o la evolución longitudinal de los síntomas.

En cuanto a las recomendaciones clínicas, el panel experto calificó las sugerencias del modelo con una puntuación total media de 11.1 sobre 15, frente a 9.4 para los médicos. La diferencia fue estadísticamente significativa en las tres dimensiones evaluadas. Los autores señalaron, sin embargo, que una pequeña proporción de las recomendaciones del modelo, menos del 10%, recibió puntuaciones bajas, principalmente porque sugería un número excesivo de estudios o porque los planes de tratamiento carecían de suficiente individualización para pacientes con comorbilidades complejas.

Un hallazgo adicional, con implicaciones que los propios investigadores consideran dignas de seguimiento, es que cuando se incorporó información sociodemográfica de los pacientes, como el nivel educativo y el tipo de cobertura médica, las recomendaciones del modelo en materia de educación para la salud cambiaron de forma estadísticamente significativa. Aunque ninguna variable sociodemográfica individual explicó ese cambio de manera independiente, el patrón sugiere que el modelo podría estar reproduciendo sesgos presentes en su corpus de entrenamiento, como asociaciones implícitas entre el nivel educativo o el tipo de seguro médico y las necesidades percibidas de orientación al paciente. Los autores advierten que los médicos deben mantenerse vigilantes ante esa posibilidad, ya que amplificar factores de identidad social sin justificación clínica podría derivar en intervenciones innecesarias o inequitativas para determinados grupos.

El estudio reconoce limitaciones relevantes. Al haberse realizado en modalidad de sombra, los resultados del modelo no influyeron en las decisiones clínicas reales, por lo que su impacto en los desenlaces de los pacientes sigue sin cuantificarse. Además, la información de imagen se incorporó mediante textos de reportes radiológicos y no mediante el procesamiento directo de estudios de tomografía o resonancia magnética. El seguimiento fue relativamente corto y el estudio se llevó a cabo en un solo centro. Los autores concluyen que la validación en entornos reales, multicéntricos y mediante ensayos controlados aleatorizados con desenlaces centrados en los pacientes será indispensable para determinar la seguridad y la efectividad clínica del sistema.

Outstanding news

Stay updated

News by country

Related Content

Secured By miniOrange