Un sistema de IA con múltiples agentes analiza notas clínicas para identificar indicios sutiles de deterioro cognitivo antes de que se pierda la ventana óptima de tratamiento.
Investigadores del Mass General Brigham desarrollaron Pythia, un sistema de inteligencia artificial (IA) capaz de detectar señales tempranas de deterioro cognitivo a partir de notas clínicas rutinarias, incluso antes de que exista un diagnóstico formal. El avance fue publicado en la revista npj Digital Medicine y propone un nuevo enfoque basado en agentes autónomos que colaboran entre sí, de manera similar a como lo haría un equipo médico en una discusión clínica.
A diferencia de los modelos tradicionales, los investigadores no diseñaron una sola herramienta de IA, sino un sistema compuesto por cinco agentes especializados que analizan, cuestionan y refinan sus conclusiones de forma iterativa. “No construimos un único modelo de IA, construimos un equipo clínico digital”, explicó el Dr. Hossein Estiri, autor correspondiente del estudio y director del grupo Clinical Augmented Intelligence en el Massachusetts General Hospital. Según detalló, Pythia permite que los distintos agentes se critiquen entre sí y mejoren su razonamiento, tal como ocurre en una sesión clínica entre profesionales de la salud. El estudio analizó más de 3 mil 300 notas clínicas de 200 pacientes de Mass General Brigham.
El objetivo principal es identificar preocupaciones cognitivas a partir de notas médicas no estructuradas, como historias clínicas, notas de progreso o resúmenes de alta. En estos textos suelen aparecer señales tempranas, por ejemplo dificultades para encontrar palabras, desorganización en el discurso o inquietudes expresadas por familiares, que pueden pasar desapercibidas en la práctica clínica cotidiana.
“Para cuando muchos pacientes reciben un diagnóstico formal, la ventana óptima de tratamiento ya puede haberse cerrado”, explicó la Dra. Lidia Moura, autora principal del estudio y directora de Salud Poblacional y del Centro de Inteligencia en Salud del Departamento de Neurología del Mass General Brigham. La detección temprana resulta especialmente relevante en un contexto donde algunos tratamientos aprobados para enfermedades neurodegenerativas dependen de una intervención oportuna.
El sistema fue evaluado utilizando miles de notas clínicas correspondientes a pacientes adultos mayores. Los investigadores compararon dos enfoques, uno guiado por expertos humanos y otro completamente autónomo, en el que los agentes de IA ajustan sus propios criterios sin intervención humana. Los resultados mostraron que el enfoque autónomo logró un desempeño cercano al de los expertos, especialmente en la capacidad para descartar correctamente casos sin deterioro cognitivo.
La Dra. Moura subrayó el valor de este enfoque automatizado al señalar que “las notas clínicas contienen susurros del deterioro cognitivo que los médicos, por falta de tiempo, no pueden identificar de forma sistemática. Este sistema es capaz de escuchar esas señales a gran escala”.
Un hallazgo relevante del estudio fue que, en muchos casos donde inicialmente se pensó que la IA había cometido errores, una revisión posterior por especialistas mostró que sus conclusiones eran clínicamente razonables. “Esperábamos encontrar errores de la inteligencia artificial, pero en muchos casos descubrimos que estaba haciendo juicios defendibles basados en la evidencia disponible en las notas”, señaló el Dr. Estiri.
Los autores también hicieron énfasis en la importancia de la transparencia. “Estamos publicando exactamente en qué aspectos la inteligencia artificial tiene dificultades”, añadió el Dr. Estiri. “El campo necesita dejar de ocultar estos problemas de calibración si queremos que la IA clínica genere confianza”.
Aunque el sistema mostró una alta precisión, los investigadores reconocen limitaciones importantes. El rendimiento puede variar cuando la prevalencia real del deterioro cognitivo es menor, como ocurre en la práctica clínica, y la mayoría de los datos analizados provienen de una población poco diversa. Por ello, subrayan la necesidad de validar el modelo en otros entornos y con poblaciones más heterogéneas antes de su implementación clínica.



