Investigadores crean BRIDGE, una herramienta para evaluar modelos de IA con datos reales de atención clínica

Los resultados revelan una brecha significativa entre el desempeño de los modelos en exámenes médicos estandarizados y su capacidad para interpretar el lenguaje clínico real de los expedientes de pacientes.

Investigadores de Mass General Brigham desarrollaron BRIDGE, un sistema de evaluación comparativa multilingüe diseñado para medir qué tan bien los grandes modelos de lenguaje (LLM, en inglés) comprenden el lenguaje clínico real utilizado en la atención médica cotidiana. Los resultados fueron publicados en Nature Biomedical Engineering.

La mayoría de los sistemas de evaluación existentes para inteligencia artificial médica utilizan preguntas de exámenes de licenciatura o textos derivados de publicaciones científicas, lo que no refleja la complejidad del lenguaje que aparece en expedientes clínicos electrónicos, reportes de casos o consultas médicas reales. BRIDGE surge como respuesta a esa limitación, al construirse a partir de 87 tareas obtenidas de 59 fuentes de datos clínicos reales en nueve idiomas, cubriendo ocho tipos de tareas a lo largo del continuo de atención al paciente, entre ellas triaje, extracción de información, diagnóstico, pronóstico y codificación de facturación, en 14 especialidades clínicas.

El equipo utilizó BRIDGE para evaluar sistemáticamente 95 modelos de lenguaje, entre ellos DeepSeek-R1, GPT-4o, Gemini y Qwen3, bajo múltiples estrategias de inferencia. Los resultados evidencian una brecha notable, ya que el modelo con mejor desempeño alcanzó una puntuación de hasta 92% en exámenes médicos estandarizados, pero obtuvo solo 44.8% en BRIDGE, lo que expone limitaciones significativas para interpretar el lenguaje clínico matizado que se usa en entornos reales de atención. El estudio también encontró variación sustancial en el desempeño según el tamaño del modelo, el idioma, el tipo de tarea y la especialidad clínica.

Entre los hallazgos relevantes destaca que los modelos de código abierto pueden alcanzar un rendimiento comparable al de los modelos propietarios, mientras que los modelos ajustados específicamente para medicina pero construidos sobre arquitecturas más antiguas tienden a quedar por detrás de los modelos de propósito general más recientes. “BRIDGE puede ayudar a los médicos a seleccionar las herramientas de IA adecuadas, al tiempo que orienta a los desarrolladores para mejorar el rendimiento de los modelos”, señaló Jie Yang, autor principal del estudio e investigador de la División de Farmacoepidemiología y Farmacoeconomía del Departamento de Medicina de Mass General Brigham.

Dado que BRIDGE incorpora datos clínicos en nueve idiomas, también permite identificar brechas de desempeño en contextos no anglófonos, lo que lo posiciona como una herramienta para impulsar el desarrollo de modelos más precisos y equitativos para pacientes que no hablan inglés. Los autores pusieron a disposición pública un tablero de clasificación de actualización continua en Hugging Face, que actualmente incluye 107 modelos y permite a médicos y desarrolladores comparar el desempeño de los sistemas de inteligencia artificial en tareas clínicas específicas.