Filter by input type
Filter by category
Modelos de lenguaje de última generación logran superar a los sistemas especializados en la predicción clínica a partir de notas médicas

Un benchmark desarrollado por investigadores de Pekín, Edimburgo y Hong Kong cuestiona la presunción de que la AI general es inferior a los modelos entrenados específicamente para tareas hospitalarias.

Durante años, la práctica común en informática clínica fue asumir que los grandes modelos de lenguaje (LLM, en inglés) de propósito general rendían peor que los sistemas entrenados específicamente con datos hospitalarios para tareas como predecir la mortalidad o la probabilidad de reingreso de un paciente. Un estudio publicado en npj Digital Medicine journal por investigadores de la Universidad de Beihang, la Universidad de Pekín, la Universidad de Edimburgo y la Universidad de Hong Kong propone evidencia sistemática de que esa presunción ya no se sostiene, al menos en lo que respecta al análisis de notas clínicas no estructuradas.

El trabajo introduce ClinicRealm, un benchmark que evaluó 15 LLMs de tipo GPT, 5 modelos de tipo BERT y 11 métodos convencionales de machine learning or machine learning and deep learning or deep learning, sobre dos grandes categorías de datos clínicos: notas clínicas en texto libre y registros electrónicos de salud estructurados. Las tareas evaluadas incluyeron predicción de mortalidad intrahospitalaria, predicción de reingreso a 30 días y estimación de la duración de la estancia. Para cada tarea, los investigadores probaron distintos escenarios de entrenamiento, desde el uso de los modelos directamente sin ejemplos previos hasta su ajuste fino con los datos disponibles.

El hallazgo más llamativo tiene que ver con el análisis de notas clínicas en texto libre. En esa categoría, los modelos de lenguaje de última generación aplicados sin entrenamiento específico, entre ellos DeepSeek-R1, GPT-5 y DeepSeek-V3.1-Think, superaron consistentemente a los modelos BERT especializados que habían sido ajustados con datos clínicos reales. DeepSeek-R1 alcanzó un área bajo la curva ROC del 90.75% en la predicción prospectiva de mortalidad a partir de notas de admisión, frente al 87.97% del mejor modelo BERT ajustado, GatorTron, que además había sido preentrenado con las mismas notas clínicas de referencia, lo que en teoría le otorgaba una ventaja de dominio que los modelos generales no tenían.

La situación es más matizada cuando se trata de registros estructurados. En ese contexto, los modelos especializados entrenados con datos suficientes, en particular AdaCare y AICare, mantuvieron su ventaja sobre los modelos de lenguaje general. Sin embargo, cuando los datos de entrenamiento son escasos, como ocurre en enfermedades emergentes o condiciones poco frecuentes, los modelos generales de gran escala demostraron una capacidad predictiva notable. GPT-4o con aprendizaje en contexto alcanzó un área bajo la curva ROC del 85.99% en predicción de mortalidad con solo 10 ejemplos de entrenamiento, superando a todos los modelos convencionales entrenados también con esos 10 casos.

El estudio también evaluó la integración de ambos tipos de datos en escenarios multimodales y encontró que combinar notas clínicas y registros estructurados en un mismo contexto no mejora automáticamente los resultados. En varios casos, la combinación de modalidades produjo un rendimiento intermedio entre el obtenido con cada fuente por separado, sin alcanzar el nivel de las notas clínicas solas, que resultaron ser la fuente de información individualmente más potente para las tareas evaluadas.

Más allá de las métricas de rendimiento, el benchmark incluyó una evaluación cualitativa por parte de cinco clínicos expertos en medicina interna y cuidados críticos, quienes calificaron el razonamiento producido por los mejores modelos. Los resultados fueron favorables en términos de precisión, completitud y utilidad clínica cuando los modelos trabajaban con notas de texto, aunque se identificaron patrones de error recurrentes: los falsos positivos tendían a asociarse con alucinaciones o inconsistencias factuales, mientras que los falsos negativos se relacionaban con fallas en el razonamiento clínico de orden superior, es decir, situaciones en que el modelo identificaba correctamente los factores de riesgo pero no les asignaba el peso colectivo adecuado.

Entre las implicaciones prácticas, el estudio señala que los modelos de código abierto como DeepSeek alcanzaron un rendimiento comparable e incluso superior al de modelos propietarios en varias tareas, lo que amplía las posibilidades de adopción en entornos con restricciones presupuestarias o requisitos estrictos de privacidad de datos. Los autores advierten, sin embargo, que ninguno de estos modelos debe considerarse listo para despliegue clínico sin pruebas empíricas extensas, validación en poblaciones diversas y análisis rigurosos de equidad y sesgos demográficos.

Related Content

Secured By miniOrange