La iniciativa DRAGON, busca acelerar el uso de IA en salud al ofrecer herramientas abiertas y robustas para el entrenamiento y evaluación de modelos lingüísticos clínicos en idiomas con pocos recursos.
En respuesta al creciente desafío global de escasez de personal en diagnóstico médico, investigadores de Países Bajos han lanzado el primer benchmark a gran escala para procesamiento de lenguaje natural (PLN) en medicina clínica, el DRAGON challenge. Esta herramienta busca facilitar la creación y validación de algoritmos capaces de interpretar reportes médicos de forma automática, rápida y precisa, incluso en idiomas con recursos limitados como el neerlandés.
El DRAGON benchmark o Diagnostic Report Analysis: General Optimization of NLP, incluye 28 tareas relevantes para la práctica clínica, con más de 28 mil reportes médicos anotados provenientes de cinco centros de atención neerlandeses. Está diseñado para evaluar modelos de PLN en tareas como clasificación, regresión y reconocimiento de entidades clínicas, abarcando desde informes de radiología y patología hasta textos clínicos generales.
La herramienta también lanza al dominio público modelos de lenguaje entrenados con más de cuatro millones de reportes clínicos, disponibles a través de la plataforma Grand Challenge. Los investigadores pueden utilizar estos modelos para probar sus propios algoritmos o desarrollar nuevas soluciones de anotación automática de datos médicos.

Uno de los principales hallazgos de este estudio publicado en npj Digital Medicine es que los modelos entrenados específicamente con textos clínicos superan consistentemente a aquellos entrenados solo con textos generales. Por ejemplo, el modelo RoBERTa Large, con preentrenamiento específico del dominio médico, logró una puntuación promedio de 0.819 en la métrica DRAGON 2025, que evalúa precisión clínica. Esta métrica indica la utilidad de los modelos en aplicaciones reales, donde 1 representa una coincidencia perfecta con anotaciones humanas.
Pese al éxito general, los resultados también evidencian que hay tareas médicas complejas, como la identificación del origen de ciertos cánceres o el reconocimiento de relaciones entre frases diagnósticas, que aún presentan desafíos técnicos considerables. Esto resalta áreas donde es necesario seguir innovando, sobre todo en el tratamiento de datos numéricos y en conjuntos de datos con alta desbalanceo de clases.
El benchmark está diseñado bajo criterios de privacidad bastante estrictos, por ejemplo: los datos originales no son accesibles directamente, pero los algoritmos pueden procesarlos a través de la plataforma en la nube. Esto permite mantener la confidencialidad de los pacientes mientras se fomenta la investigación abierta. Además, todos los participantes deben compartir sus modelos y métodos como código abierto, asegurando que los avances tecnológicos sean replicables y escalables.