Un nuevo estudio presenta un modelo de 7 mil millones de parámetros entrenado con millones de notas clínicas y reportes de patología para tareas específicas en cáncer.
Un equipo de investigadores de la University of Minnesota Twin Cities y otras instituciones desarrolló CancerLLM, un gran modelo de lenguaje o LLM, diseñado específicamente para el dominio oncológico. El trabajo parte de una limitación reconocida en los modelos generales y biomédicos existentes, que no siempre incorporan conocimiento detallado sobre cáncer ni están optimizados para tareas clínicas concretas como la extracción de fenotipos o la generación de diagnósticos. El estudio fue publicado en npj Digital Medicine journal.
CancerLLM fue construido sobre la arquitectura Mistral de 7 mil millones de parámetros y posteriormente ajustado con técnicas de adaptación eficiente. Para su entrenamiento se utilizaron 2,676,642 notas clínicas oncológicas y 515,524 reportes de patología correspondientes a 17 tipos de cáncer, obtenidos de un repositorio clínico institucional.
Después del preentrenamiento, el modelo fue afinado mediante instrucción supervisada en dos tareas, de extracción de fenotipos tumorales y de generación de diagnósticos a partir de notas clínicas estructuradas.
En la tarea de extracción de fenotipos, el modelo debía identificar entidades como tipo y estado de receptores hormonales, tamaño y localización del tumor, grado, subtipo histológico, lateralidad y estadio. En generación diagnóstica, se le proporcionaba información clínica como motivo de consulta, hallazgos objetivos y resultados de laboratorio, y debía producir el diagnóstico oncológico correspondiente.
Los resultados mostraron que CancerLLM alcanzó un F1 de 91.78% en extracción de fenotipos y de 86.81% en generación de diagnóstico en los conjuntos de evaluación internos. Según los autores, el modelo superó a diversos modelos biomédicos y generales, incluidos sistemas con 13 mil y 70 mil millones de parámetros, con una mejora promedio de 9.23 puntos porcentuales en F1 frente a las líneas base evaluadas. En un cohorte independiente de 2 mil pacientes, mantuvo el mejor desempeño absoluto, con un F1 promedio de 85.08% bajo separación estricta a nivel paciente.
El estudio también evaluó la robustez ante escenarios realistas. En pruebas con anotaciones incorrectas simuladas, el desempeño disminuyó conforme aumentaba la proporción de errores, aunque el modelo mantuvo ventaja frente a su versión base. En experimentos con errores ortográficos introducidos artificialmente en las notas clínicas, tanto CancerLLM como otros modelos comparables mostraron caídas relevantes en métricas de coincidencia exacta, lo que pone de relieve la sensibilidad de estos sistemas a variaciones lingüísticas frecuentes en la práctica clínica.
Otro aspecto destacado es la eficiencia computacional, ya que frente a modelos de mayor tamaño, CancerLLM requirió menos memoria de GPU y menor tiempo de inferencia. Por ejemplo, mientras algunos modelos de 70 mil millones de parámetros demandaron más de 37 GB de memoria y tiempos de inferencia superiores a dos horas y media en el conjunto completo de prueba, CancerLLM utilizó alrededor de 5.5 GB y redujo el tiempo total de generación de manera considerable.
Los autores también exploraron una versión con recuperación de información, en la que el modelo incorpora ejemplos relevantes recuperados de un corpus de entrenamiento antes de generar la respuesta. En tareas de generación diagnóstica, ciertos recuperadores especializados mejoraron el rendimiento, mientras que en extracción de fenotipos el modelo sin recuperación adicional se mantuvo competitivo.
En el análisis de errores se identificaron dificultades recurrentes, como la tendencia a simplificar diagnósticos complejos, omitir información sobre metástasis o estadificación, y problemas para interpretar abreviaturas y errores tipográficos comunes en notas clínicas. Estos hallazgos apuntan a la necesidad de estrategias adicionales de normalización y control de calidad de datos en entornos reales.
El equipo concluye que un modelo de tamaño moderado, entrenado con datos específicos del dominio oncológico y evaluado con conjuntos diseñados para tareas clínicas concretas, puede ofrecer un equilibrio entre desempeño, robustez y viabilidad operativa. Aunque los resultados no sustituyen la evaluación médica especializada, el estudio sugiere que herramientas de este tipo podrían apoyar investigación clínica y procesos asistenciales en oncología bajo marcos regulatorios y éticos adecuados.



