Filter by input type
Filter by category
CARDBiomedBench pone a prueba a los modelos de lenguaje en investigación biomédica

Investigadores desarrollaron una nueva herramienta para evaluar la precisión y la seguridad en enfermedades neurodegenerativas.

Un equipo de investigadores del Centro para el Alzheimer y Enfermedades Relacionadas del Instituto Nacional sobre el Envejecimiento en Estados Unidos presentó en The Lancet Digital Health un nuevo marco de evaluación para grandes modelos de lenguaje (LLM, en inglés). El recurso, denominado CARDBiomedBench, fue diseñado para medir con mayor rigor la capacidad de estos sistemas de inteligencia artificial para responder preguntas complejas en investigación biomédica, particularmente en el ámbito de las enfermedades neurodegenerativas.

Aunque los LLM han mostrado habilidades notables para interpretar textos, generar hipótesis y asistir en la toma de decisiones, su desempeño en dominios altamente especializados sigue siendo incierto. En áreas como la genética, la farmacología o el análisis estadístico avanzado, pequeños errores pueden traducirse en conclusiones incorrectas. Además, uno de los principales riesgos es la llamada “alucinación”, cuando el modelo genera información falsa con apariencia convincente.

CARDBiomedBench busca responder a este desafío mediante un banco de más de 68 mil pares de preguntas y respuestas cuidadosamente elaborados. En su primera versión, el conjunto se centra en enfermedades neurodegenerativas como el Alzheimer y el Parkinson, condiciones que implican la integración de datos genómicos, resultados de estudios de asociación de genoma completo, análisis de randomización mendeliana y bases de datos regulatorias sobre fármacos. Se trata de un entorno exigente que requiere razonamiento en múltiples pasos, aplicación de umbrales estadísticos y cruce de variables biológicas como genes, variantes genéticas y medicamentos.

El desarrollo del banco combinó la anotación manual por expertos con técnicas semiautomatizadas para ampliar la cantidad de preguntas sin perder coherencia biológica. A diferencia de otros referentes que evalúan conocimientos médicos generales o extracción básica de información, este recurso se enfoca en tareas orientadas a la investigación, donde se exige interpretar resultados cuantitativos y sintetizar evidencia de diversas fuentes.

Para calificar el desempeño de los modelos, los autores crearon un sistema denominado BioScore. Esta métrica no solo mide la calidad de la respuesta, a través de la tasa de calidad de respuesta, sino también la capacidad del modelo para abstenerse cuando no está seguro, lo que se traduce en una tasa de seguridad. En este contexto, abstenerse puede ser preferible a ofrecer una respuesta incorrecta.

El equipo evaluó 18 LLMs, tanto propietarios como de código abierto. Los resultados mostraron brechas importantes. Algunos sistemas alcanzaron niveles relativamente altos de precisión, pero con baja capacidad de abstención, lo que implica un mayor riesgo de errores con exceso de confianza. Otros adoptaron una postura más cautelosa y se abstuvieron con frecuencia, aunque a costa de una menor proporción de respuestas correctas. Ninguno logró un equilibrio sólido entre exactitud y seguridad.

El análisis detallado reveló patrones de falla consistentes, pues muchos modelos tuvieron dificultades para recuperar datos específicos de estudios genéticos, calcular o interpretar valores estadísticos como p ajustados, identificar ubicaciones genómicas correctas o integrar información sobre blancos terapéuticos y fases de ensayos clínicos. Estas limitaciones sugieren que, pese a sus avances, los LLM actuales aún no están plenamente preparados para asumir tareas complejas de razonamiento científico sin apoyo adicional.

Los autores señalan que futuras mejoras podrían incluir la integración directa de bases de datos estructuradas mediante técnicas de generación aumentada por recuperación o interfaces que permitan consultar tablas y realizar cálculos de forma programática. También subrayan la importancia de perfeccionar los mecanismos de calibración de incertidumbre, de modo que los modelos reconozcan con mayor precisión cuándo no cuentan con suficiente información.

Aunque CARDBiomedBench fue concebido como un recurso escalable y en evolución, esta primera versión se enfoca en enfermedades neurodegenerativas, la intención es ampliar el marco hacia otras áreas biomédicas y, eventualmente, incorporar versiones multilingües que reflejen el carácter global de la investigación científica.

Related Content

Secured By miniOrange