{"id":67803,"date":"2026-02-25T09:25:35","date_gmt":"2026-02-25T15:25:35","guid":{"rendered":"https:\/\/saluddigital.com\/?p=67803"},"modified":"2026-02-25T09:29:55","modified_gmt":"2026-02-25T15:29:55","slug":"cardbiomedbench-pone-a-prueba-a-los-modelos-de-lenguaje-en-investigacion-biomedica","status":"publish","type":"post","link":"https:\/\/saluddigital.com\/en\/big-data\/cardbiomedbench-pone-a-prueba-a-los-modelos-de-lenguaje-en-investigacion-biomedica\/","title":{"rendered":"CARDBiomedBench tests language models in biomedical research"},"content":{"rendered":"<div data-elementor-type=\"wp-post\" data-elementor-id=\"67803\" class=\"elementor elementor-67803\" data-elementor-post-type=\"post\">\n\t\t\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-41eb9f02 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-column-slider-no wpr-equal-height-no\" data-id=\"41eb9f02\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-5f6440ca\" data-id=\"5f6440ca\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-3633b0aa elementor-widget elementor-widget-heading\" data-id=\"3633b0aa\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"heading.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t<h2 class=\"elementor-heading-title elementor-size-default\">Investigadores desarrollaron una nueva herramienta para evaluar la precisi\u00f3n y la seguridad en enfermedades neurodegenerativas.<\/h2>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-4e7afb47 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-column-slider-no wpr-equal-height-no\" data-id=\"4e7afb47\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-1b55d6b3\" data-id=\"1b55d6b3\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-3612fe2b elementor-widget elementor-widget-text-editor\" data-id=\"3612fe2b\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>Un equipo de investigadores del Centro para el Alzheimer y Enfermedades Relacionadas del Instituto Nacional sobre el Envejecimiento en Estados Unidos present\u00f3 en <a href=\"https:\/\/www.thelancet.com\/journals\/landig\/article\/PIIS2589-7500(25)00125-6\/fulltext\"><em>The Lancet Digital Health<\/em><\/a> un nuevo marco de evaluaci\u00f3n para grandes modelos de lenguaje (LLM, en ingl\u00e9s). El recurso, denominado <strong>CARDBiomedBench<\/strong>, fue dise\u00f1ado para medir con mayor rigor la capacidad de estos sistemas de inteligencia artificial para responder preguntas complejas en investigaci\u00f3n biom\u00e9dica, particularmente en el \u00e1mbito de las enfermedades neurodegenerativas.<\/p><p>Aunque los LLM han mostrado habilidades notables para interpretar textos, generar hip\u00f3tesis y asistir en la toma de decisiones, su desempe\u00f1o en dominios altamente especializados sigue siendo incierto. En \u00e1reas como la gen\u00e9tica, la farmacolog\u00eda o el an\u00e1lisis estad\u00edstico avanzado, peque\u00f1os errores pueden traducirse en conclusiones incorrectas. Adem\u00e1s, uno de los principales riesgos es la llamada \u201calucinaci\u00f3n\u201d, cuando el modelo genera informaci\u00f3n falsa con apariencia convincente.<\/p><p>CARDBiomedBench busca responder a este desaf\u00edo mediante un banco de m\u00e1s de 68 mil pares de preguntas y respuestas cuidadosamente elaborados. En su primera versi\u00f3n, el conjunto se centra en enfermedades neurodegenerativas como el Alzheimer y el Parkinson, condiciones que implican la integraci\u00f3n de datos gen\u00f3micos, resultados de estudios de asociaci\u00f3n de genoma completo, an\u00e1lisis de randomizaci\u00f3n mendeliana y bases de datos regulatorias sobre f\u00e1rmacos. Se trata de un entorno exigente que requiere razonamiento en m\u00faltiples pasos, aplicaci\u00f3n de umbrales estad\u00edsticos y cruce de variables biol\u00f3gicas como genes, variantes gen\u00e9ticas y medicamentos.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-474f2a2a elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-column-slider-no wpr-equal-height-no\" data-id=\"474f2a2a\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-top-column elementor-element elementor-element-1463c32f\" data-id=\"1463c32f\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-5e44ba20 elementor-widget elementor-widget-image\" data-id=\"5e44ba20\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"image.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<img fetchpriority=\"high\" decoding=\"async\" width=\"1200\" height=\"630\" src=\"https:\/\/saluddigital.com\/wp-content\/uploads\/2026\/02\/02-26-34.jpg\" class=\"attachment-full size-full wp-image-67807\" alt=\"\" \/>\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-top-column elementor-element elementor-element-6d6ee10c\" data-id=\"6d6ee10c\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-15d1ce83 elementor-widget elementor-widget-text-editor\" data-id=\"15d1ce83\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>El desarrollo del banco combin\u00f3 la anotaci\u00f3n manual por expertos con t\u00e9cnicas semiautomatizadas para ampliar la cantidad de preguntas sin perder coherencia biol\u00f3gica. A diferencia de otros referentes que eval\u00faan conocimientos m\u00e9dicos generales o extracci\u00f3n b\u00e1sica de informaci\u00f3n, este recurso se enfoca en tareas orientadas a la investigaci\u00f3n, donde se exige interpretar resultados cuantitativos y sintetizar evidencia de diversas fuentes.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-6b0280f7 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-column-slider-no wpr-equal-height-no\" data-id=\"6b0280f7\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-50a4d029\" data-id=\"50a4d029\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-49166056 elementor-widget elementor-widget-text-editor\" data-id=\"49166056\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>Para calificar el desempe\u00f1o de los modelos, los autores crearon un sistema denominado BioScore. Esta m\u00e9trica no solo mide la calidad de la respuesta, a trav\u00e9s de la tasa de calidad de respuesta, sino tambi\u00e9n la capacidad del modelo para abstenerse cuando no est\u00e1 seguro, lo que se traduce en una tasa de seguridad. En este contexto, abstenerse puede ser preferible a ofrecer una respuesta incorrecta.<\/p><p>El equipo evalu\u00f3 18 LLMs, tanto propietarios como de c\u00f3digo abierto. Los resultados mostraron brechas importantes. Algunos sistemas alcanzaron niveles relativamente altos de precisi\u00f3n, pero con baja capacidad de abstenci\u00f3n, lo que implica un mayor riesgo de errores con exceso de confianza. Otros adoptaron una postura m\u00e1s cautelosa y se abstuvieron con frecuencia, aunque a costa de una menor proporci\u00f3n de respuestas correctas. Ninguno logr\u00f3 un equilibrio s\u00f3lido entre exactitud y seguridad.<\/p><p>El an\u00e1lisis detallado revel\u00f3 patrones de falla consistentes, pues muchos modelos tuvieron dificultades para recuperar datos espec\u00edficos de estudios gen\u00e9ticos, calcular o interpretar valores estad\u00edsticos como p ajustados, identificar ubicaciones gen\u00f3micas correctas o integrar informaci\u00f3n sobre blancos terap\u00e9uticos y fases de ensayos cl\u00ednicos. Estas limitaciones sugieren que, pese a sus avances, los LLM actuales a\u00fan no est\u00e1n plenamente preparados para asumir tareas complejas de razonamiento cient\u00edfico sin apoyo adicional.<\/p><p>Los autores se\u00f1alan que futuras mejoras podr\u00edan incluir la integraci\u00f3n directa de bases de datos estructuradas mediante t\u00e9cnicas de generaci\u00f3n aumentada por recuperaci\u00f3n o interfaces que permitan consultar tablas y realizar c\u00e1lculos de forma program\u00e1tica. Tambi\u00e9n subrayan la importancia de perfeccionar los mecanismos de calibraci\u00f3n de incertidumbre, de modo que los modelos reconozcan con mayor precisi\u00f3n cu\u00e1ndo no cuentan con suficiente informaci\u00f3n.<\/p><p>Aunque CARDBiomedBench fue concebido como un recurso escalable y en evoluci\u00f3n, esta primera versi\u00f3n se enfoca en enfermedades neurodegenerativas, la intenci\u00f3n es ampliar el marco hacia otras \u00e1reas biom\u00e9dicas y, eventualmente, incorporar versiones multiling\u00fces que reflejen el car\u00e1cter global de la investigaci\u00f3n cient\u00edfica.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-45455200 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-column-slider-no wpr-equal-height-no\" data-id=\"45455200\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-40277246\" data-id=\"40277246\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-10ebc5f3 elementor-widget elementor-widget-toggle\" data-id=\"10ebc5f3\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"toggle.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t<div class=\"elementor-toggle\">\n\t\t\t\t\t\t\t<div class=\"elementor-toggle-item\">\n\t\t\t\t\t<div id=\"elementor-tab-title-2831\" class=\"elementor-tab-title\" data-tab=\"1\" role=\"button\" aria-controls=\"elementor-tab-content-2831\" aria-expanded=\"false\">\n\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon elementor-toggle-icon-left\" aria-hidden=\"true\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-closed\"><i class=\"fas fa-caret-right\"><\/i><\/span>\n\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-opened\"><i class=\"elementor-toggle-icon-opened fas fa-caret-up\"><\/i><\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t\t<\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t<a class=\"elementor-toggle-title\" tabindex=\"0\"> BIBLIOGRAPHY<\/a>\n\t\t\t\t\t<\/div>\n\n\t\t\t\t\t<div id=\"elementor-tab-content-2831\" class=\"elementor-tab-content elementor-clearfix\" data-tab=\"1\" role=\"region\" aria-labelledby=\"elementor-tab-title-2831\"><p><strong>THE LANCET<\/strong><\/p><p><a href=\"https:\/\/www.thelancet.com\/journals\/landig\/article\/PIIS2589-7500(25)00125-6\/fulltext\">https:\/\/www.thelancet.com\/journals\/landig\/article\/PIIS2589-7500(25)00125-6\/fulltext<\/a><\/p><\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<\/div>","protected":false},"excerpt":{"rendered":"<p>CARDBiomedBench pone a prueba a los modelos de lenguaje en investigaci\u00f3n biom\u00e9dica, el an\u00e1lisis revel\u00f3 fallas consistentes en LLMs.<\/p>","protected":false},"author":1,"featured_media":67807,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[156,160],"tags":[145],"class_list":["post-67803","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-big-data","category-noticias","tag-noticias"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts\/67803","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/comments?post=67803"}],"version-history":[{"count":5,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts\/67803\/revisions"}],"predecessor-version":[{"id":67812,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts\/67803\/revisions\/67812"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/media\/67807"}],"wp:attachment":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/media?parent=67803"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/categories?post=67803"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/tags?post=67803"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}