{"id":68650,"date":"2026-04-09T11:00:35","date_gmt":"2026-04-09T17:00:35","guid":{"rendered":"https:\/\/saluddigital.com\/?p=68650"},"modified":"2026-04-09T11:26:23","modified_gmt":"2026-04-09T17:26:23","slug":"modelos-de-lenguaje-de-ultima-generacion-logran-superar-a-los-sistemas-especializados-en-la-prediccion-clinica-a-partir-de-notas-medicas","status":"publish","type":"post","link":"https:\/\/saluddigital.com\/en\/big-data\/modelos-de-lenguaje-de-ultima-generacion-logran-superar-a-los-sistemas-especializados-en-la-prediccion-clinica-a-partir-de-notas-medicas\/","title":{"rendered":"Modelos de lenguaje de \u00faltima generaci\u00f3n logran superar a los sistemas especializados en la predicci\u00f3n cl\u00ednica a partir de notas m\u00e9dicas"},"content":{"rendered":"<div data-elementor-type=\"wp-post\" data-elementor-id=\"68650\" class=\"elementor elementor-68650\" data-elementor-post-type=\"post\">\n\t\t\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-100445da elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-equal-height-no\" data-id=\"100445da\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-3806d5d2\" data-id=\"3806d5d2\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-27a52b06 elementor-widget elementor-widget-heading\" data-id=\"27a52b06\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"heading.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t<h2 class=\"elementor-heading-title elementor-size-default\">Un benchmark desarrollado por investigadores de Pek\u00edn, Edimburgo y Hong Kong cuestiona la presunci\u00f3n de que la IA general es inferior a los modelos entrenados espec\u00edficamente para tareas hospitalarias.<\/h2>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-b7061ab elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-equal-height-no\" data-id=\"b7061ab\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-cf18fc6\" data-id=\"cf18fc6\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-691b88ea elementor-widget elementor-widget-text-editor\" data-id=\"691b88ea\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>Durante a\u00f1os, la pr\u00e1ctica com\u00fan en inform\u00e1tica cl\u00ednica fue asumir que los grandes modelos de lenguaje (LLM, en ingl\u00e9s) de prop\u00f3sito general rend\u00edan peor que los sistemas entrenados espec\u00edficamente con datos hospitalarios para tareas como predecir la mortalidad o la probabilidad de reingreso de un paciente. Un estudio publicado en <a href=\"https:\/\/www.nature.com\/articles\/s41746-026-02539-z\"><em>npj Digital Medicine journal<\/em><\/a> por investigadores de la Universidad de Beihang, la Universidad de Pek\u00edn, la Universidad de Edimburgo y la Universidad de Hong Kong propone evidencia sistem\u00e1tica de que esa presunci\u00f3n ya no se sostiene, al menos en lo que respecta al an\u00e1lisis de notas cl\u00ednicas no estructuradas.<\/p><p>El trabajo introduce ClinicRealm, un benchmark que <strong>evalu\u00f3 15 LLMs de tipo GPT, 5 modelos de tipo BERT y 11 m\u00e9todos convencionales de aprendizaje autom\u00e1tico o <em>machine learning<\/em> y aprendizaje profundo<\/strong> <strong>or<em> deep learning<\/em><\/strong>, sobre dos grandes categor\u00edas de datos cl\u00ednicos: notas cl\u00ednicas en texto libre y registros electr\u00f3nicos de salud estructurados. Las tareas evaluadas incluyeron predicci\u00f3n de mortalidad intrahospitalaria, predicci\u00f3n de reingreso a 30 d\u00edas y estimaci\u00f3n de la duraci\u00f3n de la estancia. Para cada tarea, los investigadores probaron distintos escenarios de entrenamiento, desde el uso de los modelos directamente sin ejemplos previos hasta su ajuste fino con los datos disponibles.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-3787745e elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-equal-height-no\" data-id=\"3787745e\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-top-column elementor-element elementor-element-2b64db57\" data-id=\"2b64db57\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-40ee7914 elementor-widget elementor-widget-text-editor\" data-id=\"40ee7914\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>El hallazgo m\u00e1s llamativo tiene que ver con el an\u00e1lisis de notas cl\u00ednicas en texto libre. En esa categor\u00eda, los modelos de lenguaje de \u00faltima generaci\u00f3n aplicados sin entrenamiento espec\u00edfico, entre ellos <strong>DeepSeek-R1, GPT-5 y DeepSeek-V3.1-Think, superaron consistentemente a los modelos BERT especializados<\/strong> que hab\u00edan sido ajustados con datos cl\u00ednicos reales. DeepSeek-R1 alcanz\u00f3 un \u00e1rea bajo la curva ROC del 90.75% en la predicci\u00f3n prospectiva de mortalidad a partir de notas de admisi\u00f3n, frente al 87.97% del mejor modelo BERT ajustado, GatorTron, que adem\u00e1s hab\u00eda sido preentrenado con las mismas notas cl\u00ednicas de referencia, lo que en teor\u00eda le otorgaba una ventaja de dominio que los modelos generales no ten\u00edan.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-top-column elementor-element elementor-element-20bdce99\" data-id=\"20bdce99\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-3ba9c877 elementor-widget elementor-widget-image\" data-id=\"3ba9c877\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"image.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<img fetchpriority=\"high\" decoding=\"async\" width=\"1200\" height=\"630\" src=\"https:\/\/saluddigital.com\/wp-content\/uploads\/2026\/04\/04-26-10.jpg\" class=\"attachment-full size-full wp-image-68652\" alt=\"\" \/>\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-302e25e6 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-equal-height-no\" data-id=\"302e25e6\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-7c489776\" data-id=\"7c489776\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-2a6e67ac elementor-widget elementor-widget-text-editor\" data-id=\"2a6e67ac\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>La situaci\u00f3n es m\u00e1s matizada cuando se trata de registros estructurados. En ese contexto, los modelos especializados entrenados con datos suficientes, en particular AdaCare y AICare, mantuvieron su ventaja sobre los modelos de lenguaje general. Sin embargo, cuando los datos de entrenamiento son escasos, como ocurre en enfermedades emergentes o condiciones poco frecuentes, los modelos generales de gran escala demostraron una capacidad predictiva notable. GPT-4o con aprendizaje en contexto alcanz\u00f3 un \u00e1rea bajo la curva ROC del 85.99% en predicci\u00f3n de mortalidad con solo 10 ejemplos de entrenamiento, superando a todos los modelos convencionales entrenados tambi\u00e9n con esos 10 casos.<\/p><p>El estudio tambi\u00e9n evalu\u00f3 la integraci\u00f3n de ambos tipos de datos en escenarios multimodales y encontr\u00f3 que combinar notas cl\u00ednicas y registros estructurados en un mismo contexto no mejora autom\u00e1ticamente los resultados. En varios casos, la combinaci\u00f3n de modalidades produjo un rendimiento intermedio entre el obtenido con cada fuente por separado, sin alcanzar el nivel de las notas cl\u00ednicas solas, que resultaron ser la fuente de informaci\u00f3n individualmente m\u00e1s potente para las tareas evaluadas.<\/p><p>M\u00e1s all\u00e1 de las m\u00e9tricas de rendimiento, el benchmark incluy\u00f3 una evaluaci\u00f3n cualitativa por parte de cinco cl\u00ednicos expertos en medicina interna y cuidados cr\u00edticos, quienes calificaron el razonamiento producido por los mejores modelos. Los resultados fueron favorables en t\u00e9rminos de precisi\u00f3n, completitud y utilidad cl\u00ednica cuando los modelos trabajaban con notas de texto, aunque se identificaron patrones de error recurrentes: los falsos positivos tend\u00edan a asociarse con alucinaciones o inconsistencias factuales, mientras que los falsos negativos se relacionaban con fallas en el razonamiento cl\u00ednico de orden superior, es decir, situaciones en que el modelo identificaba correctamente los factores de riesgo pero no les asignaba el peso colectivo adecuado.<\/p><p>Entre las implicaciones pr\u00e1cticas, el estudio se\u00f1ala que los modelos de c\u00f3digo abierto como DeepSeek alcanzaron un rendimiento comparable e incluso superior al de modelos propietarios en varias tareas, lo que ampl\u00eda las posibilidades de adopci\u00f3n en entornos con restricciones presupuestarias o requisitos estrictos de privacidad de datos. Los autores advierten, sin embargo, que ninguno de estos modelos debe considerarse listo para despliegue cl\u00ednico sin pruebas emp\u00edricas extensas, validaci\u00f3n en poblaciones diversas y an\u00e1lisis rigurosos de equidad y sesgos demogr\u00e1ficos.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-b406a65 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-equal-height-no\" data-id=\"b406a65\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-11e11a4e\" data-id=\"11e11a4e\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-1cbaf761 elementor-widget elementor-widget-toggle\" data-id=\"1cbaf761\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"toggle.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t<div class=\"elementor-toggle\">\n\t\t\t\t\t\t\t<div class=\"elementor-toggle-item\">\n\t\t\t\t\t<div id=\"elementor-tab-title-4821\" class=\"elementor-tab-title\" data-tab=\"1\" role=\"button\" aria-controls=\"elementor-tab-content-4821\" aria-expanded=\"false\">\n\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon elementor-toggle-icon-left\" aria-hidden=\"true\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-closed\"><i class=\"fas fa-caret-right\"><\/i><\/span>\n\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-opened\"><i class=\"elementor-toggle-icon-opened fas fa-caret-up\"><\/i><\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t\t<\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t<a class=\"elementor-toggle-title\" tabindex=\"0\"> BIBLIOGRAPHY<\/a>\n\t\t\t\t\t<\/div>\n\n\t\t\t\t\t<div id=\"elementor-tab-content-4821\" class=\"elementor-tab-content elementor-clearfix\" data-tab=\"1\" role=\"region\" aria-labelledby=\"elementor-tab-title-4821\"><p><strong>NATURE<\/strong><\/p><p><a href=\"https:\/\/www.nature.com\/articles\/s41746-026-02539-z\">https:\/\/www.nature.com\/articles\/s41746-026-02539-z<\/a><\/p><\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<\/div>","protected":false},"excerpt":{"rendered":"<p>Modelos de lenguaje de \u00faltima generaci\u00f3n logran superar a los sistemas especializados en la predicci\u00f3n cl\u00ednica a partir de notas m\u00e9dicas.<\/p>","protected":false},"author":1,"featured_media":68652,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[156,160],"tags":[145],"class_list":["post-68650","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-big-data","category-noticias","tag-noticias"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts\/68650","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/comments?post=68650"}],"version-history":[{"count":8,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts\/68650\/revisions"}],"predecessor-version":[{"id":68660,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts\/68650\/revisions\/68660"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/media\/68652"}],"wp:attachment":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/media?parent=68650"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/categories?post=68650"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/tags?post=68650"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}