{"id":69207,"date":"2026-05-06T09:43:40","date_gmt":"2026-05-06T15:43:40","guid":{"rendered":"https:\/\/saluddigital.com\/?p=69207"},"modified":"2026-05-06T10:02:00","modified_gmt":"2026-05-06T16:02:00","slug":"un-modelo-de-lenguaje-supera-a-medicos-en-tareas-de-razonamiento-clinico-segun-estudio-publicado-en-science","status":"publish","type":"post","link":"https:\/\/saluddigital.com\/en\/big-data\/un-modelo-de-lenguaje-supera-a-medicos-en-tareas-de-razonamiento-clinico-segun-estudio-publicado-en-science\/","title":{"rendered":"Un modelo de lenguaje supera a m\u00e9dicos en tareas de razonamiento cl\u00ednico, seg\u00fan estudio publicado en Science"},"content":{"rendered":"<div data-elementor-type=\"wp-post\" data-elementor-id=\"69207\" class=\"elementor elementor-69207\" data-elementor-post-type=\"post\">\n\t\t\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-6bbfa302 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-column-slider-no wpr-equal-height-no\" data-id=\"6bbfa302\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-1b23bfe3\" data-id=\"1b23bfe3\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-1893b491 elementor-widget elementor-widget-heading\" data-id=\"1893b491\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"heading.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t<h2 class=\"elementor-heading-title elementor-size-default\">Investigadores de Harvard, Stanford y el Beth Israel Deaconess evaluaron el modelo o1 de OpenAI en seis experimentos con cientos de m\u00e9dicos como l\u00ednea de base, incluyendo casos reales de urgencias.<\/h2>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-12c2aec7 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-column-slider-no wpr-equal-height-no\" data-id=\"12c2aec7\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-709b2e8b\" data-id=\"709b2e8b\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-5a514083 elementor-widget elementor-widget-text-editor\" data-id=\"5a514083\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>Un estudio publicado el 30 de abril en la revista <a href=\"https:\/\/www.science.org\/doi\/epdf\/10.1126\/science.adz4433\"><em>Science<\/em><\/a> concluye que un gran modelo de lenguaje (LLM, en ingl\u00e9s) super\u00f3 el desempe\u00f1o de m\u00e9dicos en m\u00faltiples tareas de razonamiento cl\u00ednico, desde el diagn\u00f3stico diferencial hasta la planificaci\u00f3n de pruebas y el manejo de pacientes. El trabajo, liderado por investigadores del Beth Israel Deaconess Medical Center, la Harvard Medical School (HMS) y Stanford, evalu\u00f3 el modelo de inteligencia artificial (IA) o1-preview de OpenAI frente a cientos de m\u00e9dicos en ejercicio.<\/p><p>Los investigadores utilizaron como punto de partida las conferencias clinicopatol\u00f3gicas del <em>New England Journal of Medicine<\/em> (NEJM), que desde la d\u00e9cada de 1950 constituyen el est\u00e1ndar de referencia para evaluar sistemas computacionales de diagn\u00f3stico m\u00e9dico. En 143 casos analizados, o1-preview incluy\u00f3 el diagn\u00f3stico correcto en su diagn\u00f3stico diferencial en 78.3% de los casos, y lo situ\u00f3 como primera opci\u00f3n en 52%. Al ampliar el criterio para considerar diagn\u00f3sticos muy cercanos o de utilidad cl\u00ednica, la precisi\u00f3n alcanz\u00f3 97.9%. En una comparaci\u00f3n directa con GPT-4 sobre 70 casos previamente estudiados, o1-preview ofreci\u00f3 el diagn\u00f3stico exacto o muy cercano en 88.6% de los casos, frente a 72.9% de GPT-4.<\/p><p>\u201cProbamos el modelo de IA con pr\u00e1cticamente todos los criterios de referencia, y super\u00f3 tanto a los modelos anteriores como a los resultados de referencia de nuestros m\u00e9dicos\u201d expres\u00f3 el coautor principal Arjun Manrai, profesor adjunto de inform\u00e1tica biom\u00e9dica en el Instituto Blavatnik de Harvard y editor adjunto fundador de NEJM AI.<\/p><p>En la evaluaci\u00f3n de planificaci\u00f3n diagn\u00f3stica, el modelo seleccion\u00f3 la prueba correcta a ordenar en 87.5% de los casos, con un 11% adicional calificado como de utilidad cl\u00ednica por los m\u00e9dicos evaluadores. En casos de razonamiento cl\u00ednico del curr\u00edculo NEJM Healer, o1-preview obtuvo una puntuaci\u00f3n perfecta en la escala R-IDEA en 78 de 80 casos, superando significativamente a GPT-4, m\u00e9dicos adjuntos y residentes. En los llamados Grey Matters Management Cases, cinco vi\u00f1etas cl\u00ednicas reales evaluadas por consenso de 25 expertos, o1-preview obtuvo una mediana de 89%, en comparaci\u00f3n con 42% de GPT-4 y 34% de m\u00e9dicos con recursos convencionales.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-3f3781b5 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-column-slider-no wpr-equal-height-no\" data-id=\"3f3781b5\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-top-column elementor-element elementor-element-7899f3bf\" data-id=\"7899f3bf\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-2ea71231 elementor-widget elementor-widget-text-editor\" data-id=\"2ea71231\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>El componente del estudio con mayor proyecci\u00f3n pr\u00e1ctica fue la evaluaci\u00f3n en un servicio de urgencias real. Los investigadores compararon las capacidades diagn\u00f3sticas de o1, GPT-4o y dos m\u00e9dicos adjuntos en 76 casos del Beth Israel Deaconess Medical Center, analizados en tres momentos del proceso de atenci\u00f3n: el triaje inicial, la evaluaci\u00f3n por el m\u00e9dico de urgencias y el ingreso hospitalario o a la unidad de cuidados intensivos. Los diagn\u00f3sticos diferenciales fueron calificados por dos m\u00e9dicos independientes que desconoc\u00edan si las respuestas proven\u00edan de un humano o de un modelo de inteligencia artificial. Uno de los evaluadores no pudo distinguir la fuente en 83.6% de los casos, y el otro en 94.4%.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-top-column elementor-element elementor-element-58b9bdac\" data-id=\"58b9bdac\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-6554ff5a elementor-widget elementor-widget-image\" data-id=\"6554ff5a\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"image.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<img fetchpriority=\"high\" decoding=\"async\" width=\"1200\" height=\"630\" src=\"https:\/\/saluddigital.com\/wp-content\/uploads\/2026\/05\/05-26-07.jpg\" class=\"attachment-full size-full wp-image-69209\" alt=\"\" \/>\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-44df51d8 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-column-slider-no wpr-equal-height-no\" data-id=\"44df51d8\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-33c932f8\" data-id=\"33c932f8\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-178a587 elementor-widget elementor-widget-text-editor\" data-id=\"178a587\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>\u201cLos modelos son cada vez m\u00e1s eficaces. Antes evalu\u00e1bamos los modelos con pruebas de opci\u00f3n m\u00faltiple; ahora obtienen sistem\u00e1ticamente puntuaciones cercanas al 100 %, y ya no podemos medir su progreso porque hemos alcanzado el l\u00edmite m\u00e1ximo\u201d, detall\u00f3 el coautor principal Peter Brodeur, becario cl\u00ednico de medicina de la HMS.<\/p><p>En ese experimento, o1 identific\u00f3 el diagn\u00f3stico exacto o muy cercano en 67.1% de los casos durante el triaje inicial, 72.4% durante la evaluaci\u00f3n m\u00e9dica y 81.6% al momento del ingreso hospitalario, superando en los tres momentos a ambos m\u00e9dicos participantes. La brecha fue m\u00e1s pronunciada en el triaje inicial, la etapa con menor informaci\u00f3n disponible y mayor urgencia de decisi\u00f3n.<\/p><p>\u201cPara comprender mejor el rendimiento en la pr\u00e1ctica cl\u00ednica, necesit\u00e1bamos evaluar el rendimiento en las primeras fases de la evoluci\u00f3n del paciente, cuando los datos cl\u00ednicos son escasos\u201d, detall\u00f3 el coautor principal Thomas Buckley, doctorando de HMS.<\/p><p>Los autores reconocen varias limitaciones, pues el estudio se concentr\u00f3 en medicina interna y urgencias, por lo que los resultados no son necesariamente extrapolables a otras especialidades. Los experimentos evaluaron \u00fanicamente desempe\u00f1o basado en texto, sin considerar informaci\u00f3n auditiva o visual que los m\u00e9dicos utilizan de forma rutinaria en la pr\u00e1ctica cl\u00ednica.<\/p><p>Adicionalmente, los casos de urgencias representan una prueba de concepto sobre la emisi\u00f3n de una segunda opini\u00f3n en momentos predefinidos, lo que no refleja la complejidad integral de las decisiones en ese entorno, que incluyen triaje, disposici\u00f3n y manejo inmediato m\u00e1s all\u00e1 del diagn\u00f3stico. Adem\u00e1s, los investigadores tambi\u00e9n se\u00f1alan que los puntos de referencia empleados dependen en parte de la curaci\u00f3n cuidadosa de casos por parte de cl\u00ednicos, lo que podr\u00eda sobreestimar el rendimiento de los modelos frente a datos menos estructurados en flujos de trabajo reales.<\/p><p>\u201cUn modelo puede acertar en el diagn\u00f3stico principal, pero tambi\u00e9n sugerir pruebas innecesarias que podr\u00edan poner en peligro al paciente\u201d, afirm\u00f3 Brodeur. \u201cLos seres humanos deben ser el punto de referencia definitivo a la hora de evaluar el rendimiento y la seguridad\u201d.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-6938b51d elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-column-slider-no wpr-equal-height-no\" data-id=\"6938b51d\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-33bc6b69\" data-id=\"33bc6b69\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-782a9d7e elementor-widget elementor-widget-toggle\" data-id=\"782a9d7e\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"toggle.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t<div class=\"elementor-toggle\">\n\t\t\t\t\t\t\t<div class=\"elementor-toggle-item\">\n\t\t\t\t\t<div id=\"elementor-tab-title-2011\" class=\"elementor-tab-title\" data-tab=\"1\" role=\"button\" aria-controls=\"elementor-tab-content-2011\" aria-expanded=\"false\">\n\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon elementor-toggle-icon-left\" aria-hidden=\"true\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-closed\"><i class=\"fas fa-caret-right\"><\/i><\/span>\n\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-opened\"><i class=\"elementor-toggle-icon-opened fas fa-caret-up\"><\/i><\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t\t<\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t<a class=\"elementor-toggle-title\" tabindex=\"0\"> BIBLIOGRAPHY<\/a>\n\t\t\t\t\t<\/div>\n\n\t\t\t\t\t<div id=\"elementor-tab-content-2011\" class=\"elementor-tab-content elementor-clearfix\" data-tab=\"1\" role=\"region\" aria-labelledby=\"elementor-tab-title-2011\"><p><strong>HARVARD<\/strong><\/p><p><a href=\"https:\/\/hms.harvard.edu\/news\/study-suggests-ai-good-enough-diagnosing-complex-medical-cases-warrant-clinical-testing\">https:\/\/hms.harvard.edu\/news\/study-suggests-ai-good-enough-diagnosing-complex-medical-cases-warrant-clinical-testing<\/a><\/p><p><strong>SCIENCE <\/strong><\/p><p><a href=\"https:\/\/www.science.org\/doi\/10.1126\/science.adz4433\">https:\/\/www.science.org\/doi\/10.1126\/science.adz4433<\/a><\/p><\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<\/div>","protected":false},"excerpt":{"rendered":"<p>Un modelo de lenguaje supera a m\u00e9dicos en tareas de razonamiento cl\u00ednico, seg\u00fan estudio publicado en Science por investigadores de Harvard.<\/p>","protected":false},"author":1,"featured_media":69209,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[156,160],"tags":[145],"class_list":["post-69207","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-big-data","category-noticias","tag-noticias"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts\/69207","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/comments?post=69207"}],"version-history":[{"count":5,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts\/69207\/revisions"}],"predecessor-version":[{"id":69214,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts\/69207\/revisions\/69214"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/media\/69209"}],"wp:attachment":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/media?parent=69207"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/categories?post=69207"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/tags?post=69207"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}