{"id":68775,"date":"2026-04-15T09:49:08","date_gmt":"2026-04-15T15:49:08","guid":{"rendered":"https:\/\/saluddigital.com\/?p=68775"},"modified":"2026-04-15T09:54:57","modified_gmt":"2026-04-15T15:54:57","slug":"los-modelos-de-ia-aun-no-estan-listos-para-el-diagnostico-medico-autonomo-segun-estudio","status":"publish","type":"post","link":"https:\/\/saluddigital.com\/en\/big-data\/los-modelos-de-ia-aun-no-estan-listos-para-el-diagnostico-medico-autonomo-segun-estudio\/","title":{"rendered":"Los modelos de IA a\u00fan no est\u00e1n listos para el diagn\u00f3stico m\u00e9dico aut\u00f3nomo, seg\u00fan estudio"},"content":{"rendered":"<div data-elementor-type=\"wp-post\" data-elementor-id=\"68775\" class=\"elementor elementor-68775\" data-elementor-post-type=\"post\">\n\t\t\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-1bf4606e elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-equal-height-no\" data-id=\"1bf4606e\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-6a4487e6\" data-id=\"6a4487e6\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-402ade29 elementor-widget elementor-widget-heading\" data-id=\"402ade29\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"heading.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t<h2 class=\"elementor-heading-title elementor-size-default\">Una investigaci\u00f3n evalu\u00f3 21 sistemas de IA de \u00faltima generaci\u00f3n y encontr\u00f3 que, pese a sus avances, ninguno logra replicar el razonamiento cl\u00ednico completo que exige la atenci\u00f3n m\u00e9dica real.<\/h2>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-62f204b8 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-equal-height-no\" data-id=\"62f204b8\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-4445bb81\" data-id=\"4445bb81\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-224a8595 elementor-widget elementor-widget-text-editor\" data-id=\"224a8595\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>Los grandes modelos de lenguaje (LLM, en ingl\u00e9s), las mismas herramientas de inteligencia artificial (IA) que han revolucionado la b\u00fasqueda de informaci\u00f3n, la redacci\u00f3n y la programaci\u00f3n, llevan a\u00f1os siendo promovidos por sus desarrolladores como apoyo para el diagn\u00f3stico m\u00e9dico. Sin embargo, un estudio publicado en <a href=\"https:\/\/jamanetwork.com\/journals\/jamanetworkopen\/fullarticle\/2847679?guestAccessKey=ef7d2c87-beca-4c8b-b6a2-85d11bcf8185&amp;utm_source=for_the_media&amp;utm_medium=referral&amp;utm_campaign=ftm_links&amp;utm_content=tfl&amp;utm_term=041326\"><em>JAMA Network Open<\/em><\/a> por investigadores de la Escuela de Medicina de Harvard y del Incubador MESH de Mass General Brigham concluye que, <strong>aunque estos sistemas han mejorado notablemente, todav\u00eda no alcanzan el nivel de razonamiento cl\u00ednico necesario para operar sin supervisi\u00f3n profesional<\/strong>. La investigaci\u00f3n es, seg\u00fan sus autores, la evaluaci\u00f3n m\u00e1s exhaustiva del razonamiento cl\u00ednico longitudinal en modelos de IA realizada hasta la fecha.<\/p><p>El estudio evalu\u00f3 21 modelos de lenguaje de \u00faltima generaci\u00f3n, entre ellos <strong>GPT-5, Claude 4.5 Opus, Gemini 3.0 Flash, Gemini 3.0 Pro y Grok 4, someti\u00e9ndolos a 29 casos cl\u00ednicos estructurados extra\u00eddos del Manual MSD<\/strong>, una referencia m\u00e9dica de uso profesional. En total, los modelos generaron 16,254 respuestas, que fueron evaluadas por estudiantes de medicina en cinco etapas sucesivas del proceso diagn\u00f3stico: elaboraci\u00f3n del diagn\u00f3stico diferencial, solicitud de pruebas diagn\u00f3sticas, diagn\u00f3stico final, manejo cl\u00ednico y razonamiento cl\u00ednico general. Este enfoque secuencial busc\u00f3 reproducir la forma en que un m\u00e9dico enfrenta un caso real, en lugar de limitarse a responder preguntas de opci\u00f3n m\u00faltiple de un examen, que es la metodolog\u00eda m\u00e1s com\u00fan en estudios previos de este tipo.<\/p><p>Para medir el desempe\u00f1o de manera m\u00e1s precisa, <strong>los investigadores desarrollaron el \u00edndice PrIME-LLM, una m\u00e9trica multidimensional que eval\u00faa el rendimiento equilibrado de un modelo a lo largo de todas las etapas del proceso cl\u00ednico<\/strong>. A diferencia de m\u00e9tricas tradicionales que miden \u00fanicamente el porcentaje de respuestas correctas, el PrIME-LLM penaliza a los modelos que son fuertes en algunas \u00e1reas pero d\u00e9biles en otras, una distinci\u00f3n que result\u00f3 determinante. Mientras que la precisi\u00f3n global de los modelos se concentr\u00f3 en un rango estrecho, entre el 81% y el 90%, las puntuaciones del \u00edndice PrIME-LLM revelaron diferencias mucho m\u00e1s amplias entre modelos, con Grok 4 obteniendo la puntuaci\u00f3n m\u00e1s alta y Gemini 1.5 Flash la m\u00e1s baja.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-1e337808 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-equal-height-no\" data-id=\"1e337808\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-top-column elementor-element elementor-element-2a85160b\" data-id=\"2a85160b\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-7633d1b3 elementor-widget elementor-widget-text-editor\" data-id=\"7633d1b3\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p><strong>El hallazgo m\u00e1s preocupante del estudio es la brecha entre lo que los modelos hacen bien y lo que m\u00e1s importa al inicio de una consulta m\u00e9dica<\/strong>. Todos los sistemas evaluados mostraron tasas de error superiores al 80% en la elaboraci\u00f3n del diagn\u00f3stico diferencial, es decir, en la capacidad de generar una lista de posibles enfermedades que podr\u00edan explicar los s\u00edntomas de un paciente cuando la informaci\u00f3n disponible es a\u00fan limitada. En cambio, cuando se les present\u00f3 toda la informaci\u00f3n del caso y se les pidi\u00f3 establecer un diagn\u00f3stico final, los mismos modelos respondieron correctamente en m\u00e1s del 60% de los casos. Esta asimetr\u00eda muestra que los sistemas de IA tienden a reducir prematuramente la incertidumbre y a converger en una \u00fanica respuesta, mientras que los m\u00e9dicos entrenados preservan esa incertidumbre y la refinan progresivamente a medida que obtienen m\u00e1s datos.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-top-column elementor-element elementor-element-2acae3ca\" data-id=\"2acae3ca\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-34caa3f8 elementor-widget elementor-widget-image\" data-id=\"34caa3f8\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"image.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<img fetchpriority=\"high\" decoding=\"async\" width=\"1200\" height=\"630\" src=\"https:\/\/saluddigital.com\/wp-content\/uploads\/2026\/04\/04-26-16.jpg\" class=\"attachment-full size-full wp-image-68777\" alt=\"\" \/>\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-55680258 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-equal-height-no\" data-id=\"55680258\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-7d53b654\" data-id=\"7d53b654\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-275706e4 elementor-widget elementor-widget-text-editor\" data-id=\"275706e4\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>\u201cAl evaluar los modelos de forma escalonada, dejamos de tratarlos como si estuvieran presentando un examen y los colocamos en la posici\u00f3n de un m\u00e9dico\u201d, se\u00f1al\u00f3 Arya Rao, autora principal del estudio, investigadora del Incubador MESH y estudiante de doctorado en Harvard. \u201cEstos modelos son muy buenos para nombrar un diagn\u00f3stico final cuando los datos est\u00e1n completos, pero tienen dificultades al inicio abierto de un caso, cuando hay poca informaci\u00f3n disponible\u201d.<\/p><p>Los modelos con arquitecturas optimizadas para el razonamiento, es decir, dise\u00f1ados espec\u00edficamente para procesar informaci\u00f3n en m\u00faltiples pasos antes de emitir una respuesta, obtuvieron puntuaciones significativamente m\u00e1s altas que los modelos convencionales. Sin embargo, esa ventaja no fue suficiente para cerrar la brecha en el diagn\u00f3stico diferencial. En cuanto a la interpretaci\u00f3n de im\u00e1genes m\u00e9dicas como radiograf\u00edas, tomograf\u00edas y electrocardiogramas, varios modelos mostraron mejoras cuando se les proporcionaron im\u00e1genes junto con el texto del caso, aunque los resultados fueron inconsistentes entre modelos.<\/p><p>\u201cA pesar de las mejoras continuas, los LLM de uso general no est\u00e1n listos para el despliegue cl\u00ednico aut\u00f3nomo sin supervisi\u00f3n\u201d, advirti\u00f3 Marc Succi, director ejecutivo del Incubador MESH de Mass General Brigham y autor correspondiente del estudio. \u201cEl diagn\u00f3stico diferencial es central en el razonamiento cl\u00ednico y constituye el &#8216;arte de la medicina&#8217; que la IA actualmente no puede replicar. La promesa de la inteligencia artificial en la medicina cl\u00ednica sigue residiendo en su potencial para apoyar, no reemplazar, el razonamiento del m\u00e9dico, siempre que todos los datos relevantes est\u00e9n disponibles, algo que no siempre ocurre\u201d<\/p><p>El estudio no evalu\u00f3 los modelos con herramientas adicionales como acceso a gu\u00edas cl\u00ednicas en tiempo real o bases de datos especializadas, lo que significa que los resultados reflejan el desempe\u00f1o base de estos sistemas y no su m\u00e1ximo potencial con apoyos externos. Los autores reconocen adem\u00e1s que, al tratarse de casos publicados, no puede descartarse que algunos modelos hayan tenido exposici\u00f3n previa a ese material durante su entrenamiento.<\/p><p>\u201cQueremos ayudar a separar la promesa de la realidad de estas herramientas en su aplicaci\u00f3n a la salud\u201d, concluy\u00f3 Succi. <strong>\u201cNuestros resultados refuerzan que los grandes modelos de lenguaje en el \u00e1mbito de la salud contin\u00faan requiriendo un &#8216;humano en el circuito&#8217; y una supervisi\u00f3n muy estrecha\u201d.<\/strong><\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-53facd5c elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-equal-height-no\" data-id=\"53facd5c\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-74e8c6b4\" data-id=\"74e8c6b4\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-26890a92 elementor-widget elementor-widget-toggle\" data-id=\"26890a92\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"toggle.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t<div class=\"elementor-toggle\">\n\t\t\t\t\t\t\t<div class=\"elementor-toggle-item\">\n\t\t\t\t\t<div id=\"elementor-tab-title-6461\" class=\"elementor-tab-title\" data-tab=\"1\" role=\"button\" aria-controls=\"elementor-tab-content-6461\" aria-expanded=\"false\">\n\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon elementor-toggle-icon-left\" aria-hidden=\"true\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-closed\"><i class=\"fas fa-caret-right\"><\/i><\/span>\n\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-opened\"><i class=\"elementor-toggle-icon-opened fas fa-caret-up\"><\/i><\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t\t<\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t<a class=\"elementor-toggle-title\" tabindex=\"0\"> BIBLIOGRAPHY<\/a>\n\t\t\t\t\t<\/div>\n\n\t\t\t\t\t<div id=\"elementor-tab-content-6461\" class=\"elementor-tab-content elementor-clearfix\" data-tab=\"1\" role=\"region\" aria-labelledby=\"elementor-tab-title-6461\"><p><strong>MASS GENERAL BRIGHAM<\/strong><\/p><p><a href=\"https:\/\/www.massgeneralbrigham.org\/en\/about\/newsroom\/press-releases\/ai-chatbot-lacks-clinical-reasoning\">https:\/\/www.massgeneralbrigham.org\/en\/about\/newsroom\/press-releases\/ai-chatbot-lacks-clinical-reasoning<\/a><\/p><p><strong>JAMA NETWORK<\/strong><\/p><p><a href=\"https:\/\/jamanetwork.com\/journals\/jamanetworkopen\/fullarticle\/2847679\">https:\/\/jamanetwork.com\/journals\/jamanetworkopen\/fullarticle\/2847679<\/a><\/p><\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<\/div>","protected":false},"excerpt":{"rendered":"<p>Los modelos de IA a\u00fan no est\u00e1n listos para el diagn\u00f3stico m\u00e9dico aut\u00f3nomo, seg\u00fan estudio de Harvard y Mass General Brigham.<\/p>","protected":false},"author":1,"featured_media":68777,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[156,160],"tags":[145],"class_list":["post-68775","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-big-data","category-noticias","tag-noticias"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts\/68775","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/comments?post=68775"}],"version-history":[{"count":5,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts\/68775\/revisions"}],"predecessor-version":[{"id":68781,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts\/68775\/revisions\/68781"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/media\/68777"}],"wp:attachment":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/media?parent=68775"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/categories?post=68775"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/tags?post=68775"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}