{"id":43156,"date":"2023-12-12T11:16:03","date_gmt":"2023-12-12T17:16:03","guid":{"rendered":"https:\/\/saluddigital.com\/?p=43156"},"modified":"2025-10-19T00:08:19","modified_gmt":"2025-10-19T06:08:19","slug":"investigadores-evaluan-el-uso-de-gpt-4-para-diagnosticar-casos-clinicos-complejos","status":"publish","type":"post","link":"https:\/\/saluddigital.com\/en\/big-data\/investigadores-evaluan-el-uso-de-gpt-4-para-diagnosticar-casos-clinicos-complejos\/","title":{"rendered":"Investigadores eval\u00faan el uso de GPT-4 para diagnosticar casos cl\u00ednicos complejos"},"content":{"rendered":"<div data-elementor-type=\"wp-post\" data-elementor-id=\"43156\" class=\"elementor elementor-43156\" data-elementor-post-type=\"post\">\n\t\t\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-5c63b872 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no\" data-id=\"5c63b872\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-6de36182\" data-id=\"6de36182\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-53eca705 elementor-widget elementor-widget-heading\" data-id=\"53eca705\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"heading.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t<h2 class=\"elementor-heading-title elementor-size-default\">El LLM, GPT-4 logr\u00f3 diagnosticar de manera correcta el 57% de los casos cl\u00ednicos, superando al 99,98% de los lectores humanos simulados generados.<\/h2>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-792c42b7 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no\" data-id=\"792c42b7\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-59e7347f\" data-id=\"59e7347f\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-6075a8af elementor-widget elementor-widget-text-editor\" data-id=\"6075a8af\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p class=\"p1\">Investigadores de Dinamarca, evaluaron el rendimiento del modelo de inteligencia artificial (IA) de OpenAI, GPT-4 en el diagn\u00f3stico de casos m\u00e9dicos complejos y lo compararon con el porcentaje de aciertos con el de los lectores simulados de revistas m\u00e9dicas.<span class=\"Apple-converted-space\">\u00a0 <\/span>En este sentido, GPT-4 logr\u00f3 diagnosticar correctamente el 57% de los casos, superando al 99,98% de los lectores humanos simulados generados a partir de respuestas en l\u00ednea.<\/p><p class=\"p1\">Los autores exponen que la escasez de m\u00e9dicos y el aumento de la complejidad en el campo de la medicina, es un reto importante para la tarea que muchos m\u00e9dicos enfrentan cada d\u00eda: los diagn\u00f3sticos oportunos y precisos. Debido a los cambios demogr\u00e1ficos, con una poblaci\u00f3n que envejece, la carga de trabajo es uno de los retos de la salud p\u00fablica y que aumentar\u00e1 en el futuro gradualmente, es por ello que investigadores han resaltado la necesidad de aprovechar los nuevos desarrollos tecnol\u00f3gicos en la atenci\u00f3n cl\u00ednica. Por ejemplo, aunque la IA existe desde hace varias y ha demostrado grandes avances, en los \u00faltimos a\u00f1os ha crecido su adopci\u00f3n de manera mete\u00f3rica. Por ejemplo, ha mostrado resultados prometedores en campos concretos de la medicina, como las im\u00e1genes m\u00e9dicas.<\/p><p class=\"p1\">De esta manera, el continuo desarrollo de la IA, incluidos los grandes modelos de lenguaje (LLM, en ingl\u00e9s) han permitido la investigaci\u00f3n en nuevas \u00e1reas. Por ejemplo, el conocido como Generative Preentrenado Generativo o GPT, ha permitido la generaci\u00f3n de res\u00famenes de alta calidad y la generaci\u00f3n de informes de pacientes. Recientemente, un art\u00edculo cient\u00edfico demostr\u00f3 que GPT-4 era capaz de responder correctamente a las preguntas del <a href=\"https:\/\/saluddigital.com\/es\/noticias\/cientificos-prueban-el-potencial-de-chatgpt-para-la-educacion-medica\/\"><span class=\"s1\">examen de licencia m\u00e9dica en Estados Unidos<\/span><\/a>.<\/p><p class=\"p1\">Sin embargo, existe cautela entre la comunidad m\u00e9dica sobre c\u00f3mo funcionar\u00eda un LLM en casos cl\u00ednicos reales. Es decir, no est\u00e1 claro hasta qu\u00e9 punto la GPT-4 puede ayudar en casos cl\u00ednicos que contienen descripciones largas, complicadas y variadas de los pacientes, y cu\u00e1l es su funci\u00f3n<span class=\"Apple-converted-space\">\u00a0 <\/span>en estos casos complejos del mundo real en comparaci\u00f3n con los especialistas humanos.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-102dbf1f elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no\" data-id=\"102dbf1f\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-top-column elementor-element elementor-element-349ac8a3\" data-id=\"349ac8a3\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-4b6d428c elementor-widget elementor-widget-text-editor\" data-id=\"4b6d428c\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p class=\"p1\">Los autores del estudio evaluaron el rendimiento de GPT-4 en casos m\u00e9dicos reales comparando su rendimiento con el de los lectores de revistas m\u00e9dicas. El estudio utiliz\u00f3 desaf\u00edos de casos cl\u00ednicos complejos disponibles con informaci\u00f3n completa a texto completo publicados en l\u00ednea entre enero de 2017 y enero de 2023. Cada caso presenta un historial m\u00e9dico y una encuesta con seis opciones para el diagn\u00f3stico m\u00e1s probable. Adem\u00e1s, para resolver los desaf\u00edos de casos, le proporcionaron a GPT-4 una instrucci\u00f3n o <i>prompt<\/i> y un caso cl\u00ednico.<\/p><p>Lorem ipsum pain sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-top-column elementor-element elementor-element-366329d8\" data-id=\"366329d8\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-db241a8 elementor-widget elementor-widget-image\" data-id=\"db241a8\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"image.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<img fetchpriority=\"high\" decoding=\"async\" width=\"1200\" height=\"630\" src=\"https:\/\/saluddigital.com\/wp-content\/uploads\/2023\/12\/12-23-18.jpg\" class=\"attachment-full size-full wp-image-43158\" alt=\"\" srcset=\"https:\/\/saluddigital.com\/wp-content\/uploads\/2023\/12\/12-23-18.jpg 1200w, https:\/\/saluddigital.com\/wp-content\/uploads\/2023\/12\/12-23-18-660x347.jpg 660w, https:\/\/saluddigital.com\/wp-content\/uploads\/2023\/12\/12-23-18-840x441.jpg 840w, https:\/\/saluddigital.com\/wp-content\/uploads\/2023\/12\/12-23-18-768x403.jpg 768w, https:\/\/saluddigital.com\/wp-content\/uploads\/2023\/12\/12-23-18-18x9.jpg 18w\" sizes=\"(max-width: 1200px) 100vw, 1200px\" \/>\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-43f9c5aa elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no\" data-id=\"43f9c5aa\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-681635d8\" data-id=\"681635d8\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-14b40c36 elementor-widget elementor-widget-text-editor\" data-id=\"14b40c36\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p class=\"p2\">El n\u00famero de diagn\u00f3sticos correctos entre los 38 casos que se produjeron por azar fue de 6,3 (16,7%) de acuerdo con las seis opciones de la encuesta. La edici\u00f3n de marzo de 2023 de GPT-4 logr\u00f3 diagnosticar correctamente una media de 21,8 casos (57%) con una buena reproducibilidad mientras que los lectores de revistas m\u00e9dicas diagnosticaron correctamente una media de 13,7 casos (36%). En este sentido, de acuerdo con la simulaci\u00f3n los autores descubrieron que GPT-4 obtuvo mejores resultados que el 99,98% de la \u201cpseudopoblaci\u00f3n\u201d de lectores generada para el estudio.<\/p><p class=\"p2\">Sin embargo, esta es una de las limitaciones m\u00e1s importantes del estudio: el uso de una poblaci\u00f3n mal caracterizada de lectores humanos de revistas con niveles desconocidos de conocimientos m\u00e9dicos.<span class=\"Apple-converted-space\">\u00a0 <\/span>No obstante, explican los autores \u201cincluso en el caso extremo de una correlaci\u00f3n m\u00e1xima de respuestas correctas entre los lectores de revistas m\u00e9dicas, GPT4 obtendr\u00eda mejores resultados que el 72% de los lectores humanos\u201d.<\/p><p class=\"p2\">Finalmente, los investigadores destacaron el potencial de la IA como una gran herramienta de apoyo para diagn\u00f3sticos, sin embargo, antes de adoptar su aplicaci\u00f3n cl\u00ednica es necesario trabajar en nuevas mejoras, como validar y abordar consideraciones \u00e9ticas.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-5d6a10e6 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no\" data-id=\"5d6a10e6\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-2c89c3ec\" data-id=\"2c89c3ec\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-781299d3 elementor-widget elementor-widget-toggle\" data-id=\"781299d3\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"toggle.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t<div class=\"elementor-toggle\">\n\t\t\t\t\t\t\t<div class=\"elementor-toggle-item\">\n\t\t\t\t\t<div id=\"elementor-tab-title-2011\" class=\"elementor-tab-title\" data-tab=\"1\" role=\"button\" aria-controls=\"elementor-tab-content-2011\" aria-expanded=\"false\">\n\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon elementor-toggle-icon-left\" aria-hidden=\"true\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-closed\"><i class=\"fas fa-caret-right\"><\/i><\/span>\n\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-opened\"><i class=\"elementor-toggle-icon-opened fas fa-caret-up\"><\/i><\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t\t<\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t<a class=\"elementor-toggle-title\" tabindex=\"0\"> BIBLIOGRAPHY<\/a>\n\t\t\t\t\t<\/div>\n\n\t\t\t\t\t<div id=\"elementor-tab-content-2011\" class=\"elementor-tab-content elementor-clearfix\" data-tab=\"1\" role=\"region\" aria-labelledby=\"elementor-tab-title-2011\"><p class=\"p1\"><b>NEJM <\/b><\/p><p class=\"p2\"><span class=\"s1\"><a href=\"https:\/\/onepub-media.nejmgroup-production.org\/ai\/media\/000de933-9406-4f17-87b5-8e28c5cf5da7.pdf\">https:\/\/onepub-media.nejmgroup-production.org\/ai\/media\/000de933-9406-4f17-87b5-8e28c5cf5da7.pdf<\/a><\/span><\/p><\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<\/div>","protected":false},"excerpt":{"rendered":"<p>El LLM, GPT-4 logr\u00f3 diagnosticar de manera correcta el 57% de los casos cl\u00ednicos, superando al 99,98% de los lectores humanos simulados generados. Investigadores de Dinamarca, evaluaron el rendimiento del modelo de inteligencia artificial (IA) de OpenAI, GPT-4 en el diagn\u00f3stico de casos m\u00e9dicos complejos y lo compararon con el porcentaje de aciertos con el de los lectores simulados de revistas m\u00e9dicas.\u00a0 En este sentido, GPT-4 logr\u00f3 diagnosticar correctamente el 57% de los casos, superando al 99,98% de los lectores humanos simulados generados a partir de respuestas en l\u00ednea. Los autores exponen que la escasez de m\u00e9dicos y el aumento de la complejidad en el campo de la medicina, es un reto importante para la tarea que muchos m\u00e9dicos enfrentan cada d\u00eda: los diagn\u00f3sticos oportunos y precisos. Debido a los cambios demogr\u00e1ficos, con una poblaci\u00f3n que envejece, la carga de trabajo es uno de los retos de la salud p\u00fablica y que aumentar\u00e1 en el futuro gradualmente, es por ello que investigadores han resaltado la necesidad de aprovechar los nuevos desarrollos tecnol\u00f3gicos en la atenci\u00f3n cl\u00ednica. Por ejemplo, aunque la IA existe desde hace varias y ha demostrado grandes avances, en los \u00faltimos a\u00f1os ha crecido su adopci\u00f3n de manera mete\u00f3rica. Por ejemplo, ha mostrado resultados prometedores en campos concretos de la medicina, como las im\u00e1genes m\u00e9dicas. De esta manera, el continuo desarrollo de la IA, incluidos los grandes modelos de lenguaje (LLM, en ingl\u00e9s) han permitido la investigaci\u00f3n en nuevas \u00e1reas. Por ejemplo, el conocido como Generative Preentrenado Generativo o GPT, ha permitido la generaci\u00f3n de res\u00famenes de alta calidad y la generaci\u00f3n de informes de pacientes. Recientemente, un art\u00edculo cient\u00edfico demostr\u00f3 que GPT-4 era capaz de responder correctamente a las preguntas del examen de licencia m\u00e9dica en Estados Unidos. Sin embargo, existe cautela entre la comunidad m\u00e9dica sobre c\u00f3mo funcionar\u00eda un LLM en casos cl\u00ednicos reales. Es decir, no est\u00e1 claro hasta qu\u00e9 punto la GPT-4 puede ayudar en casos cl\u00ednicos que contienen descripciones largas, complicadas y variadas de los pacientes, y cu\u00e1l es su funci\u00f3n\u00a0 en estos casos complejos del mundo real en comparaci\u00f3n con los especialistas humanos. Los autores del estudio evaluaron el rendimiento de GPT-4 en casos m\u00e9dicos reales comparando su rendimiento con el de los lectores de revistas m\u00e9dicas. El estudio utiliz\u00f3 desaf\u00edos de casos cl\u00ednicos complejos disponibles con informaci\u00f3n completa a texto completo publicados en l\u00ednea entre enero de 2017 y enero de 2023. Cada caso presenta un historial m\u00e9dico y una encuesta con seis opciones para el diagn\u00f3stico m\u00e1s probable. Adem\u00e1s, para resolver los desaf\u00edos de casos, le proporcionaron a GPT-4 una instrucci\u00f3n o prompt y un caso cl\u00ednico. Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo. El n\u00famero de diagn\u00f3sticos correctos entre los 38 casos que se produjeron por azar fue de 6,3 (16,7%) de acuerdo con las seis opciones de la encuesta. La edici\u00f3n de marzo de 2023 de GPT-4 logr\u00f3 diagnosticar correctamente una media de 21,8 casos (57%) con una buena reproducibilidad mientras que los lectores de revistas m\u00e9dicas diagnosticaron correctamente una media de 13,7 casos (36%). En este sentido, de acuerdo con la simulaci\u00f3n los autores descubrieron que GPT-4 obtuvo mejores resultados que el 99,98% de la \u201cpseudopoblaci\u00f3n\u201d de lectores generada para el estudio. Sin embargo, esta es una de las limitaciones m\u00e1s importantes del estudio: el uso de una poblaci\u00f3n mal caracterizada de lectores humanos de revistas con niveles desconocidos de conocimientos m\u00e9dicos.\u00a0 No obstante, explican los autores \u201cincluso en el caso extremo de una correlaci\u00f3n m\u00e1xima de respuestas correctas entre los lectores de revistas m\u00e9dicas, GPT4 obtendr\u00eda mejores resultados que el 72% de los lectores humanos\u201d. Finalmente, los investigadores destacaron el potencial de la IA como una gran herramienta de apoyo para diagn\u00f3sticos, sin embargo, antes de adoptar su aplicaci\u00f3n cl\u00ednica es necesario trabajar en nuevas mejoras, como validar y abordar consideraciones \u00e9ticas. BIBLIOGRAF\u00cdA NEJM https:\/\/onepub-media.nejmgroup-production.org\/ai\/media\/000de933-9406-4f17-87b5-8e28c5cf5da7.pdf<\/p>","protected":false},"author":1,"featured_media":43158,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[156,160],"tags":[145],"class_list":["post-43156","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-big-data","category-noticias","tag-noticias"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts\/43156","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/comments?post=43156"}],"version-history":[{"count":0,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts\/43156\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/media\/43158"}],"wp:attachment":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/media?parent=43156"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/categories?post=43156"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/tags?post=43156"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}