{"id":50894,"date":"2025-01-03T12:16:49","date_gmt":"2025-01-03T18:16:49","guid":{"rendered":"https:\/\/saluddigital.com\/?p=50894"},"modified":"2025-10-17T20:35:16","modified_gmt":"2025-10-18T02:35:16","slug":"investigadores-disenan-una-prueba-mas-confiable-para-evaluar-la-comunicacion-clinica-de-la-ia","status":"publish","type":"post","link":"https:\/\/saluddigital.com\/en\/big-data\/investigadores-disenan-una-prueba-mas-confiable-para-evaluar-la-comunicacion-clinica-de-la-ia\/","title":{"rendered":"Investigadores dise\u00f1an una prueba m\u00e1s confiable para evaluar la comunicaci\u00f3n cl\u00ednica de la IA"},"content":{"rendered":"<div data-elementor-type=\"wp-post\" data-elementor-id=\"50894\" class=\"elementor elementor-50894\" data-elementor-post-type=\"post\">\n\t\t\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-67d59a90 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-equal-height-no\" data-id=\"67d59a90\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-3c5d2b55\" data-id=\"3c5d2b55\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-64e2b593 elementor-widget elementor-widget-heading\" data-id=\"64e2b593\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"heading.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t<h2 class=\"elementor-heading-title elementor-size-default\">Cient\u00edficos de Harvard y Stanford desearon un marco de evaluaci\u00f3n para medir la capacidad de la IA en entornos m\u00e9dicos reales. <\/h2>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-5bd4a5ba elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-equal-height-no\" data-id=\"5bd4a5ba\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-6aae2934\" data-id=\"6aae2934\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-930fbf3 elementor-widget elementor-widget-text-editor\" data-id=\"930fbf3\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>Herramientas de inteligencia artificial (IA) generativa uy grandes modelos de lenguaje (LLM, en ingl\u00e9s), como ChatGPT, Gemini, entre otras se han comenzado a utilizar como una soluci\u00f3n para aliviar la carga de trabajo de m\u00e9dicos mediante la clasificaci\u00f3n de pacientes, la revisi\u00f3n y elaboraci\u00f3n de historias cl\u00ednicas e incluso para ciertos tipos de diagn\u00f3sticos preliminares. Los LLM se utilizan para interpretar s\u00edntomas o pruebas m\u00e9dicas, sin embargo, su aplicaci\u00f3n en entornos cl\u00ednicos genera dudas en la comunidad m\u00e9dica y cient\u00edfica.<\/p><p>Seg\u00fan una nueva investigaci\u00f3n de Harvard y Stanford, publicada el 2 de enero en <a href=\"https:\/\/www.nature.com\/articles\/s41591-024-03328-5\"><em>Nature Medicine<\/em><\/a>, el desempe\u00f1o de estos modelos no es tan bueno en situaciones que imitan al mundo real. El estudio detalla el dise\u00f1o de un nuevo marco de evaluaci\u00f3n denominado Conversational Reasoning Assessment Framework for Testing in Medicine (CRAFT-MD), y fue probado en cuatro LLM para evaluar su desempe\u00f1o en interacciones reales con pacientes.<\/p><p>Seg\u00fan los autores, los LLMs, como GPT-4, tienen el potencial de transformar las interacciones entre m\u00e9dicos y pacientes al facilitar diagn\u00f3sticos m\u00e1s r\u00e1pidos y precisos. Sin embargo, su preparaci\u00f3n para ser aplicados en escenarios cl\u00ednicos reales es insuficiente, ya que las evaluaciones tradicionales suelen enfocarse en pruebas estructuradas, alejadas de las conversaciones naturales entre m\u00e9dico y paciente.<\/p><p>A trav\u00e9s de CRAFT-MD, los investigadores evaluaron los LLMs mediante di\u00e1logos simulados entre agentes de IA. Este enfoque permite analizar c\u00f3mo los modelos se desempe\u00f1an en interacciones naturales, incluyendo su capacidad para tomar el historial m\u00e9dico y razonar de forma conversacional.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-3a0c577b elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-equal-height-no\" data-id=\"3a0c577b\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-top-column elementor-element elementor-element-7ddcb783\" data-id=\"7ddcb783\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-449b6f7a elementor-widget elementor-widget-text-editor\" data-id=\"449b6f7a\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>En este sentido, utilizando CRAFT-MD, los autores investigadores probaron modelos como GPT-4, GPT-3.5, Mistral y LLaMA-2-7b en 12 especialidades m\u00e9dicas. Tambi\u00e9n evaluaron la capacidad multimodal de GPT-4V, que combina texto e im\u00e1genes. Los resultados mostraron limitaciones significativas en la precisi\u00f3n de los diagn\u00f3sticos, la calidad de las preguntas abiertas y la capacidad de razonamiento cl\u00ednico conversacional de los modelos.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-top-column elementor-element elementor-element-1ce5027\" data-id=\"1ce5027\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-6b16743 elementor-widget elementor-widget-image\" data-id=\"6b16743\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"image.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<img fetchpriority=\"high\" decoding=\"async\" width=\"1200\" height=\"630\" src=\"https:\/\/saluddigital.com\/wp-content\/uploads\/2025\/01\/01-25-03.jpg\" class=\"attachment-full size-full wp-image-50896\" alt=\"cl\u00ednica de la IA\" srcset=\"https:\/\/saluddigital.com\/wp-content\/uploads\/2025\/01\/01-25-03.jpg 1200w, https:\/\/saluddigital.com\/wp-content\/uploads\/2025\/01\/01-25-03-660x347.jpg 660w, https:\/\/saluddigital.com\/wp-content\/uploads\/2025\/01\/01-25-03-840x441.jpg 840w, https:\/\/saluddigital.com\/wp-content\/uploads\/2025\/01\/01-25-03-768x403.jpg 768w, https:\/\/saluddigital.com\/wp-content\/uploads\/2025\/01\/01-25-03-18x9.jpg 18w\" sizes=\"(max-width: 1200px) 100vw, 1200px\" \/>\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-3af104fb elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-equal-height-no\" data-id=\"3af104fb\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-b518e2b\" data-id=\"b518e2b\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-651eb548 elementor-widget elementor-widget-text-editor\" data-id=\"651eb548\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>Bas\u00e1ndose en los hallazgos, los autores proponen un conjunto de recomendaciones para mejorar la evaluaci\u00f3n de los LLMs en contextos cl\u00ednicos:<\/p><ul><li>Simular conversaciones realistas entre m\u00e9dicos y pacientes<\/li><li>Priorizar la toma exhaustiva de historiales m\u00e9dicos<\/li><li>Dise\u00f1ar preguntas abiertas que permitan explorar s\u00edntomas y contextos m\u00e1s complejos<\/li><li>Utilizar una combinaci\u00f3n de evaluaciones automatizadas y an\u00e1lisis expertos para medir el desempe\u00f1o de los modelos<\/li><\/ul><p>\u201cNuestro trabajo revela una sorprendente paradoja: si bien estos modelos de IA se destacan en los ex\u00e1menes de la junta m\u00e9dica, tienen dificultades con el intercambio b\u00e1sico de informaci\u00f3n de una visita al m\u00e9dico\u201d, dijo el autor principal del estudio, Pranav Rajpurkar, profesor adjunto de inform\u00e1tica biom\u00e9dica en el Instituto Blavatnik de Harvard. \u201cLa naturaleza din\u00e1mica de las conversaciones m\u00e9dicas, plantea desaf\u00edos \u00fanicos que van mucho m\u00e1s all\u00e1 de responder preguntas de opci\u00f3n m\u00faltiple. Cuando pasamos de las pruebas estandarizadas a estas conversaciones naturales, incluso los modelos de IA m\u00e1s sofisticados muestran ca\u00eddas significativas en la precisi\u00f3n del diagn\u00f3stico\u201d.<\/p><p>La introducci\u00f3n de CRAFT-MD representa un avance importante en la manera en que se prueban estos modelos, asegurando que puedan integrarse de manera efectiva y \u00e9tica en la pr\u00e1ctica m\u00e9dica. Este marco busca garantizar que los LLMs sean herramientas \u00fatiles para los m\u00e9dicos, contribuyendo a un diagn\u00f3stico m\u00e1s preciso y una mejor experiencia para los pacientes.<\/p><p>\u201cComo m\u00e9dico-cient\u00edfico, me interesan los modelos de IA que puedan mejorar la pr\u00e1ctica cl\u00ednica de manera eficaz y \u00e9tica\u201d, afirm\u00f3 Roxana Rajpurkar, coautora principal del estudio y profesora adjunta de ciencia de datos biom\u00e9dicos y dermatolog\u00eda en Stanford. \u201cCRAFT-MD crea un marco que refleja con mayor precisi\u00f3n las interacciones del mundo real y, por lo tanto, ayuda a que el campo avance en lo que respecta a probar el rendimiento de los modelos de IA en la atenci\u00f3n m\u00e9dica\u201d.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-7550cba0 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-equal-height-no\" data-id=\"7550cba0\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-22eb25a2\" data-id=\"22eb25a2\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-6a75c004 elementor-widget elementor-widget-toggle\" data-id=\"6a75c004\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"toggle.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t<div class=\"elementor-toggle\">\n\t\t\t\t\t\t\t<div class=\"elementor-toggle-item\">\n\t\t\t\t\t<div id=\"elementor-tab-title-1781\" class=\"elementor-tab-title\" data-tab=\"1\" role=\"button\" aria-controls=\"elementor-tab-content-1781\" aria-expanded=\"false\">\n\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon elementor-toggle-icon-left\" aria-hidden=\"true\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-closed\"><i class=\"fas fa-caret-right\"><\/i><\/span>\n\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-opened\"><i class=\"elementor-toggle-icon-opened fas fa-caret-up\"><\/i><\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t\t<\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t<a class=\"elementor-toggle-title\" tabindex=\"0\"> BIBLIOGRAPHY<\/a>\n\t\t\t\t\t<\/div>\n\n\t\t\t\t\t<div id=\"elementor-tab-content-1781\" class=\"elementor-tab-content elementor-clearfix\" data-tab=\"1\" role=\"region\" aria-labelledby=\"elementor-tab-title-1781\"><p><strong>HARVARD<\/strong><\/p><p><a href=\"https:\/\/hms.harvard.edu\/news\/how-good-are-ai-clinicians-medical-conversations\">https:\/\/hms.harvard.edu\/news\/how-good-are-ai-clinicians-medical-conversations<\/a><\/p><p><strong>NATURE<\/strong><\/p><p><a href=\"https:\/\/www.nature.com\/articles\/s41591-024-03328-5\">https:\/\/www.nature.com\/articles\/s41591-024-03328-5<\/a><\/p><\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<\/div>","protected":false},"excerpt":{"rendered":"<p>Investigadores de Harvard y Stanford dise\u00f1an una prueba m\u00e1s confiable para evaluar la comunicaci\u00f3n cl\u00ednica de la IA y los LLM.<\/p>","protected":false},"author":1,"featured_media":50896,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[156,160],"tags":[145],"class_list":["post-50894","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-big-data","category-noticias","tag-noticias"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts\/50894","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/comments?post=50894"}],"version-history":[{"count":0,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts\/50894\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/media\/50896"}],"wp:attachment":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/media?parent=50894"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/categories?post=50894"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/tags?post=50894"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}