{"id":58680,"date":"2025-08-11T10:08:15","date_gmt":"2025-08-11T16:08:15","guid":{"rendered":"https:\/\/saluddigital.com\/?p=58680"},"modified":"2025-08-11T10:42:54","modified_gmt":"2025-08-11T16:42:54","slug":"modelos-de-lenguaje-avanzados-muestran-alta-vulnerabilidad-a-errores-inducidos-en-contextos-clinicos","status":"publish","type":"post","link":"https:\/\/saluddigital.com\/en\/big-data\/modelos-de-lenguaje-avanzados-muestran-alta-vulnerabilidad-a-errores-inducidos-en-contextos-clinicos\/","title":{"rendered":"Modelos de lenguaje avanzados muestran alta vulnerabilidad a errores inducidos en contextos cl\u00ednicos"},"content":{"rendered":"<div data-elementor-type=\"wp-post\" data-elementor-id=\"58680\" class=\"elementor elementor-58680\" data-elementor-post-type=\"post\">\n\t\t\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-74c39e23 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no\" data-id=\"74c39e23\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-1c33de1b\" data-id=\"1c33de1b\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-1b7a68a3 elementor-widget elementor-widget-heading\" data-id=\"1b7a68a3\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"heading.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t<h2 class=\"elementor-heading-title elementor-size-default\">Un estudio revela que incluso los sistemas m\u00e1s precisos, como GPT-4o, pueden generar informaci\u00f3n m\u00e9dica falsa cuando se les presenta un detalle inventado.<\/h2>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-7bb99328 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no\" data-id=\"7bb99328\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-34268a0\" data-id=\"34268a0\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-24746248 elementor-widget elementor-widget-text-editor\" data-id=\"24746248\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>The <strong>grandes modelos de lenguaje<\/strong> (LLM, en ingl\u00e9s) se est\u00e1n integrando cada vez m\u00e1s en la pr\u00e1ctica m\u00e9dica, desde la redacci\u00f3n de notas cl\u00ednicas hasta la interpretaci\u00f3n de datos. Sin embargo, un nuevo estudio publicado en <a href=\"https:\/\/www.nature.com\/articles\/s43856-025-01021-3.epdf?sharing_token=Jayp-CUmMW6fj42NBVSlktRgN0jAjWel9jnR3ZoTv0MEso8ZrTGIH1IS9MJz7UCURR5v6mfBSBHSOda69kzKU2HZrI7K2qDalv9e7IqMz-dXk20UJsa8RuA9trCcIpU69XOwGuWE_CnISWKGcSgNzciWbpXCfYZJECqzniYwptM%3D\"><em>Nature Communications<\/em><\/a> advierte que estas herramientas son altamente susceptibles a \u201cataques de alucinaci\u00f3n adversarial\u201d o <em>adversarial hallucination attacks,<\/em>, un fen\u00f3meno en el que detalles falsos incluidos en la consulta provocan que el sistema los acepte y ampl\u00ede, generando informaci\u00f3n incorrecta que podr\u00eda comprometer la atenci\u00f3n al paciente.<\/p><p>La investigaci\u00f3n, liderada por la Facultad de Medicina Icahn de Mount Sinai, evalu\u00f3 seis LLM, incluyendo opciones comerciales y de c\u00f3digo abierto, mediante <strong>300 casos cl\u00ednicos ficticios, cada uno con un \u00fanico dato inventado<\/strong>, como una prueba de laboratorio inexistente, un signo cl\u00ednico falso o una enfermedad ficticia. Estos casos se presentaron en versiones cortas y largas para analizar si la extensi\u00f3n influ\u00eda en la aparici\u00f3n de errores.<\/p><p>En total, se generaron 5 mil 400 respuestas bajo tres condiciones: configuraci\u00f3n est\u00e1ndar, un <em>prompt<\/em> de mitigaci\u00f3n dise\u00f1ado para reducir errores y un ajuste de temperatura en cero para limitar las salidas especulativas. Los resultados mostraron que las tasas de alucinaci\u00f3n oscilaron entre el 50% y el 82%, dependiendo del modelo y las condiciones. El prompt de mitigaci\u00f3n logr\u00f3 reducir la tasa media de error de 66% a 44%, mientras que modificar la temperatura no tuvo un efecto significativo.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-3cb87afa elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no\" data-id=\"3cb87afa\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-top-column elementor-element elementor-element-18fb1460\" data-id=\"18fb1460\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-19e1605e elementor-widget elementor-widget-image\" data-id=\"19e1605e\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"image.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<img fetchpriority=\"high\" decoding=\"async\" width=\"1200\" height=\"630\" src=\"https:\/\/saluddigital.com\/wp-content\/uploads\/2025\/08\/08-25-16.jpg\" class=\"attachment-full size-full wp-image-58683\" alt=\"\" srcset=\"https:\/\/saluddigital.com\/wp-content\/uploads\/2025\/08\/08-25-16.jpg 1200w, https:\/\/saluddigital.com\/wp-content\/uploads\/2025\/08\/08-25-16-660x347.jpg 660w, https:\/\/saluddigital.com\/wp-content\/uploads\/2025\/08\/08-25-16-840x441.jpg 840w, https:\/\/saluddigital.com\/wp-content\/uploads\/2025\/08\/08-25-16-768x403.jpg 768w, https:\/\/saluddigital.com\/wp-content\/uploads\/2025\/08\/08-25-16-18x9.jpg 18w\" sizes=\"(max-width: 1200px) 100vw, 1200px\" \/>\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-top-column elementor-element elementor-element-14d54227\" data-id=\"14d54227\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-2bab3bc0 elementor-widget elementor-widget-text-editor\" data-id=\"2bab3bc0\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p><strong>GPT-4o<\/strong>, uno de los principales LLM, fue el modelo con mejor desempe\u00f1o, con tasas de error cercanas al 50% en condiciones est\u00e1ndar y de alrededor del 23% con el prompt de mitigaci\u00f3n. En contraste, el modelo <strong>Distilled-DeepSeek<\/strong> super\u00f3 el 80% de errores. Tambi\u00e9n se observ\u00f3 que los casos m\u00e1s breves ten\u00edan una ligera mayor propensi\u00f3n a generar informaci\u00f3n falsa.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-75f79122 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no\" data-id=\"75f79122\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-788e6138\" data-id=\"788e6138\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-7bd6063d elementor-widget elementor-widget-text-editor\" data-id=\"7bd6063d\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>\u201cLo que vimos en general es que los chatbots de IA pueden ser f\u00e1cilmente enga\u00f1ados por detalles m\u00e9dicos falsos, ya sea que esos errores sean intencionales o accidentales\u201d, reconoci\u00f3 el autor principal Mahmud Omar, consultor independiente del equipo de investigaci\u00f3n. \u201cNo solo repet\u00edan la informaci\u00f3n err\u00f3nea, sino que a menudo la ampliaban, ofreciendo explicaciones seguras para afecciones inexistentes. Lo alentador es que <strong>una simple advertencia de una l\u00ednea a\u00f1adida al aviso redujo dr\u00e1sticamente esas alucinaciones<\/strong>, lo que demuestra que las peque\u00f1as salvaguardias pueden marcar una gran diferencia\u201d a\u00f1adi\u00f3.<\/p><p>Adem\u00e1s del an\u00e1lisis cuantitativo, se prob\u00f3 la capacidad de tres modelos para manejar afirmaciones de salud desacreditadas, como el v\u00ednculo entre vacunas y autismo. En este escenario, la mayor\u00eda de las respuestas fueron correctas, aunque se detectaron excepciones.<\/p><p>\u201cNuestro objetivo era ver si un chatbot funcionar\u00eda con informaci\u00f3n falsa si se deslizaba en una pregunta m\u00e9dica, y la respuesta es s\u00ed\u201d, expres\u00f3 el coautor principal Eyal Klang, jefe de IA Generativa en el Departamento Windreich de Inteligencia Artificial y Salud Humana en Icahn. \u201cIncluso un solo t\u00e9rmino inventado pod\u00eda desencadenar una respuesta detallada y decisiva basada totalmente en la ficci\u00f3n. Pero tambi\u00e9n descubrimos que <strong>el sencillo y oportuno recordatorio de seguridad integrado en el aviso marcaba una diferencia importante, ya que reduc\u00eda esos errores casi a la mitad<\/strong>. Eso nos dice que estas herramientas pueden ser m\u00e1s seguras, pero s\u00f3lo si nos tomamos en serio el dise\u00f1o de los avisos y las salvaguardias incorporadas\u201d<\/p><p>El estudio concluye que, aunque estrategias como la ingenier\u00eda de prompts pueden disminuir de forma significativa las alucinaciones adversariales, ning\u00fan modelo evaluado es completamente inmune. Los autores advierten que la integraci\u00f3n de LLM en entornos cl\u00ednicos debe ir acompa\u00f1ada de supervisi\u00f3n humana, ya que un solo dato falso en la consulta puede derivar en recomendaciones peligrosas para la salud.<\/p><p>\u201cNuestro estudio arroja luz sobre un punto ciego en la forma en que las herramientas actuales de IA manejan la desinformaci\u00f3n, especialmente en la atenci\u00f3n sanitaria\u201d afirm\u00f3, el coautor principal Girish N. Nadkarni, Presidente del Departamento Windreich de IA y Salud Humana y director del Instituto Hasso Plattner para la Salud Digital. Adem\u00e1s, advierte que <strong>la soluci\u00f3n no es abandonar la IA en medicina, sino dise\u00f1ar herramientas capaces de detectar la informaci\u00f3n dudosa<\/strong>, responder con cautela y garantizar siempre la supervisi\u00f3n humana.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-47c2af3 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no\" data-id=\"47c2af3\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-cad876a\" data-id=\"cad876a\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-5b1ad7be elementor-widget elementor-widget-toggle\" data-id=\"5b1ad7be\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"toggle.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t<div class=\"elementor-toggle\">\n\t\t\t\t\t\t\t<div class=\"elementor-toggle-item\">\n\t\t\t\t\t<div id=\"elementor-tab-title-1521\" class=\"elementor-tab-title\" data-tab=\"1\" role=\"button\" aria-controls=\"elementor-tab-content-1521\" aria-expanded=\"false\">\n\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon elementor-toggle-icon-left\" aria-hidden=\"true\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-closed\"><i class=\"fas fa-caret-right\"><\/i><\/span>\n\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-opened\"><i class=\"elementor-toggle-icon-opened fas fa-caret-up\"><\/i><\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t\t<\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t<a class=\"elementor-toggle-title\" tabindex=\"0\"> BIBLIOGRAPHY<\/a>\n\t\t\t\t\t<\/div>\n\n\t\t\t\t\t<div id=\"elementor-tab-content-1521\" class=\"elementor-tab-content elementor-clearfix\" data-tab=\"1\" role=\"region\" aria-labelledby=\"elementor-tab-title-1521\"><p><strong>MOUNT SINAI<\/strong><\/p><p><a href=\"https:\/\/www.mountsinai.org\/about\/newsroom\/2025\/ai-chatbots-can-run-with-medical-misinformation-study-finds-highlighting-the-need-for-stronger-safeguards\">https:\/\/www.mountsinai.org\/about\/newsroom\/2025\/ai-chatbots-can-run-with-medical-misinformation-study-finds-highlighting-the-need-for-stronger-safeguards<\/a><\/p><p><strong>NATURE<\/strong><\/p><p><a href=\"https:\/\/www.nature.com\/articles\/s43856-025-01021-3.epdf?sharing_token=Jayp-CUmMW6fj42NBVSlktRgN0jAjWel9jnR3ZoTv0MEso8ZrTGIH1IS9MJz7UCURR5v6mfBSBHSOda69kzKU2HZrI7K2qDalv9e7IqMz-dXk20UJsa8RuA9trCcIpU69XOwGuWE_CnISWKGcSgNzciWbpXCfYZJECqzniYwptM%3D\">https:\/\/www.nature.com\/articles\/s43856-025-01021-3.epdf?sharing_token=Jayp-CUmMW6fj42NBVSlktRgN0jAjWel9jnR3ZoTv0MEso8ZrTGIH1IS9MJz7UCURR5v6mfBSBHSOda69kzKU2HZrI7K2qDalv9e7IqMz-dXk20UJsa8RuA9trCcIpU69XOwGuWE_CnISWKGcSgNzciWbpXCfYZJECqzniYwptM%3D<\/a><\/p><\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<\/div>","protected":false},"excerpt":{"rendered":"<p>Investigadores de Mount Sinai demuestran que modelos de lenguaje avanzados muestran alta vulnerabilidad a errores inducidos en contextos cl\u00ednicos.<\/p>","protected":false},"author":1,"featured_media":58683,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[156,160],"tags":[145],"class_list":["post-58680","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-big-data","category-noticias","tag-noticias"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts\/58680","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/comments?post=58680"}],"version-history":[{"count":0,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts\/58680\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/media\/58683"}],"wp:attachment":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/media?parent=58680"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/categories?post=58680"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/tags?post=58680"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}