{"id":65490,"date":"2025-12-04T10:56:51","date_gmt":"2025-12-04T16:56:51","guid":{"rendered":"https:\/\/saluddigital.com\/?p=65490"},"modified":"2025-12-04T11:02:37","modified_gmt":"2025-12-04T17:02:37","slug":"estudio-analiza-la-vulnerabilidad-de-los-modelos-vision-lenguaje-ante-artefactos-en-imagenes-medicas","status":"publish","type":"post","link":"https:\/\/saluddigital.com\/en\/big-data\/estudio-analiza-la-vulnerabilidad-de-los-modelos-vision-lenguaje-ante-artefactos-en-imagenes-medicas\/","title":{"rendered":"Estudio analiza la vulnerabilidad de los modelos visi\u00f3n-lenguaje ante artefactos en im\u00e1genes m\u00e9dicas"},"content":{"rendered":"<div data-elementor-type=\"wp-post\" data-elementor-id=\"65490\" class=\"elementor elementor-65490\" data-elementor-post-type=\"post\">\n\t\t\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-91d18b7 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-equal-height-no\" data-id=\"91d18b7\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-12a83e6e\" data-id=\"12a83e6e\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-1fd685e1 elementor-widget elementor-widget-heading\" data-id=\"1fd685e1\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"heading.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t<h2 class=\"elementor-heading-title elementor-size-default\">Investigadores muestran que fallan con frecuencia al detectar enfermedades cuando las im\u00e1genes presentan distorsiones comunes.<\/h2>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-56515720 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-equal-height-no\" data-id=\"56515720\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-6178eea4\" data-id=\"6178eea4\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-54507a32 elementor-widget elementor-widget-text-editor\" data-id=\"54507a32\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>Un nuevo estudio publicado en <a href=\"https:\/\/www.nature.com\/articles\/s41746-025-02108-w\"><em>npj Digital Medicine journal<\/em><\/a> evalu\u00f3 por primera vez, de forma sistem\u00e1tica, qu\u00e9 tan robustos son los modelos de visi\u00f3n-lenguaje (VLM, en ingl\u00e9s) al analizar im\u00e1genes m\u00e9dicas con artefactos. Estos modelos, que combinan procesamiento de im\u00e1genes con lenguaje natural, han demostrado avances importantes en tareas cl\u00ednicas como responder preguntas sobre estudios radiol\u00f3gicos. Sin embargo, las im\u00e1genes utilizadas en la pr\u00e1ctica m\u00e9dica real suelen presentar distorsiones causadas por movimiento, ruido, fallas del equipo o variaciones en la t\u00e9cnica, lo que plantea dudas sobre su confiabilidad.<\/p><p>Para investigar este problema, el equipo construy\u00f3 un conjunto de pruebas que incluye im\u00e1genes de resonancia magn\u00e9tica (IRM), tomograf\u00edas de coherencia \u00f3ptica (OCT, en ingl\u00e9s) y radiograf\u00edas de t\u00f3rax. A partir de 600 im\u00e1genes originales, tanto normales como con patolog\u00edas confirmadas, generaron versiones con cinco tipos de artefactos, en niveles \u201cd\u00e9biles\u201d y \u201cfuertes\u201d. Los artefactos d\u00e9biles representan deterioros que a\u00fan permiten interpretar la imagen, mientras que los fuertes corresponden a material pr\u00e1cticamente inutilizable en un entorno cl\u00ednico. Con este material evaluaron a modelos ampliamente utilizados, como <strong>GPT-4o, Claude 3.5 Sonnet, Llama 3.2, BiomedCLIP y MedGemma<\/strong>.<\/p><p>En las im\u00e1genes sin distorsi\u00f3n, los VLM alcanzaron un desempe\u00f1o moderado. Por ejemplo, en detecci\u00f3n de tumores cerebrales por IRM, COVID-19 o neumon\u00edas en radiograf\u00edas, y enfermedades maculares en OCT, los valores de exactitud se ubicaron entre 0.60 y 0.78 seg\u00fan el modelo y la modalidad. Los mejores resultados se observaron en sistemas entrenados de manera espec\u00edfica con datos m\u00e9dicos, como BiomedCLIP.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-79e040af elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-equal-height-no\" data-id=\"79e040af\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-top-column elementor-element elementor-element-49022e07\" data-id=\"49022e07\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-197817d9 elementor-widget elementor-widget-text-editor\" data-id=\"197817d9\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>Esa situaci\u00f3n cambi\u00f3 al introducir artefactos d\u00e9biles. En promedio, los modelos redujeron su precisi\u00f3n entre 3 % y 10 %, con ca\u00eddas m\u00e1s agudas en radiograf\u00edas. Algunos artefactos, en especial el ruido aleatorio, provocaron descensos dr\u00e1sticos. En el caso de BiomedCLIP, su exactitud para detectar enfermedad pulmonar cay\u00f3 casi 40% bajo esta interferencia. El estudio documenta ejemplos en los que los modelos confunden artefactos con lesiones reales (falsos positivos) o, por el contrario, pierden de vista alteraciones verdaderas (falsos negativos). De forma excepcional, ciertos artefactos, como recortes leves en MRI, incluso mejoraron el rendimiento de algunos modelos al obligarlos a enfocarse en la regi\u00f3n de inter\u00e9s.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-top-column elementor-element elementor-element-7a58fb49\" data-id=\"7a58fb49\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-2ad01e7d elementor-widget elementor-widget-image\" data-id=\"2ad01e7d\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"image.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<img fetchpriority=\"high\" decoding=\"async\" width=\"1200\" height=\"630\" src=\"https:\/\/saluddigital.com\/wp-content\/uploads\/2025\/12\/12-25-07.jpg\" class=\"attachment-full size-full wp-image-65492\" alt=\"\" \/>\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-7cee4d6e elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-equal-height-no\" data-id=\"7cee4d6e\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-60e60b57\" data-id=\"60e60b57\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-116c04ab elementor-widget elementor-widget-text-editor\" data-id=\"116c04ab\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>Cuando se analizaron las im\u00e1genes con artefactos fuertes, los resultados empeoraron considerablemente. Los modelos rara vez identificaron correctamente que la imagen era de mala calidad. En MRI, X-ray y OCT, la capacidad de detectar im\u00e1genes no utilizables oscil\u00f3 entre 0.11 y 0.23 para la mayor\u00eda de los sistemas, con la excepci\u00f3n de versiones espec\u00edficas de Claude 3.5 Sonnet, que mostraron mejor desempe\u00f1o. Seg\u00fan los autores, esta incapacidad para reconocer im\u00e1genes inadecuadas podr\u00eda representar un riesgo en entornos cl\u00ednicos, donde una evaluaci\u00f3n err\u00f3nea puede conducir a diagn\u00f3sticos equivocados.<\/p><p>El estudio tambi\u00e9n analiz\u00f3 si las instrucciones dadas al modelo (\u201cprompts\u201d) influ\u00edan en su desempe\u00f1o. De manera general, los prompts menos restrictivos \u2014como los que permiten razonamiento paso a paso\u2014 ayudaron a detectar im\u00e1genes de mala calidad, aunque no siempre mejoraron la detecci\u00f3n de enfermedades. En algunos casos, estos mismos prompts hicieron que los modelos se negaran a dar un diagn\u00f3stico por consideraciones \u00e9ticas, lo que tambi\u00e9n redujo su precisi\u00f3n medida de forma estricta.<\/p><p>Los autores complementaron sus pruebas con un conjunto de fotograf\u00edas de fondo de ojo con artefactos reales, usados en el tamizaje de retinopat\u00eda diab\u00e9tica. Los resultados fueron consistentes: los modelos disminuyeron su precisi\u00f3n con artefactos y mostraron dificultades para identificar im\u00e1genes no evaluables. En esta modalidad, GPT-4o mostr\u00f3 la exactitud m\u00e1s alta en im\u00e1genes de buena calidad, mientras que MedGemma present\u00f3 la mayor sensibilidad para detectar im\u00e1genes fuertemente distorsionadas.<\/p><p>De acuerdo con los investigadores, estos hallazgos evidencian que los VLM a\u00fan no son suficientemente robustos para su uso en entornos m\u00e9dicos reales, donde las im\u00e1genes rara vez est\u00e1n libres de distorsiones. El trabajo subraya la necesidad de desarrollar evaluaciones estandarizadas de robustez, incluir pruebas con artefactos desde las etapas tempranas del dise\u00f1o de modelos y crear sistemas capaces de identificar cuando una imagen no tiene la calidad suficiente para emitir un diagn\u00f3stico. Asimismo, recomiendan avanzar hacia modelos especializados y hacia t\u00e9cnicas de interpretaci\u00f3n que permitan entender c\u00f3mo los modelos procesan la informaci\u00f3n visual bajo condiciones imperfectas.<\/p><p>El estudio constituye una primera base para desarrollar evaluaciones m\u00e1s completas que consideren artefactos combinados, escalas m\u00e1s finas de distorsi\u00f3n y tareas multiclase m\u00e1s cercanas a la pr\u00e1ctica cl\u00ednica, con el objetivo de construir modelos m\u00e1s confiables y seguros para su uso asistencial.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-159e8b40 elementor-section-boxed elementor-section-height-default elementor-section-height-default wpr-particle-no wpr-jarallax-no wpr-parallax-no wpr-sticky-section-no wpr-equal-height-no\" data-id=\"159e8b40\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-24a0e902\" data-id=\"24a0e902\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-46721073 elementor-widget elementor-widget-toggle\" data-id=\"46721073\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"toggle.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t<div class=\"elementor-toggle\">\n\t\t\t\t\t\t\t<div class=\"elementor-toggle-item\">\n\t\t\t\t\t<div id=\"elementor-tab-title-1181\" class=\"elementor-tab-title\" data-tab=\"1\" role=\"button\" aria-controls=\"elementor-tab-content-1181\" aria-expanded=\"false\">\n\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon elementor-toggle-icon-left\" aria-hidden=\"true\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-closed\"><i class=\"fas fa-caret-right\"><\/i><\/span>\n\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-opened\"><i class=\"elementor-toggle-icon-opened fas fa-caret-up\"><\/i><\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t\t<\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t<a class=\"elementor-toggle-title\" tabindex=\"0\"> BIBLIOGRAPHY<\/a>\n\t\t\t\t\t<\/div>\n\n\t\t\t\t\t<div id=\"elementor-tab-content-1181\" class=\"elementor-tab-content elementor-clearfix\" data-tab=\"1\" role=\"region\" aria-labelledby=\"elementor-tab-title-1181\"><p><strong>NATURE<\/strong><\/p><p><a href=\"https:\/\/www.nature.com\/articles\/s41746-025-02108-w\">https:\/\/www.nature.com\/articles\/s41746-025-02108-w<\/a><\/p><\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<\/div>","protected":false},"excerpt":{"rendered":"<p>Estudio analiza la vulnerabilidad de los modelos visi\u00f3n-lenguaje ante artefactos en im\u00e1genes m\u00e9dicas<\/p>","protected":false},"author":1,"featured_media":65492,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[156,160],"tags":[145],"class_list":["post-65490","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-big-data","category-noticias","tag-noticias"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts\/65490","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/comments?post=65490"}],"version-history":[{"count":11,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts\/65490\/revisions"}],"predecessor-version":[{"id":65504,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/posts\/65490\/revisions\/65504"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/media\/65492"}],"wp:attachment":[{"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/media?parent=65490"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/categories?post=65490"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/saluddigital.com\/en\/wp-json\/wp\/v2\/tags?post=65490"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}