El estudio publicado en The Lancet Digital Health, reveló que los LLMs pueden creer en información médica falsa, especialmente si esta está redactada con lenguaje formal y técnico.
Investigadores de Mount Sinai publicaron en The Lancet Digital Health un análisis sobre la vulnerabilidad de los grandes modelos de lenguaje (LLMs, en inglés), frente a la desinformación médica. Los resultados mostraron que los sistemas pueden aceptar recomendaciones médicas fabricadas, sobre todo cuando están redactadas con tono formal y clínico, similar al de una nota hospitalaria o clínica real.
El estudio evaluó 20 modelos distintos mediante más de 3.4 millones de pruebas. Entre los modelos analizados destacan las principales familias de modelos, incluyendo OpenAI GPT, Meta Llama, Google Gemma, Microsoft Phi, entre otros. Los investigadores analizaron qué tan frecuentemente los modelos aceptaban como válidas afirmaciones médicas falsas y cómo cambiaba su respuesta cuando esas afirmaciones se presentaban usando falacias lógicas, como apelaciones a la autoridad, a la emoción o a la popularidad.
El equipo utilizó tres tipos de contenidos, primero, notas médicas reales de egreso hospitalario, a las que se les insertó deliberadamente una recomendación falsa. Posteriormente, utilizaron ejemplos reales de desinformación médica tomados de foros públicos como Reddit. Y finalmente utilizaron, viñetas clínicas simuladas y validadas por médicos.
Cada texto se presentó a los modelos en dos versiones: una directa, preguntando si contenía información incorrecta, y otra en la que la afirmación falsa estaba envuelta en una falacia lógica. Por ejemplo, se añadía una frase como “un médico con más de 20 años de experiencia respalda esta recomendación” para simular una apelación a la autoridad.
Los investigadores midieron si el modelo aceptaba la afirmación falsa y si detectaba correctamente la presencia de una falacia lógica. En conjunto, los modelos aceptaron información médica falsa en 31.7% de los casos cuando se les presentó en formato directo. Sin embargo, la tasa de aceptación variaba considerablemente según el tipo de texto.
Las notas hospitalarias modificadas resultaron ser las más problemáticas: casi la mitad de las recomendaciones fabricadas en este formato fueron aceptadas como correctas. En contraste, los textos provenientes de redes sociales tuvieron una tasa de aceptación mucho menor, inferior al 10% en su versión base. Esto sugiere que el estilo formal y técnico de una nota clínica puede conferir una apariencia de legitimidad que influye en la respuesta del modelo.
Entre los ejemplos de afirmaciones falsas que algunos modelos respaldaron se encontraron ideas como que “ciertos medicamentos causan autismo”, que “el ajo aplicado de forma rectal refuerza el sistema inmunológico” o que “el ejercicio reduce la esperanza de vida porque el corazón tiene un número limitado de latidos”. También aceptaron recomendaciones clínicas inventadas, como disolver un laxante en agua caliente para “activar” sus ingredientes.
Los autores detallan que, de manera inesperada, la mayoría de las falacias lógicas no aumentaron la credulidad de los modelos, sino que la redujeron. La apelación a la popularidad, por ejemplo, fue la que más disminuyó la aceptación de información falsa.
Solo dos tipos de falacias tendieron a incrementar la vulnerabilidad, la pendiente resbaladiza y la apelación a la autoridad. Esta última es especialmente relevante en el ámbito médico, donde las referencias a expertos pueden parecer particularmente persuasivas.
Los investigadores señalan que este efecto podría deberse a que los sistemas actuales han sido entrenados para sospechar de ciertos patrones retóricos asociados con desinformación, especialmente aquellos cargados de emoción o consenso social.
Aunque los modelos más grandes tendieron a mostrar menor susceptibilidad, el tamaño no fue el único factor determinante. Algunos modelos de tamaño intermedio mostraron un desempeño muy sólido, mientras que varios modelos ajustados específicamente para tareas médicas tuvieron, en promedio, mayor vulnerabilidad a aceptar afirmaciones fabricadas.
Esto sugiere que no basta con aumentar la escala o especializar el entrenamiento en datos médicos. La forma en que se implementan mecanismos de alineación y verificación de hechos parece ser más decisiva.
El estudio advierte que herramientas basadas en LLM utilizadas para resumir notas médicas o generar recomendaciones para pacientes podrían transmitir información incorrecta si no cuentan con salvaguardas adicionales. El riesgo es mayor cuando el contenido falso está integrado en un texto que imita el estilo clínico formal.




