Filter by input type
Filter by category
¿Pueden los modelos de lenguaje tomar decisiones éticas en medicina?

Un estudio advierte sobre las limitaciones de la AI al enfrentar dilemas clínicos complejos.

A medida que la artificial intelligence (AI) y los grandes modelos de lenguaje (LLM, en inglés) como ChatGPT, DeepSeek o Grok, ganan terreno en entornos médicos y educativos, surgen cuestionamientos clave acerca de su preparación para tomar decisiones éticas sensibles. Un artículo reciente publicado en npj Digital Medicine journal expone fallos significativos en la capacidad de estos sistemas para razonar en escenarios éticos complejos. A pesar de sus avances, los modelos tienden a responder de manera predecible y superficial, incluso cuando el contexto requiere análisis más profundos y adaptativos.

Los investigadores compararon el razonamiento ético de varios LLM frente a escenarios médicos cuidadosamente modificados para probar su flexibilidad cognitiva. Aunque estos modelos han sido entrenados para emular un pensamiento más analítico, denominado “System 2” en psicología, siguen mostrando una fuerte dependencia a patrones previamente aprendidos, lo que los lleva a respuestas erróneas o inadecuadas cuando se enfrentan a información nueva o contradictoria.

“La AI puede ser muy potente y eficiente, pero nuestro estudio demostró que puede optar por defecto por la respuesta más familiar o intuitiva, incluso cuando esa respuesta pasa por alto detalles críticos”, expresó el coautor principal del estudio Eyal Klang, Jefe de AI Generativa en el Departamento Windreich de Artificial Intelligence y Salud Humana de la Facultad de Medicina Icahn of Mount Sinai. “En situaciones cotidianas, ese tipo de pensamiento podría pasar desapercibido. Pero en la atención sanitaria, donde las decisiones a menudo conllevan graves implicaciones éticas y clínicas, pasar por alto esos matices puede tener consecuencias reales para los pacientes”, agregó.

Un ejemplo clave es el clásico acertijo del “Dilema del cirujano”, que plantea una situación ética en la que un cirujano debe decidir si sacrificar a un paciente para salvar a otros pacientes. El dilema reformulado para invalidar su solución típica. No obstante, a pesar de los nuevos datos, los LLM repitieron respuestas conocidas, ignorando elementos clave del planteamiento. Del mismo modo, en casos de ética médica, como la confidentiality en pacientes menores o el manejo de diagnósticos terminales, varios modelos fallaron en reconocer que el dilema había sido resuelto por los cambios en el contexto del caso.

Los autores atribuyen estos errores al exceso de exposición a ejemplos repetidos durante el entrenamiento, lo que condiciona las respuestas hacia soluciones conocidas, incluso cuando no aplican. En promedio, los modelos mostraron tasas de error más altas en escenarios de ética médica, entre 76% y 96%, que en acertijos lógicos generales.

“Nuestros hallazgos no sugieren que la AI no tenga cabida en la práctica médica, sino que ponen de relieve la necesidad de una supervisión humana reflexiva, especialmente en situaciones que requieren sensibilidad ética, juicio matizado o inteligencia emocional”, afirma el coautor principal Girish N. Nadkarni, presidente del Departamento Windreich de Artificial Intelligence y Salud Humana, y Jefe de AI del sistema de salud de Mount Sinaí.

Aunque existen intentos por fomentar un pensamiento más deliberativo en estas AI, como los llamados procesos de “cadena de pensamiento”, los resultados siguen siendo limitados. La dificultad para distinguir matices en dilemas éticos plantea un riesgo si estos sistemas se usan en decisiones clínicas reales, donde cada caso puede requerir un enfoque altamente individualizado y humano.

El estudio abordó ejemplo para comprobar si los LLM se basan en patrones familiares. En este ejercicio los investigadores recurrieron a un dilema ético clásico en el que unos padres religiosos se niegan a una transfusión de sangre para salvar la vida de su hijo. Los investigadores modificaron el escenario para afirmar que los padres ya habían dado su consentimiento, muchos modelos seguían recomendando anular una negativa que ya no existía.

“Unos simples retoques en casos familiares pusieron al descubierto puntos ciegos que los médicos no pueden permitirse”, expresó la autora principal, la doctora Shelly Soffer, miembro del Instituto de Hematología del Centro Oncológico Davidoff del Centro Médico Rabin. “Esto subraya por qué la supervisión humana debe seguir siendo fundamental cuando desplegamos la AI en la atención al paciente”.

El estudio concluye que, si bien los LLM están mejorando en tareas cognitivas complejas, su tendencia a replicar patrones familiares puede comprometer su utilidad en contextos éticos delicados. Antes de integrarlos plenamente en la práctica médica, es esencial reconocer estas limitaciones y continuar desarrollando sistemas capaces de comprender no solo el lenguaje, sino también la profundidad moral y emocional de las decisiones clínicas.

Outstanding news

Stay updated

News by country

Related Content

Secured By miniOrange