Salud Digital | El verdadero potencial de la IA para responder preguntas médicas

El verdadero potencial de la IA para responder preguntas médicas

Google publicó un estudio en Nature en el cual investigadores examinaron el potencial real de los grandes modelos de lenguaje como PaLM.

Recientemente Google publicó un estudio en Nature en el cual investigadores analizaron qué tan grandes pueden ser los modelos de lenguaje (LLM, en inglés) de inteligencia artificial (IA) generativa y cuál es su potencial en la respuesta de preguntas médicas.

El estudio examinó los LLMs y el potencial de sus aplicaciones clínicas en la medicina. Para ello crearon un nuevo conjunto de datos denominado MultiMedQA que combina seis conjuntos de datos existentes de preguntas y respuestas médicas, que abarcan consultas profesionales, investigaciones y consultas de consumidores. Los autores propusieron un marco de evaluación humana para las respuestas del modelo en varios aspectos, como veracidad, comprensión, razonamiento, posibles daños y sesgos.

Además, se evaluó el modelo Pathways Language Model (PaLM), un LLM con 540 mil millones de parámetros, y su variante ajustada para instrucciones, Flan-PaLM2, en MultiMedQA. En este sentido, Flan-PaLM logró una precisión en cada conjunto de datos de elección múltiple de MultiMedQA, superando el estado anterior en más del 17%. Sin embargo, la evaluación humana permitió revelar algunas limitaciones clave.

De esta manera, para abordar estas limitaciones, introdujeron un enfoque llamado “instruction prompt tuning”, que es una forma eficiente de alinear LLMs con nuevos dominios usando ejemplos específicos. El modelo resultante, Med-PaLM, mostró resultados alentadores en su rendimiento sin embargo fue inferior al de los médicos.

Asimismo, el estudio destacó que la comprensión, la recuperación del conocimiento y el razonamiento mejoraron con el tamaño del modelo y el ajuste de las instrucciones, lo que sugiere la utilidad potencial de los LLMs en medicina. Sin embargo, también se revelaron limitaciones en los modelos actuales, subrayando la importancia de desarrollar marcos de evaluación y métodos para crear LLMs seguros y útiles para aplicaciones clínicas.

Entre las contribuciones alcanzadas a través de este estudio, los autores destacaron lo siguiente:

La primera contribución clave es un enfoque para evaluar los LLMs en el contexto de preguntas médicas. HealthSearchQA, fue definido como un conjunto de datos de 3,173 preguntas médicas de consumidores comúnmente buscadas. Además, presentaron otros seis conjuntos de datos abiertos existentes para responder preguntas médicas, que abarcan exámenes médicos, investigaciones médicas y preguntas médicas de consumidores. Esto permitirá evaluar el conocimiento clínico y las capacidades de respuesta de los LLMs.
La segunda contribución clave fue la capacidad de demostrar un rendimiento líder en los conjuntos de datos MedQA, MedMCQA, PubMedQA y MMLU utilizando Flan-PaLM. MedQA alcanzó una precisión del 67.6%; MedMCQA del 57.6%; y PubMedQA de 79%.
Asimismo, la introducción del instruction prompt tuning, como una técnica sencilla y eficiente para alinear LLMs con el dominio médico de seguridad crítica fue otro de los logros de esta investigación. Esto permite conocer las limitaciones de cada modelo en términos de fundamentos científicos en sus respuestas.

Los autores concluyeron que: “El advenimiento de los modelos básicos y los LLM presenta una oportunidad convincente para repensar el desarrollo de la IA médica y hacer que su uso sea más fácil, seguro y equitativo. Al mismo tiempo, la medicina es un dominio especialmente complejo para las aplicaciones de los LLM”.

Asimismo, destacaron que su investigación ofrece una visión de las oportunidades desafíos en la aplicación de estas soluciones a la medicina. De igual manera, reconocen que este estudio también pretende generar más conversaciones y colaboraciones entre los actores, como pacientes, consumidores, la comunidad científica, legisladores y otras partes interesadas.

Check the full study at the following link:

https://www.nature.com/articles/s41586-023-06291-2

BIBLIOGRAPHY

NATURE

https://www.nature.com/articles/s41586-023-06291-2

Outstanding news

Mobile Apps and Internet of Things

Google publicó un estudio en Nature en el cual investigadores examinaron el potencial real de los grandes modelos de lenguaje como PaLM.

Outstanding news

Study assesses the quality of mobile applications dedicated to chronic disease management

News by country

Related Content

Sociedad de Medicina Digital presentó nuevos recursos para explorar regulaciones de Salud Digital a nivel global

Programa SaludTIC en Colombia monitorea a cerca de 4 mil pacientes en todo el país

FDA publicó nuevas directrices para el control de cambios en soluciones de IA y machine learning

Telemedicina en Paraguay permite cerrar brechas en atención especializada

Subscribe to receive information and news:

Follow us: