Google publicó un estudio en Nature en el cual investigadores examinaron el potencial real de los grandes modelos de lenguaje como PaLM.
Recientemente Google publicó un estudio en Nature en el cual investigadores analizaron qué tan grandes pueden ser los modelos de lenguaje (LLM, en inglés) de inteligencia artificial (IA) generativa y cuál es su potencial en la respuesta de preguntas médicas.
El estudio examinó los LLMs y el potencial de sus aplicaciones clínicas en la medicina. Para ello crearon un nuevo conjunto de datos denominado MultiMedQA que combina seis conjuntos de datos existentes de preguntas y respuestas médicas, que abarcan consultas profesionales, investigaciones y consultas de consumidores. Los autores propusieron un marco de evaluación humana para las respuestas del modelo en varios aspectos, como veracidad, comprensión, razonamiento, posibles daños y sesgos.
Además, se evaluó el modelo Pathways Language Model (PaLM), un LLM con 540 mil millones de parámetros, y su variante ajustada para instrucciones, Flan-PaLM2, en MultiMedQA. En este sentido, Flan-PaLM logró una precisión en cada conjunto de datos de elección múltiple de MultiMedQA, superando el estado anterior en más del 17%. Sin embargo, la evaluación humana permitió revelar algunas limitaciones clave.
De esta manera, para abordar estas limitaciones, introdujeron un enfoque llamado “instruction prompt tuning”, que es una forma eficiente de alinear LLMs con nuevos dominios usando ejemplos específicos. El modelo resultante, Med-PaLM, mostró resultados alentadores en su rendimiento sin embargo fue inferior al de los médicos.
Asimismo, el estudio destacó que la comprensión, la recuperación del conocimiento y el razonamiento mejoraron con el tamaño del modelo y el ajuste de las instrucciones, lo que sugiere la utilidad potencial de los LLMs en medicina. Sin embargo, también se revelaron limitaciones en los modelos actuales, subrayando la importancia de desarrollar marcos de evaluación y métodos para crear LLMs seguros y útiles para aplicaciones clínicas.
Entre las contribuciones alcanzadas a través de este estudio, los autores destacaron lo siguiente:
- La primera contribución clave es un enfoque para evaluar los LLMs en el contexto de preguntas médicas. HealthSearchQA, fue definido como un conjunto de datos de 3,173 preguntas médicas de consumidores comúnmente buscadas. Además, presentaron otros seis conjuntos de datos abiertos existentes para responder preguntas médicas, que abarcan exámenes médicos, investigaciones médicas y preguntas médicas de consumidores. Esto permitirá evaluar el conocimiento clínico y las capacidades de respuesta de los LLMs.
- La segunda contribución clave fue la capacidad de demostrar un rendimiento líder en los conjuntos de datos MedQA, MedMCQA, PubMedQA y MMLU utilizando Flan-PaLM. MedQA alcanzó una precisión del 67.6%; MedMCQA del 57.6%; y PubMedQA de 79%.
- Asimismo, la introducción del instruction prompt tuning, como una técnica sencilla y eficiente para alinear LLMs con el dominio médico de seguridad crítica fue otro de los logros de esta investigación. Esto permite conocer las limitaciones de cada modelo en términos de fundamentos científicos en sus respuestas.
Los autores concluyeron que: “El advenimiento de los modelos básicos y los LLM presenta una oportunidad convincente para repensar el desarrollo de la IA médica y hacer que su uso sea más fácil, seguro y equitativo. Al mismo tiempo, la medicina es un dominio especialmente complejo para las aplicaciones de los LLM”.
Asimismo, destacaron que su investigación ofrece una visión de las oportunidades desafíos en la aplicación de estas soluciones a la medicina. De igual manera, reconocen que este estudio también pretende generar más conversaciones y colaboraciones entre los actores, como pacientes, consumidores, la comunidad científica, legisladores y otras partes interesadas.
Check the full study at the following link: