Salud Digital | Las capacidades y limitaciones de los grandes modelos de lenguaje en el resumen de evidencia clínica

Las capacidades y limitaciones de los grandes modelos de lenguaje en el resumen de evidencia clínica

Un estudio comparó los resúmenes de evidencia clínica generados por humanos con resúmenes generados por ChatGPT.

Los grandes modelos de lenguaje (LLM, en inglés) han demostrado un gran avance en tiempos recientes. Los LLM, han emergido como una tecnología revolucionaria en el campo de la inteligencia artificial (IA) y el procesamiento del lenguaje natural (PLN). Estos modelos representan una nueva generación de herramientas que son capaces de entender y generar lenguaje humano con un alto nivel de precisión y coherencia.

Este tipo de modelos a menudo son utilizados para realizar resúmenes de textos, sin embargo, también existen LLM pre entrenados que realizan ese tipo de tareas. En este sentido, los LLM pueden aplicarse al campo médico y clínico, especialmente para reducir tiempos en el resumen de información y evidencia médica. Un estudio reciente realizó un análisis de uno de los LLM más populares, como lo es GPT-3.5, en la realización de resúmenes de evidencia médica en dominios clínicos.

En el artículo publicado en npj Digital Medicine journal, los autores llevaron a cabo evaluaciones automáticas y humanas para analizar la calidad de los resúmenes generados por ChatGPT en diferentes aspectos. Además, encontraron que las métricas automáticas no siempre coinciden con la calidad real de los resúmenes e identificaron tipos de errores en los resúmenes médicos generados por LLM, como inconsistencias objetivas y declaraciones engañosas o inciertas.

Estos hallazgos destacan la posibilidad de que los LLM generen información incorrecta o imprecisa. De igual forma identificaron que los LLM tienen dificultades para identificar información relevante y pueden cometer más errores al resumir textos más largos.

Los investigadores se enfocaron en resumir Cochrane Reviews, una revisión sistemática de investigación en atención médica y políticas de salud que se publica en Cochrane Library una colección independiente de evidencia científica sobre atención en salud. Los LLM resumieron Cochrane Reviews de seis dominios clínicos, como enfermedad de Alzheimer, enfermedad renal, cáncer de esófago, condiciones neurológicas, trastornos de la piel e insuficiencia cardíaca. De esta manera, analizaron resúmenes de estudios en estos campos, los cuales son utilizados como fuentes clave de información para los profesionales de la salud y la investigación médica.

En la comparación entre los resúmenes redactados por humanos y los generados por LLM los autores observaron que los resúmenes generados por humanos contienen una mayor proporción (28%) de errores fabricados, lo que se traduce en una mayor incoherencia. No obstante, también destacan que es necesario abordar esos hallazgos con cautela ya que la evaluación humana de los resúmenes generados por personas se basa únicamente en los resúmenes de las revisiones Cochrane. Es decir, que existe la posibilidad de que las afirmaciones que se consideren que contienen errores fabricados puedan ser validadas por otras secciones dentro de las mismas revisiones sistemáticas Cochrane completas.

Además, la evaluación de resúmenes de los seis dominios requiere conocimientos específicos, lo que dificulta su realización por parte de personas no expertas, lo que limitó la cantidad total de resúmenes realizados. Asimismo, los autores utilizaron sólo los resúmenes de las revisiones Cochrane para evaluar los resúmenes generados por personas ya que examinar las revisiones sistemáticas completas es un proceso que requiere mucho tiempo. Por lo tanto, como se mencionó antes es posible que algunos de los errores identificados en los resúmenes de referencia humanos estén en realidad corroborados por otras secciones de la revisión completa.

You can consult the full study at the following link:

https://www.nature.com/articles/s41746-023-00896-7

BIBLIOGRAPHY

NATURE

https://www.nature.com/articles/s41746-023-00896-7

Outstanding news

AI ANALYTICS

Machine Learning for patients at risk of heart attack

Digital Health in the world

— Science Brief: Omicron (B.1.1.529) Variant/CDC updates
See more
—Coronavirus resource center/Johns Hopkins
See more
— Epidemiological tracing of COVID-19 contacts / Johns Hopkins Course
See more
— SARS-CoV-2 infection behavior / FCS calculator
See more
— Omicron SARS-CoV-2 variant: a new chapter in the COVID-19 pandemic/ Article The Lancet
See more
—Genomic Epidemiology Tracker/GISAID
See more
— Mexican Genomic Surveillance Consortium
See more

Un estudio comparó los resúmenes de evidencia clínica generados por humanos con resúmenes generados por ChatGPT.

Outstanding news

Machine Learning for patients at risk of heart attack

News by country

Share

Digital Health in the world

— Science Brief: Omicron (B.1.1.529) Variant/CDC updates

—Coronavirus resource center/Johns Hopkins

— Epidemiological tracing of COVID-19 contacts / Johns Hopkins Course

— SARS-CoV-2 infection behavior / FCS calculator

— Omicron SARS-CoV-2 variant: a new chapter in the COVID-19 pandemic/ Article The Lancet

—Genomic Epidemiology Tracker/GISAID

— Mexican Genomic Surveillance Consortium

Related Content

Cámara de Diputados realiza foro de Medicina de Precisión

Six Latin American countries are preparing a common vaccination certificate

Perspectivas y lecciones sobre las tecnologías móviles durante COVID-19

Countries in South America apply PAHO software for epidemiological surveillance

Subscribe to receive information about our events:

Follow us: