Investigadores pusieron a prueba los modelos de IA generativa ChatGPT-3 y ChatGPT-4 ante exámenes del Colegio Estadounidense de Gastroenterología.
Durante este año ha incrementado considerablemente la popularidad y el uso de herramientas basadas en inteligencia artificial (IA), la mayoría para la generación de texto o imágenes. Herramientas de IA generativa y conversacional como Bard y ChatGPT han sido aprovechadas para ser utilizadas con fines educativos en diversas disciplinas.
Recientemente un estudio publicado en American Journal of Gastroenterology (AJG), puso a prueba a los modelos de IA generativa GPT-3 y GPT-4 al aplicarles los exámenes de opción múltiple 2021 y 2022 del Colegio Estadounidense de Gastroenterología (ACG, en inglés). El objetivo de este estudio fue probar el potencial educativo de esta clase de modelos, específicamente en la educación médica.
“Recientemente se ha prestado mucha atención al ChatGPT y al uso de la IA en diversos sectores. Cuando se trata de la educación médica, hay una falta de investigación en torno a esta herramienta innovadora potencial”, explicó el Dr. Arvind Trindade autor principal del estudio.
Ambos modelos de procesamiento de lenguaje natural fueron puestos a prueba y las mismas preguntas del examen fueron ingresadas de manera exacta. Para aprobar este examen es necesaria una calificación de 70% o superior.
Tanto el examen 2021 como el 2022 consisten en 300 preguntas de opción múltiple. Para la prueba ambos modelos respondieron 455 preguntas ya que se excluyeron 145 preguntas debido a requerimientos de imagen. GPT-3 respondió correctamente 296 preguntas, un 65.1% y GPT-4 respondió 284 preguntas un 62.4%. Es decir, ambos resultados fueron insuficientes para aprobar ambos exámenes.
Los autores explican que la falta de comprensión de temas por parte de ChatGPT, la hace una herramienta poco fiable para la educación médica al menos en gastroenterología. “Sobre la base de nuestra investigación, ChatGPT no debe utilizarse para la educación médica en gastroenterología en este momento y tiene un camino por recorrer antes de que deba ser implementado en el campo de la salud”, menciono el Dr. Trinidade.
Además, el acceso limitado a revistas médicas de suscripción o artículos de pago, puede ser una de las razones por las que ChatGPT se nutre de fuentes dudosas o incluso obsoletas o no relevantes dentro de la comunidad médica, lo que deriva en la generación de información errónea.
HEALTH IT ANALYTICS
AJG
https://journals.lww.com/ajg/Abstract/9900/Chat_Generative_Pretrained_Transformer_Fails_the.751.aspx
BUSINESS WIRE
https://www.businesswire.com/news/home/20230522005470/en/ChatGPT-flunks-American-College-of-Gastroenterology-exams-Feinstein-Institutes-reportLorem fistrum por la gloria de mi madre esse jarl aliqua llevame al sircoo. De la pradera ullamco qué dise usteer está la cosa muy malar.