Un estudio evaluó la eficacia y precisión de chatbots basados en inteligencia artificial en tareas de simplificación de informes médicos.
Los informes de patología anatómica contienen información diagnóstica y pronóstica esencial para la atención médica. Sin embargo, aunque los pacientes suelen tener acceso a sus resultados en línea, estos informes suelen ser complejos y difíciles de entender para el público general. De esta manera, los chatbots de inteligencia artificial (IA) tienen el potencial de simplificar estos informes para que sean más accesibles para los pacientes.
Un estudio reciente publicado en JAMA Network, por investigadores de Nueva York, tuvo como objetivo evaluar la capacidad de los chatbots de modelos de lenguaje de gran escala para explicar de manera precisa y comprensible los informes de patología a los pacientes.
Se trató de un estudio transversal que utilizó 1,134 informes de patología de un hospital con múltiples especialidades en Brooklyn, Nueva York, recopilados entre el 1 de enero de 2018 y el 31 de mayo de 2023. Además, se utilizaron dos chatbots: Bard de Google y ahora denominado Gemini (chatbot 1) y GPT-4 de OpenAI (chatbot 2). Cada chatbot fue instruido para explicar los informes en términos simples y extraer información clave. Posteriormente, las respuestas generadas se compararon en términos de legibilidad y precisión médica.
Los resultados arrojaron que ambos chatbots lograron reducir significativamente el nivel de lectura de los informes de patología. El nivel de grado de Flesch-Kincaid, una prueba de legibilidad de facilidad de lectura, disminuyó de un promedio de 13.19 a 8.17 por el chatbot 1 y a 7.45 por el chatbot 2. Por otro lado, la puntuación de la prueba de legibilidad Flesch Reading Ease aumentó de 10.32 a 61.32 con el chatbot 1 y a 70.80 con el chatbot 2.
En este sentido, en términos de precisión, el chatbot 1, es decir Bard o Gemini, interpretó correctamente el 87.57% de los informes, parcialmente correctamente el 8.99% y de manera incorrecta el 3.44%. Por otra parte, el chatbot 2 o ChatGPT, tuvo una precisión superior, interpretando correctamente el 97.44% de los informes, parcialmente correctamente el 2.12% y de manera incorrecta el 0.44%.
Sin embargo, se identificaron instancias de alucinaciones, con 32 casos en el chatbot 1 y 3 en el chatbot 2. En el campo de la IA, una alucinación, es una respuesta que no está basada en datos reales y que no parece estar justificada por sus datos de entrenamiento, es decir información incorrecta o engañosa generada por un modelo de lenguaje de IA.
Finalmente, el estudio y los autores sugieren que los chatbots de IA pueden simplificar eficazmente los informes de patología, haciéndolos más accesibles y fáciles de entender para los pacientes. No obstante, es importante resaltar que detectaron algunas inexactitudes y alucinaciones, lo que indica la necesidad de que estos informes simplificados sean revisados previamente por profesionales de la salud para poder ser entregados a los pacientes.