Un estudio mostró el uso de GPT-4 para mejorar el desempeño de los médicos en tareas de atención al paciente.
Los chatbots de inteligencia artificial (IA) continúan mejorando en tareas de diagnóstico de ciertas enfermedades, sin embargo, cuando las preguntas son más complejas o no cuentan con una respuesta específica, son los médicos los que tienen que ayudar a la IA. En un nuevo estudio publicado en Nature Medicine, un equipo de investigadores de Stanford Medicine liderados por el Dr. Jonathan H. Chen, exploran el uso de GPT-4 en tareas de razonamiento clínico y cómo pueden mejorar la toma de decisiones de los médicos.
El estudio se centra en evaluar el impacto de los grandes modelos de lenguaje grandes (LLMs, en inglés), como GPT-4, en el razonamiento clínico de los médicos, específicamente en tareas relacionadas con la toma de decisiones de manejo clínico. Estas decisiones incluyen equilibrar opciones de tratamiento, estrategias de pruebas y manejo de riesgos. Aunque los LLMs han demostrado ser prometedores en tareas de diagnóstico, su utilidad en el razonamiento de manejo clínico no estaba clara antes de este estudio.
De esta manera, el objetivo principal fue determinar si el uso de GPT-4, junto con recursos convencionales (como libros de texto y guías clínicas), mejora el desempeño de los médicos en comparación con el uso exclusivo de recursos convencionales.

El estudio fue un ensayo controlado aleatorizado prospectivo durante el periodo noviembre 2023 a abril 2024, en el cual participaron 92 médicos en ejercicio. Los médicos fueron asignados aleatoriamente a dos grupos, el grupo de intervención, el cual utilizó GPT-4 junto con recursos convencionales y el grupo control, que solo utilizó recursos convencionales.
Ambos grupos respondieron a cinco viñetas clínicas (casos simulados basados en encuentros reales con pacientes, pero des identificados). La información se reveló de manera secuencial para imitar el entorno clínico real.
Los resultados mostraron que los médicos que usaron GPT-4 obtuvieron puntuaciones significativamente más altas en comparación con aquellos que usaron solo recursos convencionales. Asimismo, los médicos que usaron GPT-4 dedicaron más tiempo a cada caso.
El estudio concluyó que la asistencia de GPT-4 puede mejorar el razonamiento de manejo clínico de los médicos en casos complejos, en comparación con el uso exclusivo de recursos convencionales. Sin embargo, los autores sugieren que estos hallazgos deben validarse en entornos de práctica clínica real.
Este estudio tiene diversas implicaciones sobre el uso de LLM en la toma de decisiones clínicas ya que, GPT-4 y otros modelos podrían ser una herramienta útil para apoyar a los médicos en la toma de decisiones complejas, especialmente en situaciones donde se requiere equilibrar múltiples factores como tratamientos, pruebas y riesgos.
No obstante, será necesaria una validación futura. Por lo que es necesario realizar más estudios en entornos clínicos reales para confirmar estos resultados y evaluar cómo integrar GPT-4 u otros LLM en la práctica médica diaria.