Investigadores de UCLA realizaron in análisis detallado de la capacidad diagnóstica y de triaje de GPT-4 en comparación con médicos certificados y la influencia de factores raciales y étnicos en sus decisiones.
Un estudio desarrollado por investigadores de la Universidad de California, Los Ángeles (UCLA), realizaron un análisis sobre la capacidad diagnóstica y de triaje del modelo de lenguaje basado en inteligencia artificial (IA) conversacional, GPT-4, en el que está basado el reconocido chatbot ChatGPT. El estudio se centró en evaluar la precisión de GPT-4, en el diagnóstico y triaje de condiciones de salud, así como en la posible presencia de sesgos raciales y étnicos en sus decisiones. La importancia de este análisis radica en comprender si GPT-4 puede desempeñar un papel efectivo y equitativo en comparación con médicos certificados, especialmente en un contexto como el actual donde el uso de herramientas digitales y de IA en la atención médica está aumentando.
El estudio comparó el rendimiento de GPT-4 con el de médicos certificados utilizando 45 viñetas clínicas típicas, cada una con un diagnóstico y nivel de triaje correctos. Los resultados revelaron que la precisión del diagnóstico de GPT-4 fue comparable a la de los médicos certificados, con un 97.8% de diagnósticos correctos en comparación con el 91.1% de los médicos. Además, GPT-4 demostró un razonamiento apropiado en el 97.8% de las viñetas.
Asimismo, los investigadores analizaron específicamente si el rendimiento de GPT-4 variaba según la raza y etnia del paciente, incorporando esta información a las viñetas clínicas. Los resultados indicaron que la precisión de GPT-4 no varió significativamente entre diferentes grupos raciales y étnicos, manteniendo un 100% de precisión en todos los casos.
En cuanto al triaje, GPT-4 mostró una comparabilidad en rendimiento con los médicos certificados, sin demostrar diferencias significativas al condicionar la información de raza y etnia. Estos resultados sugieren que la capacidad de GPT-4 para diagnosticar y realizar triajes de condiciones de salud es similar a la de profesionales médicos certificados, y su desempeño no se ve afectado por factores raciales o étnicos.
“Las conclusiones de nuestro estudio deberían ser tranquilizadoras para los pacientes, ya que indican que los modelos lingüísticos de gran tamaño como el GPT-4 son prometedores a la hora de proporcionar diagnósticos médicos precisos sin introducir sesgos raciales y étnicos”, explicó el Dr. Yusuke Tsugawa, autor principal y profesor asociado de medicina en de la Facultad de Medicina David Geffen de la UCLA. No obstante, el Dr. Tsugawa reconoció que es importante la supervisión continua de esta clase de modelos para detectar posibles sesgos, ya que pueden cambiar de acuerdo con el tipo de información que reciban.
You can consult the full study at the following link: