Un estudio de la Universidad de Florida mostró que GPT-4 tuvo un rendimiento mejor que el promedio de estudiantes en siete de nueve exámenes de ciencias biomédicas.
Un study published in Scientific Reports por investigadores de la Universidad de Florida (UF) evaluó el desempeño de GPT-4 el modelo de lenguaje (LLM, en inglés) que impulsa ChatGPT, uno de los chatbots más conocidos, en exámenes de posgrado en ciencias biomédicas.
GPT-4 ha tenido un buen desempeño en exámenes estandarizados de opción múltiple, no obstante, los investigadores explican que es necesaria una evaluación adicional de la confiabilidad y precisión de las respuestas del chatbot en varios dominios de conocimiento antes de utilizarlo como un recurso de referencia.
El estudio evaluó el desempeño de GPT-4 en nueve exámenes de posgrado en ciencias biomédicas, y los resultaron mostraron que los puntajes del GPT-4 superaron el promedio de los estudiantes en siete de nueve casos y superaron todos los puntajes de los estudiantes en cuatro exámenes.
Asimismo, GPT-4 tuvo un gran desempeño en preguntas para completar espacios en blanco, de respuesta corta y de ensayo, y respondió correctamente a varias preguntas sobre figuras extraídas de manuscritos publicados. No obstante, obtuvo malos resultados en preguntas con figuras que contienen datos simulados y aquellas que requieren una respuesta dibujada a mano.
Además, dos conjuntos de respuestas de GPT-4 se marcaron como plagio de acuerdo con la similitud de las respuestas y algunas respuestas modelo incluían “alucinaciones” detalladas o desvaríos claros en las respuestas, es decir que generó datos ficticios. Los investigadores, también analizaron patrones y limitaciones en las capacidades de GPT-4 con el objetivo de informar el diseño de futuros exámenes académicos en la era de los chatbots.
“Aunque las respuestas sobre temas de nivel experto tuvieron una precisión muy alta en promedio, no recomendaríamos confiar todavía en ChatGPT/GPT-4 para proporcionar información precisa como único recurso”, explicó el autor principal Daniel Stribling, de Facultad de Medicina de la UF.
El estudio mostró que GPT-4 cuenta con una capacidad excepcional para responder preguntas de nivel experto en disciplinas de ciencias biomédicas sin ningún entrenamiento previo. “De manera similar a la llegada de la imprenta, en la era de los chatbots es posible que necesitemos adaptar nuestros paradigmas a estas nuevas tecnologías y evaluar críticamente si ahora existe una frontera distinguible entre ‘herramienta de edición’ y ‘coautor’, lo que tendrá implicaciones significativas en las evaluaciones educativas en el futuro”, dijo Stribling.
Finalmente, el estudio destaca la importancia de debates abiertos acerca del uso apropiado de estas herramientas emergentes en la ciencia y en la educación. Esta clase de modelos tienen el potencial de convertirse en herramientas de consulta sobre cualquier tipo de información, sin embargo, aunque la mayoría de la información que genere el chatbot será fiable, es posible que genere también información incorrecta y la presente de manera convincente. Por ello es necesario validarse sus capacidades y confiablidad antes de su adopción generalizada en la academia.