Filter by input type
Select all
News
Pages
Events
Filter by category
Select all
AI ANALYTICS
Mobile Apps and Internet of Things
Advancement of science
big data
Connected communities
Coronavirus
Courses and training
DIAGNOSIS
Initial Editorial
Editorials
A world in the cloud
Events
Infographics
Artificial Intelligence and Science
IoT Apps
News
Digital platforms
Social networks
Review of scientific publications
Course Summary
Synopsis of essay
Overview of reference frames
Synopsis of recent publications
Use of Digital Platforms
Investigadores evalúan el rendimiento académico de GPT-4

Un estudio de la Universidad de Florida mostró que GPT-4 tuvo un rendimiento mejor que el promedio de estudiantes en siete de nueve exámenes de ciencias biomédicas.

Un study published in Scientific Reports por investigadores de la Universidad de Florida (UF) evaluó el desempeño de GPT-4 el modelo de lenguaje (LLM, en inglés) que impulsa ChatGPT, uno de los chatbots más conocidos, en exámenes de posgrado en ciencias biomédicas.

GPT-4 ha tenido un buen desempeño en exámenes estandarizados de opción múltiple, no obstante, los investigadores explican que es necesaria una evaluación adicional de la confiabilidad y precisión de las respuestas del chatbot en varios dominios de conocimiento antes de utilizarlo como un recurso de referencia.

El estudio evaluó el desempeño de GPT-4 en nueve exámenes de posgrado en ciencias biomédicas, y los resultaron mostraron que los puntajes del GPT-4 superaron el promedio de los estudiantes en siete de nueve casos y superaron todos los puntajes de los estudiantes en cuatro exámenes.


Asimismo, GPT-4 tuvo un gran desempeño en preguntas para completar espacios en blanco, de respuesta corta y de ensayo, y respondió correctamente a varias preguntas sobre figuras extraídas de manuscritos publicados. No obstante, obtuvo malos resultados en preguntas con figuras que contienen datos simulados y aquellas que requieren una respuesta dibujada a mano.

Además, dos conjuntos de respuestas de GPT-4 se marcaron como plagio de acuerdo con la similitud de las respuestas y algunas respuestas modelo incluían “alucinaciones” detalladas o desvaríos claros en las respuestas, es decir que generó datos ficticios. Los investigadores, también analizaron patrones y limitaciones en las capacidades de GPT-4 con el objetivo de informar el diseño de futuros exámenes académicos en la era de los chatbots.

“Aunque las respuestas sobre temas de nivel experto tuvieron una precisión muy alta en promedio, no recomendaríamos confiar todavía en ChatGPT/GPT-4 para proporcionar información precisa como único recurso”, explicó el autor principal Daniel Stribling, de Facultad de Medicina de la UF.

El estudio mostró que GPT-4 cuenta con una capacidad excepcional para responder preguntas de nivel experto en disciplinas de ciencias biomédicas sin ningún entrenamiento previo. “De manera similar a la llegada de la imprenta, en la era de los chatbots es posible que necesitemos adaptar nuestros paradigmas a estas nuevas tecnologías y evaluar críticamente si ahora existe una frontera distinguible entre ‘herramienta de edición’ y ‘coautor’, lo que tendrá implicaciones significativas en las evaluaciones educativas en el futuro”, dijo Stribling.

Finalmente, el estudio destaca la importancia de debates abiertos acerca del uso apropiado de estas herramientas emergentes en la ciencia y en la educación. Esta clase de modelos tienen el potencial de convertirse en herramientas de consulta sobre cualquier tipo de información, sin embargo, aunque la mayoría de la información que genere el chatbot será fiable, es posible que genere también información incorrecta y la presente de manera convincente. Por ello es necesario validarse sus capacidades y confiablidad antes de su adopción generalizada en la academia.

Related Content

Secured By miniOrange