Investigadores evalúan el rendimiento académico de GPT-4

Un estudio de la Universidad de Florida mostró que GPT-4 tuvo un rendimiento mejor que el promedio de estudiantes en siete de nueve exámenes de ciencias biomédicas.

Un study published in Scientific Reports por investigadores de la Universidad de Florida (UF) evaluó el desempeño de GPT-4 el modelo de lenguaje (LLM, en inglés) que impulsa ChatGPT, uno de los chatbots más conocidos, en exámenes de posgrado en ciencias biomédicas.

GPT-4 ha tenido un buen desempeño en exámenes estandarizados de opción múltiple, no obstante, los investigadores explican que es necesaria una evaluación adicional de la confiabilidad y precisión de las respuestas del chatbot en varios dominios de conocimiento antes de utilizarlo como un recurso de referencia.

El estudio evaluó el desempeño de GPT-4 en nueve exámenes de posgrado en ciencias biomédicas, y los resultaron mostraron que los puntajes del GPT-4 superaron el promedio de los estudiantes en siete de nueve casos y superaron todos los puntajes de los estudiantes en cuatro exámenes.

In addition, GPT-4 tuvo un gran desempeño en preguntas para completar espacios en blanco, de respuesta corta y de ensayo, y respondió correctamente a varias preguntas sobre figuras extraídas de manuscritos publicados. No obstante, obtuvo malos resultados en preguntas con figuras que contienen datos simulados y aquellas que requieren una respuesta dibujada a mano.

Además, dos conjuntos de respuestas de GPT-4 se marcaron como plagio de acuerdo con la similitud de las respuestas y algunas respuestas modelo incluían “alucinaciones” detalladas o desvaríos claros en las respuestas, es decir que generó datos ficticios. Los investigadores, también analizaron patrones y limitaciones en las capacidades de GPT-4 con el objetivo de informar el diseño de futuros exámenes académicos en la era de los chatbots.

“Aunque las respuestas sobre temas de nivel experto tuvieron una precisión muy alta en promedio, no recomendaríamos confiar todavía en ChatGPT/GPT-4 para proporcionar información precisa como único recurso”, explicó el autor principal Daniel Stribling, de Facultad de Medicina de la UF.

El estudio mostró que GPT-4 cuenta con una capacidad excepcional para responder preguntas de nivel experto en disciplinas de ciencias biomédicas sin ningún entrenamiento previo. “De manera similar a la llegada de la imprenta, en la era de los chatbots es posible que necesitemos adaptar nuestros paradigmas a estas nuevas tecnologías y evaluar críticamente si ahora existe una frontera distinguible entre ‘herramienta de edición’ y ‘coautor’, lo que tendrá implicaciones significativas en las evaluaciones educativas en el futuro”, dijo Stribling.

Finalmente, el estudio destaca la importancia de debates abiertos acerca del uso apropiado de estas herramientas emergentes en la ciencia y en la educación. Esta clase de modelos tienen el potencial de convertirse en herramientas de consulta sobre cualquier tipo de información, sin embargo, aunque la mayoría de la información que genere el chatbot será fiable, es posible que genere también información incorrecta y la presente de manera convincente. Por ello es necesario validarse sus capacidades y confiablidad antes de su adopción generalizada en la academia.

BIBLIOGRAPHY

NATURE

https://doi.org/10.1038/s41598-024-55568-7

UF HEALTH

https://ufhealth.org/news/2024/uf-researchers-evaluate-academic-performance-of-chatbots

Outstanding news

Connected communities

Un estudio de la Universidad de Florida mostró que GPT-4 tuvo un rendimiento mejor que el promedio de estudiantes en siete de nueve exámenes de ciencias biomédicas.

Outstanding news

Health Services in La Paz, Bolivia presented an online consultation and diagnostic chatbot for people with COVID-19 symptoms

Stay updated

News by country

Related Content

Instituto Nacional de Rehabilitación de Perú extiende sus servicios de teleinterconsulta a la región Amazonas

El Instituto Nacional de Nutrición impulsa una estrategia de Salud Digital; incluye teleconsulta, teleasistencia y educación médica en línea

Perú inicia la implementación del Plan Nacional de Telesalud 2026 para ampliar la cobertura sanitaria en zonas remotas

C5 de CDMX activa telemedicina para emergencias en inglés para turistas durante el Mundial de Futbol

Subscribe to receive information and news:

Follow us: