Filtrar por tipo de entrada
Seleccionar todo
Noticias
Páginas
Eventos
Filtrar por categorías
Seleccionar todo
AI ANALITICA
Apps móviles e Internet de las Cosas
Avance de la ciencia
Big data
Comunidades conectadas
Coronavirus
Cursos y capacitaciones
DIAGNOSTICO
Editorial inicial
Editoriales
El mundo en la nube
Eventos
Infografías
Inteligencia Artificial y Ciencia
IoTApps
Noticias
Plataformas digitales
Redes sociales
Reseña de publicaciones científicas
Resumen de Cursos
Sinopsis de ensayo
Sinopsis de Marcos de Referencia
Sinopsis de publicaciones recientes
Uso de Plataformas Digitales
Investigadores evalúan el rendimiento académico de GPT-4

Un estudio de la Universidad de Florida mostró que GPT-4 tuvo un rendimiento mejor que el promedio de estudiantes en siete de nueve exámenes de ciencias biomédicas.

Un estudio publicado en Scientific Reports por investigadores de la Universidad de Florida (UF) evaluó el desempeño de GPT-4 el modelo de lenguaje (LLM, en inglés) que impulsa ChatGPT, uno de los chatbots más conocidos, en exámenes de posgrado en ciencias biomédicas.

GPT-4 ha tenido un buen desempeño en exámenes estandarizados de opción múltiple, no obstante, los investigadores explican que es necesaria una evaluación adicional de la confiabilidad y precisión de las respuestas del chatbot en varios dominios de conocimiento antes de utilizarlo como un recurso de referencia.

El estudio evaluó el desempeño de GPT-4 en nueve exámenes de posgrado en ciencias biomédicas, y los resultaron mostraron que los puntajes del GPT-4 superaron el promedio de los estudiantes en siete de nueve casos y superaron todos los puntajes de los estudiantes en cuatro exámenes.


Asimismo, GPT-4 tuvo un gran desempeño en preguntas para completar espacios en blanco, de respuesta corta y de ensayo, y respondió correctamente a varias preguntas sobre figuras extraídas de manuscritos publicados. No obstante, obtuvo malos resultados en preguntas con figuras que contienen datos simulados y aquellas que requieren una respuesta dibujada a mano.

Además, dos conjuntos de respuestas de GPT-4 se marcaron como plagio de acuerdo con la similitud de las respuestas y algunas respuestas modelo incluían “alucinaciones” detalladas o desvaríos claros en las respuestas, es decir que generó datos ficticios. Los investigadores, también analizaron patrones y limitaciones en las capacidades de GPT-4 con el objetivo de informar el diseño de futuros exámenes académicos en la era de los chatbots.

“Aunque las respuestas sobre temas de nivel experto tuvieron una precisión muy alta en promedio, no recomendaríamos confiar todavía en ChatGPT/GPT-4 para proporcionar información precisa como único recurso”, explicó el autor principal Daniel Stribling, de Facultad de Medicina de la UF.

El estudio mostró que GPT-4 cuenta con una capacidad excepcional para responder preguntas de nivel experto en disciplinas de ciencias biomédicas sin ningún entrenamiento previo. “De manera similar a la llegada de la imprenta, en la era de los chatbots es posible que necesitemos adaptar nuestros paradigmas a estas nuevas tecnologías y evaluar críticamente si ahora existe una frontera distinguible entre ‘herramienta de edición’ y ‘coautor’, lo que tendrá implicaciones significativas en las evaluaciones educativas en el futuro”, dijo Stribling.

Finalmente, el estudio destaca la importancia de debates abiertos acerca del uso apropiado de estas herramientas emergentes en la ciencia y en la educación. Esta clase de modelos tienen el potencial de convertirse en herramientas de consulta sobre cualquier tipo de información, sin embargo, aunque la mayoría de la información que genere el chatbot será fiable, es posible que genere también información incorrecta y la presente de manera convincente. Por ello es necesario validarse sus capacidades y confiablidad antes de su adopción generalizada en la academia.

Noticias destacadas

Noticias por país

Contenidos Relacionados

Secured By miniOrange