Un estudio comparativo revela que LLMs como ChatGPT, Gemini, Claude y DeepSeek ofrecen resultados consistentes en inglés y turco al responder preguntas clínicas especializadas
The artificial intelligence (AI) está transformando la práctica odontológica, desde el diseño digital de prótesis hasta la educación médica y la toma de decisiones clínicas. En particular, los avances en grandes modelos de lenguaje (LLMs, en inglés) han abierto nuevas oportunidades para apoyar tanto la enseñanza como la práctica clínica. Estos sistemas, capaces de procesar lenguaje natural y generar texto coherente y contextual, pueden asistir en diagnósticos, planificación de tratamientos y respuesta a preguntas frecuentes de pacientes.
En la especialidad de prostodoncia maxilofacial, los retos son complejos, pues esta rama se encarga de rehabilitar funcional y estéticamente a pacientes con defectos congénitos o adquiridos en la región facial y mandibular, mediante prótesis personalizadas. Tradicionalmente, su fabricación ha sido un proceso artesanal, tardado y de corta duración, pero la digitalización, mediante herramientas CAD/CAM, escaneo 3D e impresión tridimensional, ha revolucionado el campo. Actualmente, la integración de la AI promete optimizar aún más el diseño, la precisión y la educación clínica asociada a este tipo de tratamientos.
Sin embargo, a pesar de los rápidos avances, existe la necesidad de evaluar la fiabilidad y consistencia de estas tecnologías, especialmente en contextos multilingües y especializados. Con este propósito, investigadores de la Universidad de Hacettepe, en Turquía, realizaron una comparación sistemática del rendimiento de cuatro LLMs: ChatGPT-4o, Gemini 2.5 Flash, Claude Sonnet 4 y DeepSeek V3, al responder preguntas sobre prostodoncia maxilofacial tanto en inglés como en turco.
El estudio, publicado en la revista BMC Oral Health, evaluó la capacidad de los modelos para responder 45 preguntas de opción múltiple derivadas del libro Clinical Maxillofacial Prosthetics de Thomas D. Taylor, una referencia fundamental en esta disciplina. Las respuestas fueron analizadas por tres prostodoncistas expertos, quienes calificaron la exactitud y calidad explicativa de cada modelo en una escala de tres puntos.
Los resultados mostraron un rendimiento comparable entre los cuatro modelos, sin diferencias estadísticamente significativas entre ellos ni entre las versiones en inglés y turco. Gemini 2.5 Flash obtuvo la mayor precisión en inglés (81.1%), mientras que Claude Sonnet 4 y DeepSeek V3 destacaron en turco (78.9%). ChatGPT-4o mantuvo una consistencia casi perfecta entre ambos idiomas (71–72%).
Además, según los autores, las correlaciones estadísticas entre los resultados bilingües fueron positivas y significativas, lo que indica que los modelos conservaron un desempeño estable independientemente del idioma de la pregunta. Este hallazgo sugiere un creciente crecimiento multilingüe en los LLMs más recientes y una posible utilidad en la enseñanza dental global.
El estudio también destacó la importancia de evaluar a los modelos bajo condiciones controladas, sin interacción previa ni ajustes de memoria, para evitar sesgos. Asimismo, los investigadores señalaron que la consistencia intermodelo y entre lenguas refleja una convergencia en el entrenamiento y las capacidades de comprensión de estos sistemas, pese a sus diferencias arquitectónicas.
De acuerdo con los autores, los resultados refuerzan el potencial de los modelos de lenguaje como herramientas complementarias en educación odontológica y apoyo clínico, especialmente en entornos multilingües. No obstante, advierten que su uso debe mantenerse bajo supervisión humana, ya que las limitaciones actuales, como la generación de información incorrecta o el uso indebido en entornos académicos, representan riesgos éticos y prácticos.




