El modelo de razonamiento o1 de OpenAI obtuvo una precisión del 97.5% en preguntas del examen de licencia médica de Estados Unidos, superando a estudiantes y médicos en evaluación de comunicación, ética y profesionalismo.
Un estudio publicado en Scientific Reports revela que los grandes modelos de lenguaje (LLM, en inglés), más recientes, especialmente aquellos diseñados para razonar paso a paso, pueden desempeñarse mejor que los humanos en la resolución de situaciones clínicas que exigen habilidades sociales. Estas habilidades, como la comunicación con pacientes, la ética médica y la toma de decisiones profesionales, son clave para la práctica médica y forman parte de los exámenes de licencia en medicina de Estados Unidos.
Investigadores de la Universidad King Saud, en Arabia Saudita, compararon el desempeño de cinco modelos de lenguaje: GPT-4, GPT-4o y o1 de OpenAI, además de Gemini 1.5 Pro de Google y una versión preliminar llamada o1-preview. Para ello, utilizaron 40 preguntas del banco de datos UWORLD del United States Medical Licensing Examination (USMLE), que evalúan la capacidad de los aspirantes para aplicar principios éticos y comunicativos en contextos médicos reales.
El modelo o1, basado en razonamiento encadenado, obtuvo el mejor resultado al acertar 39 de 40 preguntas (97.5%), superando el promedio de los usuarios humanos del banco UWORLD (64%). Los modelos GPT-4o y Gemini 1.5 Pro empataron en segundo lugar con un 87.5%, seguidos por o1-preview (77.5%) y GPT-4 (75%).
Al analizar las categorías específicas, o1 logró puntajes perfectos en ética médica, seguridad del paciente y política sanitaria. GPT-4o destacó en comunicación e interacción interpersonal, mientras que Gemini 1.5 Pro se distinguió en áreas de política y calidad del sistema de salud. Estos resultados sugieren que, aunque los modelos de IA pueden tener distintos puntos fuertes, todos superaron el desempeño promedio de los médicos y estudiantes evaluados.
Según, los autores, se registraron diferencias en la consistencia de los modelos. Por ejemplo, mientras o1 mantuvo respuestas firmes y coherentes, o1-preview cambió sus decisiones en un 30% de los casos tras ser cuestionado con la pregunta “¿Estás seguro?”, lo que redujo su puntuación final. Este hallazgo muestra cómo el razonamiento estructurado mejora la estabilidad y confianza de las respuestas.
El estudio destaca el creciente potencial de los modelos de lenguaje con capacidad de razonamiento para complementar la educación médica y apoyar la formación en habilidades sociales, un aspecto históricamente reservado a los humanos. Los autores advierten, sin embargo, que aún deben abordarse riesgos como los sesgos culturales y la dependencia excesiva de la IA en la toma de decisiones éticas.
El avance de estos sistemas marca un punto de inflexión en la inteligencia artificial aplicada a la medicina, al demostrar que las máquinas pueden aprender no solo a diagnosticar, sino también a comunicarse y razonar con empatía y juicio moral.




