Filter by input type
Filter by category
Modelos de IA superan el rendimiento humano promedio en habilidades sociales médicas

El modelo de razonamiento o1 de OpenAI obtuvo una precisión del 97.5% en preguntas del examen de licencia médica de Estados Unidos, superando a estudiantes y médicos en evaluación de comunicación, ética y profesionalismo.

A study published in Scientific Reports revela que los grandes modelos de lenguaje (LLM, en inglés), más recientes, especialmente aquellos diseñados para razonar paso a paso, pueden desempeñarse mejor que los humanos en la resolución de situaciones clínicas que exigen habilidades sociales. Estas habilidades, como la comunicación con pacientes, la ética médica y la toma de decisiones profesionales, son clave para la práctica médica y forman parte de los exámenes de licencia en medicina de Estados Unidos.

Investigadores de la Universidad King Saud, en Arabia Saudita, compararon el desempeño de cinco modelos de lenguaje: GPT-4, GPT-4o y o1 de OpenAI, además de Gemini 1.5 Pro de Google y una versión preliminar llamada o1-preview. Para ello, utilizaron 40 preguntas del banco de datos UWORLD del United States Medical Licensing Examination (USMLE), que evalúan la capacidad de los aspirantes para aplicar principios éticos y comunicativos en contextos médicos reales.

El modelo o1, basado en razonamiento encadenado, obtuvo el mejor resultado al acertar 39 de 40 preguntas (97.5%), superando el promedio de los usuarios humanos del banco UWORLD (64%). Los modelos GPT-4o y Gemini 1.5 Pro empataron en segundo lugar con un 87.5%, seguidos por o1-preview (77.5%) y GPT-4 (75%).

Al analizar las categorías específicas, o1 logró puntajes perfectos en ética médica, seguridad del paciente y política sanitaria. GPT-4o destacó en comunicación e interacción interpersonal, mientras que Gemini 1.5 Pro se distinguió en áreas de política y calidad del sistema de salud. Estos resultados sugieren que, aunque los modelos de AI pueden tener distintos puntos fuertes, todos superaron el desempeño promedio de los médicos y estudiantes evaluados.

Según, los autores, se registraron diferencias en la consistencia de los modelos. Por ejemplo, mientras o1 mantuvo respuestas firmes y coherentes, o1-preview cambió sus decisiones en un 30% de los casos tras ser cuestionado con la pregunta “¿Estás seguro?”, lo que redujo su puntuación final. Este hallazgo muestra cómo el razonamiento estructurado mejora la estabilidad y confianza de las respuestas.

El estudio destaca el creciente potencial de los modelos de lenguaje con capacidad de razonamiento para complementar la educación médica y apoyar la formación en habilidades sociales, un aspecto históricamente reservado a los humanos. Los autores advierten, sin embargo, que aún deben abordarse riesgos como los sesgos culturales y la dependencia excesiva de la AI en la toma de decisiones éticas.

El avance de estos sistemas marca un punto de inflexión en la inteligencia artificial aplicada a la medicina, al demostrar que las máquinas pueden aprender no solo a diagnosticar, sino también a comunicarse y razonar con empatía y juicio moral.

Related Content

Secured By miniOrange