Un estudio analizó el desempeño de ChatGPT, Claude y Gemini en escenarios clínicos de prevención, diagnóstico, tratamiento y rehabilitación de accidentes cerebrovasculares.
Los accidentes cerebrovasculares o ictus, representan una de las principales causas de discapacidad y mortalidad a nivel mundial. A medida que las tecnologías de inteligencia artificial (IA) avanzan, ha surgido el interés por emplear los grandes modelos de lenguaje generativo (LLMs, en inglés) como herramientas de apoyo en la atención médica. Un reciente estudio publicado en npj Digital Medicine evaluó el rendimiento de tres LLMs ampliamente utilizados como ChatGPT-4o, Claude 3 Sonnet y Gemini Ultra 1.0, aplicados a distintos escenarios clínicos relacionados con el ictus, desde su prevención hasta la recuperación.
El estudio examinó las respuestas de estos modelos ante situaciones realistas de pacientes, utilizando tres técnicas de “ingeniería de instrucciones” o prompting: aprendizaje sin ejemplos (Zero-Shot Learning, ZSL), razonamiento encadenado (Chain of Thought, COT) y “hablar en voz alta” (Talk Out Your Thoughts, TOT). Se evaluaron cinco criterios fundamentales: precisión, presencia de alucinaciones, es decir información falsa generada por el modelo; especificidad y relevancia; empatía; y utilidad de las recomendaciones.
Los resultados revelan que, en general, el desempeño de los LLMs fue subóptimo, con puntuaciones que en su mayoría no alcanzaron el umbral mínimo de competencia clínica de 60 sobre 100. Aunque cada modelo y técnica mostró fortalezas particulares, como el buen desempeño de TOT en empatía y acción, o de ZSL en reducir alucinaciones durante la etapa de tratamiento, ninguno logró destacarse de forma consistente en todas las fases del cuidado del ictus.
En cuanto a los modelos, ChatGPT demostró ser el más sólido en precisión, especificidad y acción práctica, aunque también presentó más alucinaciones en comparación con Gemini y Claude. En la etapa de recuperación, por ejemplo, ChatGPT alcanzó la mayor puntuación en precisión (66.05), mientras Claude se ubicó significativamente por debajo.
Los investigadores también señalaron que las diferencias estadísticas entre modelos y técnicas fueron generalmente pequeñas, y que los resultados podrían estar limitados por la escala de evaluación y la subjetividad inherente al juzgar atributos como la empatía.
Si bien los LLM ofrecen un gran potencial para complementar la atención médica, especialmente en comunidades con acceso limitado a servicios de salud, este estudio evidencia sus limitaciones actuales en contextos clínicos complejos como el ictus. Los autores subrayan la importancia de la supervisión médica en el uso de estas herramientas y recomiendan precaución al recurrir a ellas para la toma de decisiones de salud. Mejorar la precisión y reducir el contenido erróneo continúa siendo un desafío clave para su integración segura en la medicina.




