AMIE supera a médicos en precisión diagnóstica y habilidades comunicativas en estudio clínico simulado.
Investigadores de Google Research y Google DeepMind presentaron un modelo de lenguaje entrenado para entablar diálogos clínicos, con resultados superiores a médicos de atención primaria en evaluaciones especializadas. El equipo internacional, liderado por investigadores de Google, desarrolló AMIE o Articulate Medical Intelligence Explorer, un sistema de inteligencia artificial (AI) diseñado para realizar diagnósticos médicos a través del diálogo. En un estudio con 159 casos clínicos simulados, AMIE superó a médicos de atención primaria en precisión diagnóstica y calidad de la comunicación según evaluaciones de especialistas y actores que representaron a pacientes.
Según el estudio publicado en npj Digital Medicine journal, el proyecto AMIE busca replicar la capacidad de los médicos para realizar entrevistas clínicas, detectar síntomas relevantes y proponer planes de tratamiento adecuados. Para entrenar al modelo, los investigadores utilizaron millones de registros médicos, conversaciones reales transcritas y simulaciones generadas mediante técnicas de autoaprendizaje o self-play. AMIE fue entrenado con el modelo base PaLM 2, utilizando datos de diversas condiciones médicas y especialidades.
Asimismo, el estudio se basó en consultas virtuales por texto entre AMIE y pacientes simulados, comparándolas con interacciones realizadas por médicos reales. Los resultados mostraron que AMIE fue evaluado como superior en 30 de 32 indicadores por médicos especialistas y en 25 de 26 indicadores por los actores que representaban a los pacientes. Entre las métricas evaluadas se incluyeron precisión en el diagnóstico, calidad del plan de manejo, empatía y claridad en la comunicación.

En términos de diagnóstico diferencial, AMIE presentó una mayor precisión que los médicos humanos incluso al utilizar la misma información recopilada. Ambos agentes, la AI y los médicos, mostraron capacidades similares para obtener información relevante del paciente, pero AMIE demostró mejor desempeño al interpretarla.
Además, el estudio también analizó la calidad de las conversaciones y determinó que AMIE fue percibido como más empático, estructurado y profesional. Sin embargo, los autores reconocen que el formato de chat de texto no es representativo de las prácticas clínicas habituales, lo cual puede haber afectado el desempeño de los médicos participantes.
Aunque los resultados de AMIE son prometedores, su implementación en entornos clínicos reales requerirá más investigación sobre seguridad, equidad, privacidad y supervisión médica. De esta forma, el estudio sugiere que herramientas como AMIE podrían complementar la labor médica y ampliar el acceso a servicios diagnósticos de calidad.