Filtrar por tipo de entrada
Seleccionar todo
Noticias
Páginas
Eventos
Filtrar por categorías
Seleccionar todo
AI ANALITICA
Apps móviles e Internet de las Cosas
Avance de la ciencia
Big data
Comunidades conectadas
Coronavirus
Cursos y capacitaciones
DIAGNOSTICO
Editorial inicial
Editoriales
El mundo en la nube
Eventos
Infografías
Inteligencia Artificial y Ciencia
IoTApps
Noticias
Plataformas digitales
Redes sociales
Reseña de publicaciones científicas
Resumen de Cursos
Sinopsis de ensayo
Sinopsis de Marcos de Referencia
Sinopsis de publicaciones recientes
Uso de Plataformas Digitales
Investigadores diseñan una prueba más confiable para evaluar la comunicación clínica de la IA

Científicos de Harvard y Stanford desearon un marco de evaluación para medir la capacidad de la IA en entornos médicos reales.

Herramientas de inteligencia artificial (IA) generativa uy grandes modelos de lenguaje (LLM, en inglés), como ChatGPT, Gemini, entre otras se han comenzado a utilizar como una solución para aliviar la carga de trabajo de médicos mediante la clasificación de pacientes, la revisión y elaboración de historias clínicas e incluso para ciertos tipos de diagnósticos preliminares. Los LLM se utilizan para interpretar síntomas o pruebas médicas, sin embargo, su aplicación en entornos clínicos genera dudas en la comunidad médica y científica.

Según una nueva investigación de Harvard y Stanford, publicada el 2 de enero en Nature Medicine, el desempeño de estos modelos no es tan bueno en situaciones que imitan al mundo real. El estudio detalla el diseño de un nuevo marco de evaluación denominado Conversational Reasoning Assessment Framework for Testing in Medicine (CRAFT-MD), y fue probado en cuatro LLM para evaluar su desempeño en interacciones reales con pacientes.

Según los autores, los LLMs, como GPT-4, tienen el potencial de transformar las interacciones entre médicos y pacientes al facilitar diagnósticos más rápidos y precisos. Sin embargo, su preparación para ser aplicados en escenarios clínicos reales es insuficiente, ya que las evaluaciones tradicionales suelen enfocarse en pruebas estructuradas, alejadas de las conversaciones naturales entre médico y paciente.

A través de CRAFT-MD, los investigadores evaluaron los LLMs mediante diálogos simulados entre agentes de IA. Este enfoque permite analizar cómo los modelos se desempeñan en interacciones naturales, incluyendo su capacidad para tomar el historial médico y razonar de forma conversacional.

En este sentido, utilizando CRAFT-MD, los autores investigadores probaron modelos como GPT-4, GPT-3.5, Mistral y LLaMA-2-7b en 12 especialidades médicas. También evaluaron la capacidad multimodal de GPT-4V, que combina texto e imágenes. Los resultados mostraron limitaciones significativas en la precisión de los diagnósticos, la calidad de las preguntas abiertas y la capacidad de razonamiento clínico conversacional de los modelos.

Basándose en los hallazgos, los autores proponen un conjunto de recomendaciones para mejorar la evaluación de los LLMs en contextos clínicos:

  • Simular conversaciones realistas entre médicos y pacientes
  • Priorizar la toma exhaustiva de historiales médicos
  • Diseñar preguntas abiertas que permitan explorar síntomas y contextos más complejos
  • Utilizar una combinación de evaluaciones automatizadas y análisis expertos para medir el desempeño de los modelos

“Nuestro trabajo revela una sorprendente paradoja: si bien estos modelos de IA se destacan en los exámenes de la junta médica, tienen dificultades con el intercambio básico de información de una visita al médico”, dijo el autor principal del estudio, Pranav Rajpurkar, profesor adjunto de informática biomédica en el Instituto Blavatnik de Harvard. “La naturaleza dinámica de las conversaciones médicas, plantea desafíos únicos que van mucho más allá de responder preguntas de opción múltiple. Cuando pasamos de las pruebas estandarizadas a estas conversaciones naturales, incluso los modelos de IA más sofisticados muestran caídas significativas en la precisión del diagnóstico”.

La introducción de CRAFT-MD representa un avance importante en la manera en que se prueban estos modelos, asegurando que puedan integrarse de manera efectiva y ética en la práctica médica. Este marco busca garantizar que los LLMs sean herramientas útiles para los médicos, contribuyendo a un diagnóstico más preciso y una mejor experiencia para los pacientes.

“Como médico-científico, me interesan los modelos de IA que puedan mejorar la práctica clínica de manera eficaz y ética”, afirmó Roxana Rajpurkar, coautora principal del estudio y profesora adjunta de ciencia de datos biomédicos y dermatología en Stanford. “CRAFT-MD crea un marco que refleja con mayor precisión las interacciones del mundo real y, por lo tanto, ayuda a que el campo avance en lo que respecta a probar el rendimiento de los modelos de IA en la atención médica”.

Contenidos Relacionados

Secured By miniOrange