Un sistema que combina GPT-4 con un motor de reglas médicas logra precisión comparable a médicos y ofrece total trazabilidad.
Un equipo de investigación de la Universidad de Berna desarrolló un sistema de inteligencia artificial (AI) neuro-simbólica capaz de extraer información clínica de reportes médicos con niveles de exactitud equivalentes, e incluso superiores, a los de médicos especialistas. La propuesta combina un modelo de lenguaje de gran escala, en este caso GPT-4, con un sistema experto basado en reglas, lo que permite obtener resultados precisos, auditables y sin riesgos de fuga de datos sensibles.
El estudio analizó 206 reportes reales de tomografías tomografía por emisión de positrones (PET/TC) realizadas a pacientes con cáncer de próstata. El objetivo del estudio fue evaluar si esta AI híbrida podía identificar de manera confiable 26 parámetros clínicos claves dentro de texto libre, como niveles de antígeno prostático específico (PSA, en inglés), presencia de lesiones, estadificación clínica y si el caso correspondía a recurrencia o a estadificación del tumor primario.
Los investigadores desarrollaron un flujo de trabajo en el que GPT-4 extrae hechos y posibles interpretaciones del texto médico, mientras que el sistema experto, denominado Plato-3, verifica cada dato siguiendo reglas clínicas explícitas. Esta verificación permite descartar información ambigua, corregir errores del modelo y generar un rastro de razonamiento completamente auditable para cada conclusión. Además, el sistema detecta cualquier indicio de datos personales residuales antes de enviar texto al modelo de lenguaje, lo que reduce el riesgo de violaciones de privacidad.
Los resultados mostraron mejoras claras frente al uso de GPT-4 por sí solo. En la identificación de pacientes sometidos a estadificación primaria, el modelo obtuvo un puntaje F1 de 0.63 trabajando solo, mientras que la AI neuro-simbólica alcanzó precisión perfecta. En la detección de recurrencia, ambos modelos mostraron alto desempeño, pero la solución híbrida corrigió todos los errores y ofreció justificaciones verificables. En la extracción del nivel de PSA, la AI neuro-simbólica logró 100% de acierto, superando tanto a GPT-4 como a las anotaciones humanas originales, en las cuales se hallaron varios errores durante la revisión.
El estudio destaca que los reportes médicos reales incluyen variaciones de estilo, abreviaturas, datos incompletos y ambigüedades que dificultan su análisis automático. Frente a esto, el enfoque neuro-simbólico demostró ser capaz de manejar esta variabilidad sin necesidad de entrenar modelos especializados, ya que las reglas clínicas residen en la ontología del sistema experto, no en el modelo de lenguaje.
Los autores hacen hincapié en que este tipo de AI puede ser útil en investigación clínica, ensayos multicéntricos y manejo de grandes volúmenes de expedientes médicos, donde la trazabilidad, la privacidad y la consistencia de los resultados son indispensables. También señalan que este modelo ofrece un camino viable para cumplir futuros estándares de transparencia y seguridad en sistemas de AI aplicados a la salud.



