Especialistas en inteligencia artificial de Google exponen los tres enfoques principales de los sistemas multimodales aplicados a la atención médica.
La inteligencia artificial (IA) multimodal se refiere a la capacidad que tienen los sistemas basados en IA para comprender y procesar información proveniente de diversas fuentes o modalidades, como imágenes, texto, audio, datos clínicos, entre otros. La IA multimodal se puede aplicar al campo médico, donde los profesionales de la salud deben analizar datos provenientes de múltiples modalidades, como imágenes médicas, notas clínicas, pruebas de laboratorio y registros de salud electrónicos.
En este sentido, la IA multimodal busca integrar estas modalidades heterogéneas y permitir que los sistemas de IA comprendan, analicen y tomen decisiones basadas en esta información diversa para mejorar la atención médica y la toma de decisiones clínicas.
Recientemente, Greg Corrado, director de IA para la salud en Google Research, y Yossi Matias, vicepresidente de ingeniería e investigación en Google Research, publicaron una entrada en el blog especializado en IA de Google. El texto aborda el concepto de IA multimodal aplicado a la medicina, destacando las virtudes multimodales de la medicina, ya que los profesionales de la salud interpretan datos de diversas fuentes como imágenes médicas, notas clínicas, pruebas de laboratorio, registros electrónicos de salud, genómica, entre otras.
Además, explican el recorrido de los sistemas basados en IA durante la última década ya que han demostrado un rendimiento a nivel de experto en tareas específicas dentro de modalidades particulares. Por ejemplo, existen sistemas AI que procesan tomografías computarizadas, u otros que buscan variaciones genéticas raras.
Los autores exploran la convergencia de capacidades en dos áreas: modelos de lenguaje grandes (LLM, en inglés) y sistemas de imágenes médicas. De esta forma LLMs como GPT-3 han demostrado comprensión y conocimiento en la interpretación y respuesta de conocimiento médico en lenguaje común. Sin embargo, el desafío es saber cómo combinar estas capacidades para construir sistemas AI médicos que aprovechen información de fuentes diversas.
El artículo introduce tres enfoques principales para lograr sistemas AI médicos multimodales:
- Uso de herramientas: En este enfoque, un LLM médico central subcontrata el análisis de datos en diferentes modalidades a un conjunto de subsistemas de software optimizados independientemente para esas tareas. Ejemplifican con la idea de que un LLM médico podría enviar una radiografía de tórax a un sistema de AI de radiología para obtener una respuesta integrada.
- Injerto de modelos o model grafting: Este enfoque consiste en tomar una red neuronal especializada en cada dominio relevante y adaptarla para conectarla directamente al LLM central. Aquí, describen cómo adaptaron un modelo de imágenes médicas avanzado al LLM, permitiéndole realizar búsquedas semánticas y responder preguntas visuales.
- Sistemas generalistas: Los especialistas de Google explican que la aproximación más radical de la IA multimodal es la construcción de un sistema integrado y generalista capaz de absorber información de todas las fuentes. Es decir, un modelo que combine un LLM y un codificador de imágenes en una sola arquitectura multimodal. Este enfoque potencializa la flexibilidad y transferencia de información entre modalidades, pero puede tener mayores costos computacionales.
Los autores concluyen que combinar la fuerza de los sistemas de IA expertos con la flexibilidad de la IA generativa es clave para el futuro de la medicina. Además, mencionan que la elección del enfoque dependerá de varios factores, como la flexibilidad de un modelo generalista frente a las diferentes modalidades de herramientas o injertos. Por ello es importante una investigación empírica extensa y la colaboración con profesionales de la salud, instituciones médicas y socios de la industria para determinar la mejor dirección para la aplicación de la IA multimodal en medicina.