Imagand es un modelo de difusión para generar datos farmacocinéticos a partir de estructuras moleculares.
Investigadores de la Universidad de Waterloo utilizan machine learning para acelerar el proceso de desarrollo de nuevos fármacos. Los investigadores crearon Imagand, un modelo de inteligencia artificial (IA) generativa que evalúa información existente sobre potenciales fármacos y sugiere sus propiedades potenciales.
The Article donde se detalla el desarrollo de Imagand está disponible en arXiv. Imagand es presentado como un modelo de difusión que genera datos farmacocinéticos sintéticos a partir de representaciones moleculares conocidas como SMILES. Este desarrollo aborda un desafío crítico en la investigación farmacéutica como lo es la escasez y fragmentación de datos farmacocinéticos, que dificultan estudios avanzados como la polifarmacia y las combinaciones de medicamentos.
El proceso de desarrollo de nuevos fármacos es significativamente costoso y prolongado, con una duración que puede superar los diez años y requerir inversiones de miles de millones de dólares. Uno de los principales obstáculos es la obtención de datos farmacocinéticos completos, los cuales son esenciales para entender cómo el cuerpo absorbe, distribuye, metaboliza y excreta un compuesto. Estos datos suelen recopilarse de forma independiente, lo que resulta en conjuntos dispersos con poca superposición, limitando su utilidad para investigaciones integrales.

“Hay una enorme cantidad de posibles sustancias químicas y proteínas que investigar a la hora de desarrollar un nuevo fármaco, lo que hace muy costoso el descubrimiento de fármacos porque hay que probar millones de moléculas con miles de dianas diferentes”, indicó Bing Hu, doctorando en Informática y autor principal de la investigación.
En este sentido, Imagand surge como una solución innovadora ante estos desafíos. Se trata de un modelo multimodal que utiliza representaciones moleculares en formato SMILES para generar datos farmacocinéticos sintéticos. Para lograrlo, combina técnicas avanzadas de difusión con embeddings moleculares preentrenados, como ChemBERTa y DeBERTa, que capturan la complejidad de las estructuras químicas. Uno de sus componentes clave es el Modelo de Ruido Gaussiano Local Discreto (DLGN, en inglés), diseñado para adaptarse a las distribuciones reales de los datos y mejorar la calidad de las generaciones.
Los datos sintéticos producidos por Imagand demuestran una notable similitud con los datos reales, tanto en distribuciones univariadas como bivariadas. Métricas como la Distancia de Hellinger confirman esta similitud, con un valor promedio de 0.15. Además, los datos generados han mostrado potencial para mejorar el rendimiento en tareas posteriores, como la predicción de propiedades farmacocinéticas, llegando a superar en algunos casos a los conjuntos de datos reales. Esta capacidad abre nuevas posibilidades para el cribado de alto rendimiento, permitiendo a los investigadores explorar grandes volúmenes de compuestos de manera eficiente y económica.
La arquitectura de Imagand se basa en transformadores y usa técnicas como la guía libre de clasificador para equilibrar la calidad y diversidad de los datos generados. El modelo fue entrenado y evaluado utilizando diez bases de datos farmacocinéticas públicas, como Caco-2 y Lipofilicidad, que incluyen información de más de 28 mil fármacos. Este enfoque no solo valida la eficacia del modelo, sino que también asegura su aplicabilidad en escenarios reales.
“Por ejemplo, este proceso posibilitado por la IA puede ayudarnos a entender lo tóxico que es un medicamento, cómo afecta al corazón o cómo podría interactuar negativamente con otros fármacos de uso habitual en el tratamiento de una enfermedad” detalla Helen Chen, profesora de la Facultad de Ciencias de la Salud Pública e Informática de Waterloo. “Este es un ejemplo de cómo la IA nos está ayudando a avanzar hacia una atención más precisa y personalizada”.
Imagand ofrece una fuente escalable y confiable de datos farmacocinéticos sintéticos, este modelo tiene el potencial de acelerar la investigación y reducir costos en el desarrollo de nuevos medicamentos. Futuras investigaciones podrían expandir sus capacidades para incluir propiedades categóricas y más conjuntos de datos.