Un estudio evaluó si la inteligencia artificial puede escribir código para analizar datos ómicos y predecir resultados en salud reproductiva.
Los grandes modelos de lenguaje (LLM, en inglés) no solo pueden redactar texto o responder preguntas, también pueden generar código para analizar datos complejos. Un estudio publicado en la revista Cell Reports Medicine por investigadores de la Universidad de California San Francisco (USSF), examinó hasta qué punto estos sistemas pueden ayudar a desarrollar modelos predictivos en investigación biomédica, particularmente en el ámbito de la salud reproductiva.
La investigación evaluó ocho modelos de artificial intelligence (AI) en tareas que habitualmente realizan bioinformáticos como escribir código en R o Python para analizar datos biológicos, construir modelos de machine learning y evaluar su precisión. Los resultados sugieren que algunos LLM pueden producir modelos predictivos con un desempeño comparable al de equipos humanos que participaron en desafíos científicos internacionales.
“Estas herramientas de AI podrían aliviar uno de los mayores cuellos de botella en la ciencia de datos: la creación de nuestros canales de análisis”, afirmó la Dra. Marina Sirota, doctora y profesora de Pediatría, directora interina del Instituto Bakar de Ciencias Computacionales de la Salud (BCHSI) de la UCSF e investigadora principal del Centro de Investigación sobre Prematuridad March of Dimes de la UCSF. “La aceleración no podría llegar en mejor momento para los pacientes que necesitan ayuda ahora mismo”, agregó.
Para poner a prueba estas capacidades, los investigadores utilizaron datos de tres competencias científicas organizadas por DREAM Challenges, iniciativas de ciencia abierta que invitan a equipos de todo el mundo a desarrollar modelos predictivos con grandes conjuntos de datos biomédicos. En este estudio se seleccionaron cuatro tareas relacionadas con la salud reproductiva, como predecir la edad gestacional a partir de datos genéticos o estimar el riesgo de parto prematuro usando perfiles del microbioma.
The LLM recibieron instrucciones para generar código que descargara los datos, construyera un modelo predictivo y evaluara su rendimiento en conjuntos de prueba. Posteriormente, los investigadores ejecutaron ese código para medir la precisión de las predicciones. Entre los sistemas evaluados destacaron DeepSeek-R1, Gemini 2.0 y los modelos de OpenAI, incluidos o3‑mini y GPT‑4o.
En varias de las tareas, los modelos generaron código funcional en cuestión de minutos. El modelo con mejor desempeño logró completar siete de las ocho tareas evaluadas. En general, el código escrito en R tuvo más éxito que el generado en Python, especialmente para procesar datos provenientes de repositorios biomédicos.
En términos de precisión, los modelos generados por AI alcanzaron resultados similares o superiores al rendimiento promedio de los equipos humanos que participaron en los desafíos científicos. En una de las tareas, incluso superaron al mejor equipo humano al predecir la edad gestacional a partir de datos de metilación del ADN placentario.
Los autores señalan que esta capacidad podría ayudar a acelerar el desarrollo de modelos predictivos en biomedicina, especialmente en áreas con grandes volúmenes de datos y pocos especialistas en análisis computacional. Al automatizar parte del proceso de programación, los LLM podrían facilitar que investigadores sin experiencia avanzada en codificación desarrollen herramientas analíticas complejas.
“Gracias a la AI generativa, los investigadores con conocimientos limitados en ciencia de datos no siempre tendrán que establecer amplias colaboraciones ni dedicar horas a depurar código”, explicó el Dr. Adi L. Tarca, coautor del estudio y especialista en genética. “Podrán centrarse en responder a las preguntas biomédicas adecuadas”.
Sin embargo, el estudio también identificó limitaciones. Algunos modelos generaron código con errores, como intentar cargar paquetes inexistentes o seleccionar variables que no estaban presentes en los datos. Además, el desempeño puede variar según el tipo de datos o la complejidad del análisis solicitado.
Los investigadores subrayan que, pese a su potencial, estas herramientas requieren supervisión humana. La generación automática de código puede acelerar la investigación, pero los resultados deben verificarse cuidadosamente para evitar errores metodológicos o interpretaciones incorrectas.
En conjunto, los hallazgos sugieren que los modelos de lenguaje podrían convertirse en una herramienta útil dentro del flujo de trabajo científico. Si se integran con prácticas rigurosas de validación y control de calidad, estas tecnologías podrían contribuir a desarrollar modelos predictivos más rápidos y reproducibles en áreas como la medicina reproductiva y la biología de sistemas.




