PH-LLM, una suite multilingüe especializada en analizar redes sociales para anticipar riesgos sanitarios en tiempo real.
Un equipo internacional de investigadores presentó en npj Digital Medicine una nueva familia de grandes modelos de lenguaje (LLM, en inglés) diseñada específicamente para la vigilancia en salud pública a partir de redes sociales. El sistema, denominado PH-LLM, busca ofrecer monitoreo en tiempo real sobre actitudes, desinformación y comportamientos relacionados con temas sanitarios, con un enfoque multilingüe y de bajo costo operativo.
La vigilancia digital, también conocida como infoveillance, se ha convertido en una herramienta clave para complementar los sistemas tradicionales de vigilancia epidemiológica. Durante la pandemia de COVID-19, el análisis de publicaciones en plataformas sociales permitió identificar tendencias sobre aceptación de vacunas, uso de mascarillas, salud mental y circulación de noticias falsas. Sin embargo, los autores señalan que hasta ahora no existía un modelo de lenguaje entrenado específicamente para este tipo de tareas en salud pública y que, además, estuviera disponible de forma abierta.
PH-LLM fue desarrollado a partir de una versión instruccional del modelo Qwen 2.5, que fue ajustado mediante técnicas de adaptación eficiente como QLoRA y LoRAPlus. Los investigadores construyeron un corpus de entrenamiento con más de 593 mil pares de instrucciones y respuestas, derivados de 30 conjuntos de datos de redes sociales previamente anotados de forma manual. Estos incluían 96 tareas relacionadas con sentimiento hacia vacunas, desinformación, discurso de odio, salud mental y adherencia a intervenciones no farmacológicas.
Para evaluar el desempeño del modelo, el equipo diseñó el primer benchmark multilingüe específico para infoveillance en salud pública. El sistema fue probado en 39 tareas independientes distribuidas en 10 conjuntos de datos en inglés, chino, árabe e indonesio, sin superposición con el entrenamiento.
Los resultados mostraron que las versiones más grandes del modelo, PH-LLM-14B y PH-LLM-32B, superaron consistentemente a modelos abiertos y propietarios de mayor tamaño. En tareas en inglés, PH-LLM-32B alcanzó un rendimiento promedio de 57.9 por ciento, por encima de modelos como GPT-4o, Llama 3.1 70B Instruct y Mistral Large Instruct 2407. En evaluaciones multilingües también mostró un desempeño superior, incluso frente a sistemas con más parámetros.
Un hallazgo relevante es que PH-LLM logró resultados competitivos en configuración zero-shot, es decir, sin entrenamiento específico para cada tarea. Esto reduce la necesidad de grandes volúmenes de datos anotados y de infraestructura computacional costosa, lo que podría facilitar su implementación en países de ingresos bajos y medianos.
Los autores subrayan que el modelo está diseñado para ser accesible a profesionales de salud pública sin formación avanzada en informática. Al combinar las predicciones del modelo con metadatos como ubicación geográfica o fecha de publicación, es posible detectar tendencias espacio-temporales en opiniones, preocupaciones o narrativas emergentes. Por ejemplo, podría utilizarse para monitorear cambios súbitos en la confianza hacia programas de vacunación o para identificar focos de desinformación durante brotes epidémicos.
El equipo también reconoce limitaciones, pues algunas tareas de clasificación presentaron resultados subóptimos, en parte debido a desbalances en las clases de los conjuntos de datos. Además, el entrenamiento se basó en datos previamente anotados por distintos equipos, lo que podría introducir sesgos. Los investigadores advierten que las publicaciones en redes sociales no representan a toda la población y pueden subrepresentar a adultos mayores o personas con menor alfabetización digital.
Los autores concluyen que la implementación de esta herramienta podría fortalecer la toma de decisiones basada en evidencia y mejorar la capacidad de respuesta ante futuras emergencias sanitarias globales.



