Investigadores en Estados Unidos se encuentran desarrollando un modelo de lenguaje para registros de salud electrónicos, que aproveche el uso de procesamiento de lenguaje natural (PLN) e inteligencia artificial (IA).
A pesar de que los registros de salud electrónicos pueden ser potenciados a través de sistemas de IA y el PLN, existen pocos modelos de lenguaje clínico entrenados para esta tarea. Por ejemplo, el modelo de lenguaje clínico más grande del mundo cuenta con 110 millones de parámetros, que es una cifra limitada teniendo en cuenta la cantidad de datos disponibles en el dominio general.
En este sentido investigadores en California y Florida desarrollaron un estudio que muestra desde cero el proceso de creación de un gran modelo de lenguaje clínico denominado GatorTron, que utiliza más de 90 mil millones de palabras de texto, incluidas más de 82 mil millones de palabras de texto clínico no identificado. Por ejemplo, textos de notas clínicas anónimas de University of Florida y UF Health, así como artículos de PubMed y Wikipedia.
Este modelo fue evaluado sistemáticamente en cinco tareas clínicas de PNL: extracción de conceptos clínicos, extracción de relaciones médicas, similitud textual semántica, inferencia de lenguaje natural y respuesta a preguntas médicas. El estudio examina cómo el aumento de la cantidad de parámetros y el aumento del tamaño de los datos de entrenamiento puede beneficiar estas cinco tareas clínicas.
Los investigadores explican que GatorTron amplía el modelo de lenguaje clínico de 110 millones a 8 mil 900 millones de parámetros y mejoran las ciclo tareas clínicas de PNL. En total fueron extraídas más de 290 mil millones de notas clínicas de 2.4 millones de pacientes de UF Health entre 2011 y 2021. Asimismo, contó con información de más de 126 departamentos clínicos.
Conoce más sobre este avance consultando el estudio completo: