Científicos de Google presentan avances sobre la mejora de los modelos de lenguaje

Google presentó recientemente nuevos avances sobre el razonamiento probabilístico en grandes modelos de lenguaje o LLMs.

El avance de Google sobre el razonamiento probabilístico en grandes modelos de lenguaje (LLMs, en inglés) se enfoca en mejorar su capacidad para trabajar con tareas matemáticas y numéricas, específicamente al entender y trabajar con distribuciones estadísticas. Por ejemplo, modelos de lenguaje, como GPT y otros de última generación como Gemini o Llama 2, son buenos realizando tareas relacionadas con el lenguaje, como resumir textos complejos o entender el contexto de una conversación. Sin embargo, cuando se trata de hacer cálculos numéricos, como estimar probabilidades, suelen tener dificultades. Esto se debe en parte a que estos modelos no fueron diseñados específicamente para realizar cálculos matemáticos, sino para predecir la siguiente palabra en una oración basada en el contexto.

En este sentido, el razonamiento probabilístico es una forma de entender cómo se comportan los datos y es esencial en muchas áreas, como la salud o el clima. Por ejemplo, si se quiere saber si es normal que una persona de cierta edad duerma 8 horas al día, necesitamos entender cómo se distribuye el tiempo de sueño entre personas de esa edad. En este caso, el razonamiento probabilístico permite usar estadísticas para hacer inferencias y no realizar un análisis de cada dato de manera individual.

Para la mejora de estos aspectos, Google investigó cómo mejorar esta habilidad en los LLMs. Primero evaluaron las capacidades de modelos como Gemini y GPT para tres tareas clave relacionadas con la probabilidad:

Estimar percentiles: Determinar en qué posición de una distribución se encuentra un valor específico.
Generar muestras: Crear ejemplos de datos que sigan el mismo patrón que la distribución original.
Calcular probabilidades: Estimar la probabilidad de que algo ocurra dentro de una distribución dada.

Al no contar con un conjunto de datos específico para esta evaluación, los investigadores de Google crearon uno nuevo que incluye tanto datos reales, de áreas como salud, finanzas y clima, como distribuciones simuladas. Posteriormente, utilizaron estos datos para ver qué tan bien los modelos podían entender y trabajar con estos tipos de información.

Para ayudar a los LLMs a mejorar su desempeño, probaron diferentes estrategias:

Ejemplos de referencia: Proporcionaron ejemplos de una misma distribución para que el modelo pueda aprender patrones y hacer mejores estimaciones.
Contexto del mundo real: Añadieron datos específicos del mundo real, como los precios de renta en Estados Unidos, para que los modelos pudieran usar esta información al calcular percentiles.
Simplificación con estadísticas: Usaron aproximaciones simples, como tratar una distribución compleja (como los ingresos) como si fuera normal, para que el modelo pudiera hacer cálculos de manera más efectiva.

De esta forma, la investigación demostró que los modelos pueden mejorar significativamente si se les proporciona contexto y ejemplos. Por ejemplo, cuando se les daban algunos ejemplos adicionales, la precisión en la estimación de percentiles aumentaba un 59%, mientras que la capacidad para generar muestras mejoraba un 55%. Esto sugiere que los modelos tienen una capacidad innata para entender distribuciones, pero necesitan un poco de ayuda para hacerlo de manera más eficiente.

Además, encontraron que los modelos podían hacer inferencias más precisas al simplificar ciertas distribuciones complejas del mundo real, aunque estas simplificaciones no fueran completamente exactas.

Este estudio sugiere que los LLMs, como GPT, Gemini y otros, tienen la capacidad de razonar sobre distribuciones y probabilidades, pero su desempeño mejora notablemente con la ayuda de ejemplos específicos y contexto del mundo real. Esto abre la puerta a futuras investigaciones que puedan hacer que estos modelos sean más útiles y precisos en tareas que requieren un entendimiento profundo de la probabilidad y las estadísticas.