Investigadores de UCLA proponen incorporar estados internos al diseño de los modelos de lenguaje para acercarlos a la cognición humana.
Un equipo de investigadores de la Universidad de California, Los Ángeles (UCLA) y la Universidad del Sur de California publicó en Neuron un artículo de perspectiva en el que plantea que los modelos de lenguaje multimodal actuales, es decir, aquellos capaces de procesar texto e imágenes de forma simultánea, enfrentan una limitación de fondo ya que carecen de cuerpo y, con ello, de la experiencia corporal que en los seres humanos es la base del pensamiento, el lenguaje y la conducta social. Según los autores, no se trata únicamente de una cuestión filosófica, sino que hay factores y consecuencias cuantificables en el rendimiento y comportamiento de los modelos.
“Si uno se siente inseguro, si está agotado, si algo entra en conflicto con su supervivencia, su cuerpo lo registra. Los sistemas de AI actuales no tienen un equivalente. Pueden sonar como experiencias, independientemente de si deberían serlo o no, y eso representa un problema real por muchas razones, especialmente cuando estos sistemas se implementan en entornos con consecuencias importantes”, explicó Akila Kadambi, investigadora postdoctoral del Departamento de Psiquiatría en UCLA.
Los modelos de lenguaje multimodal o MLLMs, han demostrado capacidades notables en tareas como la clasificación de imágenes, la generación de texto y el razonamiento visual. Sin embargo, los autores señalan que estas habilidades tienen un techo claro cuando se trata de interacciones situadas en entornos físicos y sociales complejos. Para ilustrar la brecha, recurren a un ejemplo concreto, que es cuando se muestra a algunos de estos modelos una imagen de puntos de luz que representan el movimiento humano, una tarea trivial para cualquier persona, el sistema responde que está viendo una constelación. La dificultad no es técnica en el sentido estricto, sino más bien conceptual púes el modelo carece de la experiencia corporal que permite a los humanos reconocer de inmediato el movimiento de otro cuerpo.
El artículo propone un marco teórico que distingue dos dimensiones de la corporalidad, en primer lugar la corporalidad externa, que ya ha sido objeto de investigación en el campo de la robótica y los agentes de inteligencia artificial, y que se refiere a la capacidad de interactuar físicamente con el entorno y en segundo, sobre la que los autores centran su propuesta, es la corporalidad interna, que abarca los estados internos del organismo como el hambre, la temperatura, el esfuerzo o la incertidumbre, señales que en los seres humanos regulan la atención, la memoria, las emociones y el comportamiento prosocial. Esta dimensión, argumentan, ha sido prácticamente ignorada en el desarrollo de la inteligencia artificial.
En el cerebro humano, las señales interoceptivas, es decir, aquellas que provienen del interior del cuerpo, no son simples datos adicionales, sino variables con un carácter existencial, mantener la vida depende de mantenerlas dentro de rangos estrechos. Esa presión regulatoria influye sobre cómo se forman y recuperan los recuerdos, cómo se perciben las acciones de otros y cómo emergen capacidades como la empatía. Los MLLMs, en cambio, operan de forma reactiva, al procesar la entrada que reciben y generan una respuesta, sin ningún mecanismo interno que regule o monitoree su propio estado a lo largo del tiempo.
“Lo que hace este trabajo es aplicar directamente esa perspectiva al desarrollo de la AI”, expresó el Dr. Marco Iacoboni autor principal. “Si queremos sistemas de AI que estén realmente alineados con el comportamiento humano, y no solo que sean superficialmente fluidos, es posible que necesitemos dotarlos de vulnerabilidades y controles que funcionen como autorreguladores internos”.
Los investigadores advierten que esta ausencia tiene consecuencias para la seguridad y la alineación de estos sistemas con los valores humanos. Sin un “yo” interno que proteger, los modelos carecen de incentivos intrínsecos para evitar respuestas incorrectas con alta confianza, lo que puede derivar en alucinaciones o en comportamientos indiferentes ante situaciones de riesgo. La propuesta del equipo consiste en incorporar reguladores internos funcionales, variables continuas que monitoreen incertidumbre, esfuerzo o conflicto representacional, como una forma de introducir restricciones análogas a las que los estados biológicos imponen sobre la conducta humana.
El artículo reconoce que la propuesta es todavía conceptual y que su implementación implicaría costos computacionales y de ingeniería considerables. No obstante, los autores sostienen que modelar estos estados internos es una vía necesaria para que los sistemas de inteligencia artificial avancen hacia una comprensión más genuina del mundo y hacia interacciones más seguras y cooperativas con los seres humanos.



