Un nuevo estudio revela que ChatGPT-4o y Gemini 2.0 identifican expresiones faciales con una precisión comparable a la de humanos, mientras que Claude 3.5 Sonnet mostró menor fiabilidad.
Los modelos de lenguaje de propósito general, como ChatGPT o Gemini, se han consolidado como herramientas clave en la interacción humano-computadora, no solo por su capacidad para procesar texto, sino también por interpretar señales sociales y emocionales. Un estudio encabezado por investigadores de Harvard y publicado en npj Digital Medicine journal evaluó la habilidad de tres modelos avanzados: ChatGPT-4o, Gemini 2.0 Experimental y Claude 3.5 Sonnet. El objetivo fue reconocer emociones humanas a partir de expresiones faciales. Los resultados muestran que dos de estos modelos alcanzaron o incluso superaron el desempeño de evaluadores humanos en ciertas emociones, lo que sugiere un avance significativo en la “competencia socioemocional” de la inteligencia artificial (AI).
El estudio utilizó el conjunto de datos NimStim, una colección estandarizada de 672 imágenes que muestra expresiones de felicidad, tristeza, miedo, sorpresa, calma, enojo y disgusto, interpretadas por actores de diversas razas. A partir de este material, los investigadores compararon las respuestas de los tres modelos con las etiquetas emocionales verificadas y los resultados humanos de referencia.
Los hallazgos mostraron que ChatGPT-4o alcanzó una precisión del 86% y un coeficiente de concordancia (o Cohen’s kappa) de 0.83, mientras que Gemini 2.0 Experimental obtuvo un 84% y un kappa de 0.81, valores considerados de “acuerdo casi perfecto” y muy cercanos a los de los observadores humanos. En contraste, Claude 3.5 Sonnet logró una precisión del 74% y un kappa de 0.70, calificación de “acuerdo sustancial”.
En términos de categorías emocionales, los tres modelos mostraron un buen rendimiento al reconocer emociones como felicidad, calma y sorpresa, pero tuvieron dificultades con el miedo, que fue confundido con sorpresa en más del 50% de los casos por algunos modelos. Aun así, ChatGPT-4o y Gemini 2.0 igualaron o superaron el desempeño humano en expresiones de sorpresa y neutralidad.
Otro aspecto relevante del estudio es que no se detectaron diferencias significativas en la precisión de los modelos según el sexo o la raza de las personas retratadas, lo que sugiere una reducción de sesgos en comparación con evaluaciones previas de sistemas de visión artificial.
Los autores destacan que la capacidad de los modelos multimodales para reconocer emociones abre posibilidades en el ámbito de la salud mental y la atención conductual, donde la interpretación automatizada de microexpresiones podría facilitar el diagnóstico temprano y el seguimiento de trastornos como la depresión o la ansiedad. Sin embargo, advierten que estos resultados deben interpretarse con cautela, ya que el estudio se basó únicamente en imágenes estáticas y en un grupo demográfico limitado de actores jóvenes, mayormente de origen europeo.
Esta investigación expone uno de los primeros puntos de referencia sobre las habilidades socioemocionales de los modelos de lenguaje multimodales, a pesar de evidenciar su potencial para aplicaciones en salud y tecnología social, los investigadores reconocen la necesidad de evaluaciones más amplias, con estímulos dinámicos, contextos auditivos y poblaciones diversas, antes de integrar estos sistemas en entornos clínicos o de interacción humana real.




