Large language models show fragile cognitive reasoning about human emotions

O estudo apresenta o benchmark CoRE, baseado na teoria da avaliação cognitiva, e revela que, embora os grandes modelos de linguagem capturem relações sistemáticas entre avaliações cognitivas e emoções, eles exibem desalinhamento com julgamentos humanos e instabilidade em diferentes contextos.

Sree Bhattacharyya, Evgenii Kuriabov, Lucas Craig, Tharun Dilliraj, Reginald B. Adams, Jr., Jia Li, James Z. Wang

Publicado 2026-03-16
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô superinteligente a entender os sentimentos humanos. Você acha que, por ele ter lido quase tudo na internet, ele já sabe o que é "tristeza", "raiva" ou "alegria"?

Este artigo científico diz: não exatamente.

Os pesquisadores descobriram que, embora os grandes modelos de linguagem (como o GPT, LLaMA, etc.) consigam dizer qual é a emoção correta em uma história, eles não estão realmente "pensando" sobre os sentimentos da mesma forma que os humanos. É como se eles estivessem decorando as respostas de um teste, sem entender a matéria.

Aqui está a explicação simplificada, usando algumas analogias:

1. O "Cérebro" do Robô vs. O "Cérebro" Humano

Para entender uma emoção, os humanos não apenas olham para o que aconteceu; nós fazemos uma avaliação cognitiva. É como se nosso cérebro fosse um juiz que analisa vários fatores antes de decidir se estamos felizes ou bravos:

  • Isso foi justo?
  • Foi culpa minha ou de outra pessoa?
  • Eu consegui controlar a situação?
  • Foi difícil ou fácil?

Os pesquisadores criaram um "teste de prova" chamado CoRE (que significa "Coração" em inglês, mas aqui é um acrônimo para Raciocínio Cognitivo para Emoções). Eles deram cerca de 70.000 situações emocionais para 6 robôs diferentes e pediram que eles avaliassem esses fatores.

2. Onde os Robôs "Quebram" (A Fragilidade)

Os pesquisadores descobriram três problemas principais, que podemos comparar com um aluno que estuda para a prova, mas de forma errada:

  • O "Trabalho Duro" (Esforço) é um Falso Amigo:
    Para os humanos, o quanto nos esforçamos não é o fator mais importante para definir a maioria das emoções. Mas para os robôs, o "esforço" parece ser a chave de tudo! Eles acham que, se algo exigiu muito esforço, é automaticamente uma emoção forte. É como se o robô pensasse: "Se você correu muito para pegar o ônibus, você deve estar muito feliz (ou muito bravo), porque correu muito!", ignorando se você estava feliz ou cansado.

  • A "Justiça" some do Mapa:
    Para os humanos, saber se algo foi justo ou injusto é crucial para sentir raiva ou desprezo. Mas os robôs parecem ignorar essa dimensão. Eles não conseguem conectar a ideia de "injustiça" com a emoção de "raiva" da mesma forma profunda que nós fazemos.

  • A "Máscara" da Personalidade vs. A "Máscara" Cultural:
    Os pesquisadores pediram para os robôs agirem como se fossem de diferentes países (cultura) ou tivessem diferentes personalidades (ex: alguém muito ansioso vs. alguém calmo).

    • Cultura: Os robôs falharam miseravelmente. Não importa se você diz "aja como um japonês" ou "aja como um brasileiro", o robô responde quase igual. Eles não entendem que a cultura muda como sentimos as coisas. É como se todos os robôs tivessem a mesma "alma" cultural, independentemente do país.
    • Personalidade: Aqui, eles funcionaram melhor! Se você diz "aja como alguém muito ansioso", o robô muda sua avaliação para parecer mais estressado. Eles conseguem simular a personalidade individual, mas não a cultura.

3. O "Mapa" das Emoções

Os pesquisadores olharam como os robôs organizam as emoções na "cabeça" deles.

  • Humanos: Temos um mapa complexo. Sabemos que "surpresa" pode ser boa ou ruim, e que "desafio" é diferente de "tédio".
  • Robôs: O mapa deles é muito simples. Eles basicamente separam tudo em "Bom" (Positivo) e "Ruim" (Negativo). Se você tentar pedir para eles distinguirem emoções muito parecidas (como "vergonha" de "culpa"), eles se confundem e erram. É como se eles vissem o mundo apenas em preto e branco, enquanto nós vemos em todas as cores.

4. Por que isso importa?

Imagine um robô tentando ajudar um terapeuta ou um assistente social a entender a dor de uma pessoa.

  • Se o robô não entende que a cultura muda o que é "justo", ele pode dar conselhos errados para alguém de outra nacionalidade.
  • Se ele acha que todo "esforço" gera uma emoção forte, ele pode interpretar mal uma situação simples.

Conclusão: O Robô é um Ator, não um Sentidor

O artigo conclui que os robôs atuais são ótimos atores. Eles podem recitar o roteiro de como uma pessoa deve reagir a uma situação triste. Mas eles não são sentidores. Eles não têm a "inteligência emocional" real que vem de entender as nuances, a justiça, a cultura e a complexidade do pensamento humano.

Para que a Inteligência Artificial seja realmente útil em áreas sensíveis (como saúde mental), ela precisa aprender a pensar sobre as emoções, e não apenas a memorizar as palavras certas.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →