Egocentric Bias in Vision-Language Models

O artigo apresenta o FlipSet, um novo benchmark que revela que a maioria dos modelos de visão e linguagem sofre de um viés egocêntrico, falhando em tarefas de perspectiva visual ao não conseguir integrar a consciência social com operações espaciais, apesar de demonstrarem habilidades isoladas nessas áreas.

Maijunxian Wang, Yijiang Li, Bingyang Wang, Tianwei Zhao, Ran Ji, Qingying Gao, Emmy Liu, Hokin Deng, Dezhi Luo

Publicado 2026-02-19
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está sentado à mesa de um jogo, olhando para um cartão com o número 81 escrito nele. De onde você está, você vê claramente um "8" e um "1".

Agora, imagine que há um macaco de pelúcia sentado do lado oposto da mesa, olhando para o mesmo cartão. Para o macaco, o cartão está de cabeça para baixo. O que ele vê? Ele vê um 18.

Parece simples, certo? Mas, segundo este novo estudo, a maioria das "inteligências artificiais" (especificamente os modelos de Visão e Linguagem) falha miseravelmente nessa tarefa. Elas não conseguem "colocar-se no lugar do macaco".

Aqui está a explicação do artigo em linguagem simples, usando algumas analogias:

1. O Problema: O "Egocentrismo" da IA

Os pesquisadores criaram um teste chamado FlipSet. É como um jogo de espelho mental. Eles mostram uma imagem para a IA: um cartão com números ou letras e um macaco olhando para o outro lado. A pergunta é: "O que o macaco vê?"

Para responder corretamente, a IA precisa fazer uma rotação mental de 180 graus. Ela precisa esquecer o que a "câmera" (ela mesma) está vendo e imaginar como o mundo se parece para o macaco.

O resultado foi chocante:

  • A maioria das IAs (mais de 90%) errou.
  • Pior ainda: quando erraram, elas quase sempre deram a resposta que a câmera via (o "81"), ignorando completamente o macaco.
  • Isso é chamado de Viés Egocêntrico. A IA é como uma criança muito teimosa que acha que, se ela vê algo de um jeito, todo o universo vê do mesmo jeito. Ela não consegue "sair de si mesma".

2. A Analogia do "Cozinheiro e a Receita"

Para entender por que elas erram, os pesquisadores fizeram um experimento de "detetive". Eles separaram a tarefa em duas partes, como se estivessem testando um cozinheiro:

  • Teste 1 (Consciência Social): "O macaco vê algo diferente do que você vê?"
    • Resultado: A IA disse "Sim" quase 100% das vezes. Ela sabe que o macaco está em outro lugar e que a visão é diferente. Ela tem a "teoria da mente".
  • Teste 2 (Rotação Mental): "Se eu girar este papel 180 graus, o que aparece?"
    • Resultado: A IA foi medíocre aqui. Ela conseguiu girar o papel mentalmente apenas um pouco melhor do que chutar aleatoriamente.
  • Teste 3 (A Tarefa Completa): "O que o macaco vê?"
    • Resultado: Desastre. A IA falhou catastroficamente.

A Lição: A IA tem as peças do quebra-cabeça (sabe que o macaco vê diferente E consegue girar um pouco mentalmente), mas não consegue juntar as peças. É como se você soubesse que o seu amigo está na cozinha e soubesse como cortar uma cebola, mas quando alguém pedisse para você "imaginar o que seu amigo está fazendo na cozinha", você travasse. A IA não consegue integrar o conhecimento social com a operação espacial.

3. Por que "Pensar em Voz Alta" (Chain-of-Thought) não ajuda?

Muitas pessoas acham que pedir para a IA "pensar passo a passo" (explicar o raciocínio antes de dar a resposta) a tornaria mais inteligente. O estudo mostrou que isso não funciona para esse tipo de tarefa.

Na verdade, às vezes, pedir para a IA explicar o raciocínio a faz errar mais. É como se a IA começasse a inventar uma história lógica e convincente ("Olhe, o macaco está de frente..."), mas essa história fosse baseada apenas no que ela vê (a câmera), reforçando o erro em vez de corrigi-lo. A "fala" da IA está desconectada da sua "visão" espacial real.

4. O Que Isso Significa para o Futuro?

Este estudo nos diz algo importante sobre a inteligência artificial atual:

  • Elas são ótimas em reconhecimento de padrões: Elas sabem que "81" é "81".
  • Elas são ruins em simulação espacial: Elas não conseguem construir um modelo mental do mundo que permita girar objetos e ver como eles ficam de outro ângulo.

Atualmente, as IAs funcionam mais como um espelho (refletem o que veem) do que como um ator (que consegue imaginar cenas que não estão na frente dos olhos).

Conclusão

O artigo conclui que, para as IAs se tornarem verdadeiramente inteligentes e capazes de interagir com humanos no mundo real (onde precisamos entender o que os outros veem e pensam), elas precisam de uma mudança na sua "arquitetura". Elas precisam aprender a simular o espaço, e não apenas a reconhecer padrões.

Até lá, se você pedir para uma IA atual que imagine o que um amigo vê de trás de uma mesa, ela provavelmente vai te dizer o que você está vendo, porque ela ainda é um pouco "egocêntrica".

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →