Egocentric Bias in Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está sentado à mesa de um jogo, olhando para um cartão com o número 81 escrito nele. De onde você está, você vê claramente um "8" e um "1".

Agora, imagine que há um macaco de pelúcia sentado do lado oposto da mesa, olhando para o mesmo cartão. Para o macaco, o cartão está de cabeça para baixo. O que ele vê? Ele vê um 18.

Parece simples, certo? Mas, segundo este novo estudo, a maioria das "inteligências artificiais" (especificamente os modelos de Visão e Linguagem) falha miseravelmente nessa tarefa. Elas não conseguem "colocar-se no lugar do macaco".

Aqui está a explicação do artigo em linguagem simples, usando algumas analogias:

1. O Problema: O "Egocentrismo" da IA

Os pesquisadores criaram um teste chamado FlipSet. É como um jogo de espelho mental. Eles mostram uma imagem para a IA: um cartão com números ou letras e um macaco olhando para o outro lado. A pergunta é: "O que o macaco vê?"

Para responder corretamente, a IA precisa fazer uma rotação mental de 180 graus. Ela precisa esquecer o que a "câmera" (ela mesma) está vendo e imaginar como o mundo se parece para o macaco.

O resultado foi chocante:

A maioria das IAs (mais de 90%) errou.
Pior ainda: quando erraram, elas quase sempre deram a resposta que a câmera via (o "81"), ignorando completamente o macaco.
Isso é chamado de Viés Egocêntrico. A IA é como uma criança muito teimosa que acha que, se ela vê algo de um jeito, todo o universo vê do mesmo jeito. Ela não consegue "sair de si mesma".

2. A Analogia do "Cozinheiro e a Receita"

Para entender por que elas erram, os pesquisadores fizeram um experimento de "detetive". Eles separaram a tarefa em duas partes, como se estivessem testando um cozinheiro:

Teste 1 (Consciência Social): "O macaco vê algo diferente do que você vê?"
- Resultado: A IA disse "Sim" quase 100% das vezes. Ela sabe que o macaco está em outro lugar e que a visão é diferente. Ela tem a "teoria da mente".
Teste 2 (Rotação Mental): "Se eu girar este papel 180 graus, o que aparece?"
- Resultado: A IA foi medíocre aqui. Ela conseguiu girar o papel mentalmente apenas um pouco melhor do que chutar aleatoriamente.
Teste 3 (A Tarefa Completa): "O que o macaco vê?"
- Resultado: Desastre. A IA falhou catastroficamente.

A Lição: A IA tem as peças do quebra-cabeça (sabe que o macaco vê diferente E consegue girar um pouco mentalmente), mas não consegue juntar as peças. É como se você soubesse que o seu amigo está na cozinha e soubesse como cortar uma cebola, mas quando alguém pedisse para você "imaginar o que seu amigo está fazendo na cozinha", você travasse. A IA não consegue integrar o conhecimento social com a operação espacial.

3. Por que "Pensar em Voz Alta" (Chain-of-Thought) não ajuda?

Muitas pessoas acham que pedir para a IA "pensar passo a passo" (explicar o raciocínio antes de dar a resposta) a tornaria mais inteligente. O estudo mostrou que isso não funciona para esse tipo de tarefa.

Na verdade, às vezes, pedir para a IA explicar o raciocínio a faz errar mais. É como se a IA começasse a inventar uma história lógica e convincente ("Olhe, o macaco está de frente..."), mas essa história fosse baseada apenas no que ela vê (a câmera), reforçando o erro em vez de corrigi-lo. A "fala" da IA está desconectada da sua "visão" espacial real.

4. O Que Isso Significa para o Futuro?

Este estudo nos diz algo importante sobre a inteligência artificial atual:

Elas são ótimas em reconhecimento de padrões: Elas sabem que "81" é "81".
Elas são ruins em simulação espacial: Elas não conseguem construir um modelo mental do mundo que permita girar objetos e ver como eles ficam de outro ângulo.

Atualmente, as IAs funcionam mais como um espelho (refletem o que veem) do que como um ator (que consegue imaginar cenas que não estão na frente dos olhos).

Conclusão

O artigo conclui que, para as IAs se tornarem verdadeiramente inteligentes e capazes de interagir com humanos no mundo real (onde precisamos entender o que os outros veem e pensam), elas precisam de uma mudança na sua "arquitetura". Elas precisam aprender a simular o espaço, e não apenas a reconhecer padrões.

Até lá, se você pedir para uma IA atual que imagine o que um amigo vê de trás de uma mesa, ela provavelmente vai te dizer o que você está vendo, porque ela ainda é um pouco "egocêntrica".

Each language version is independently generated for its own context, not a direct translation.

Título: Viés Egoísta em Modelos Visão-Linguagem (Egocentric Bias in Vision-Language Models)

1. O Problema

O artigo aborda a incapacidade dos Modelos Visão-Linguagem (VLMs) atuais de realizar o Toma de Perspectiva Visual de Nível 2 (L2 VPT).

Definição: Enquanto o Nível 1 (L1) envolve apenas reconhecer se um objeto é visível de um certo ponto de vista, o Nível 2 (L2) exige inferir como o objeto aparece a partir da perspectiva de outro agente (ex: entender que um "6" visto de frente parece um "9" visto de trás).
Desafio: Esta habilidade é fundamental para a cognição social e a inteligência artificial situada. O problema central investigado é se os VLMs conseguem simular a experiência visual de outro agente quando ela entra em conflito com a própria visão da câmera (o ponto de vista do modelo).
Hipótese: Os autores suspeitam que os modelos sofrem de um viés egocêntrico, reproduzindo o que a câmera vê em vez de realizar a transformação espacial necessária para adotar a perspectiva do outro.

2. Metodologia: O Benchmark FlipSet

Para diagnosticar esse problema de forma precisa, os autores introduzem o FlipSet, um benchmark controlado que isola a transformação espacial de outras complexidades.

Design da Tarefa:
- O cenário consiste em um cartão com uma string 2D (números ou letras) e um macaco de pelúcia sentado do lado oposto, de frente para a parte de trás do cartão.
- Pergunta: "O que o macaco vê no cartão?"
- Requisito Cognitivo: O modelo deve realizar uma rotação mental de 180 graus da string para simular a visão do macaco.
- Controle de Complexidade: Ao usar strings 2D simples em vez de cenas 3D complexas (como a tarefa clássica das três montanhas), o benchmark elimina confusões relacionadas a oclusão, profundidade e rastreamento de objetos, focando puramente na transformação espacial.
Estrutura de Resposta e Diagnóstico:
- Cada item possui quatro opções de múltipla escolha projetadas para classificar o tipo de erro:
  1. Correta: Rotação correta (ex: "81" $\to$ "18").
  2. Egocêntrica: Repetição da visão da câmera (ex: "81" $\to$ "81").
  3. Confusível: Opção visualmente similar, mas incorreta (ex: "78").
  4. Aleatória: Opção sem relação lógica.
- Experimentos de Controle: Para dissociar os mecanismos cognitivos, os autores realizaram três tarefas distintas com os mesmos estímulos visuais:
  1. Teoria da Mente (ToM): Pergunta binária ("O macaco vê algo diferente?"). Testa apenas a consciência de que a perspectiva é diferente.
  2. Rotação Mental (MR): Pergunta sobre a rotação da string isolada, sem contexto de agente social.
  3. L2 VPT: A tarefa completa que integra ToM e MR.
Escala da Avaliação:
- Foram avaliados 103 VLMs públicos (famílias como LLaVA, Qwen, InternVL, Gemma, etc.) com parâmetros variando de 1B a 90B.
- Todas as avaliações foram feitas em condições zero-shot (sem ajuste fino ou exemplos em contexto).

3. Resultados Principais

Desempenho Geral e Viés Egocêntrico:
- 91,3% dos modelos performaram abaixo do nível de acaso (25%).
- A acurácia média foi de apenas 8,96%.
- 75,88% de todos os erros foram classificados como egocêntricos. Isso indica que os modelos ignoram completamente a perspectiva do macaco e simplesmente repetem o que a câmera vê.
- O uso de Chain-of-Thought (CoT) não mitigou o viés; em muitos casos, amplificou-o, gerando racionalizações fluentes mas espacialmente inválidas.
Experimentos de Controle e Defeito Composicional:
- Ao testar um subconjunto de 24 modelos nas três tarefas de controle, os autores descobriram uma hierarquia de desempenho:
  - ToM (Consciência Social): Alta acurácia (90,4%). Os modelos sabem que o macaco vê algo diferente.
  - MR (Rotação Mental Isolada): Desempenho modesto, mas acima do acaso (26,1%).
  - L2 VPT (Integração): Desempenho catastrófico (10,3%).
- Defeito Composicional: A performance em L2 VPT foi sistematicamente inferior ao que seria esperado pela combinação das habilidades individuais (ToM $\times$ $\times$ MR).
  - Exemplo: Um modelo com ToM perfeito (100%) e MR acima do acaso (50%) deveria ter ~50% de acerto em L2 VPT, mas obteve apenas 33,9%.
  - 91,7% dos modelos mostraram essa lacuna, indicando que eles possuem os "blocos de construção" cognitivos, mas falham em integrá-los em um contexto de raciocínio situado.
Correlações:
- Não houve correlação entre ToM e L2 VPT ( $r=0,01$ ).
- Houve forte correlação entre Rotação Mental (MR) e L2 VPT ( $r=0,746$ ), confirmando que a rotação é necessária, mas não suficiente.

4. Contribuições Chave

FlipSet: Introdução de um benchmark controlado que isola a transformação espacial (rotação 180°) de complexidades 3D e demandas de Teoria da Mente, permitindo o primeiro diagnóstico em larga escala (103 modelos) de falhas componentes.
Diagnóstico de Viés: Demonstração sistemática de que o erro dominante não é aleatório, mas sim um viés egocêntrico massivo (reprodução da visão da câmera), evidenciado pelo design de opções de resposta.
Evidência de Defeito Composicional: Provas comportamentais de que os VLMs falham não por falta de conhecimento social ou espacial isoladamente, mas pela incapacidade de vincular a consciência social à operação espacial. Isso sugere uma limitação fundamental na arquitetura atual de raciocínio espacial baseada em modelos.

5. Significado e Implicações

Limitações Arquiteturais: Os resultados sugerem que os VLMs atuais dependem de associações visuais-linguísticas aprendidas (padrões) em vez de representações espaciais estruturadas que suportam transformações sistemáticas. A "racionalização" via linguagem (CoT) opera desconectada da estrutura espacial.
Paralelo com Psicologia do Desenvolvimento: O comportamento dos modelos assemelha-se ao "egocentrismo" descrito por Piaget na fase pré-operacional, onde a criança não consegue coordenar sua própria perspectiva com a de outro através de operações mentais reversíveis.
Direções Futuras: O artigo argumenta que melhorar o raciocínio espacial em IA exigirá mais do que apenas escalar modelos. São necessárias intervenções como:
- Treinamento com dados multi-visão (egocêntrico para alocêntrico).
- Arquiteturas que suportam simulação baseada em modelos (construção de modelos internos de cena).
- Representações espaciais explícitas (3D) para fornecer substratos estruturados para o raciocínio.

Em resumo, o paper demonstra que, embora os VLMs tenham avançado em percepção e linguagem, eles ainda carecem dos mecanismos fundamentais para realizar o raciocínio espacial situado e a tomada de perspectiva complexa, falhando sistematicamente ao tentar integrar a consciência social com a transformação geométrica.

Egocentric Bias in Vision-Language Models

1. O Problema: O "Egocentrismo" da IA

2. A Analogia do "Cozinheiro e a Receita"

3. Por que "Pensar em Voz Alta" (Chain-of-Thought) não ajuda?

4. O Que Isso Significa para o Futuro?

Conclusão

Título: Viés Egoísta em Modelos Visão-Linguagem (Egocentric Bias in Vision-Language Models)

1. O Problema

2. Metodologia: O Benchmark FlipSet

3. Resultados Principais

4. Contribuições Chave

5. Significado e Implicações

Mais como este

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks