LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks

O artigo apresenta o LRR-Bench, um benchmark sintético que avalia a compreensão espacial de modelos visão-linguagem, revelando que, embora humanos alcancem desempenho quase perfeito, os modelos atuais ainda lutam significativamente com tarefas que envolvem posições absolutas e movimentos 3D.

Fei Kong, Jinhao Duan, Kaidi Xu, Zhenhua Guo, Xiaofeng Zhu, Xiaoshuang Shi

Publicado 2026-02-24
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um robô a andar pela sua casa. Você diz: "Pegue a xícara que está à esquerda do sofá" ou "Gire a câmera para a direita para ver o gato". Parece fácil para nós, humanos, certo? Mas, segundo um novo estudo chamado LRR-Bench, os "cérebros" de IA mais modernos (chamados Modelos de Visão e Linguagem) ainda estão muito confusos quando o assunto é entender espaço, direção e movimento.

Aqui está uma explicação simples do que os pesquisadores descobriram, usando algumas analogias do dia a dia:

1. O Problema: A IA é "Cega" para o Espaço

Pense nos modelos de IA atuais como um turista que visitou o mundo todo, viu milhões de fotos e leu todos os livros, mas nunca saiu de casa. Ele sabe o que é um "sofá" e o que é uma "xícara", mas se você perguntar onde eles estão em relação um ao outro, ou se o sofá está se movendo, ele começa a alucinar.

Os pesquisadores criaram um "teste de direção" (o LRR-Bench) para ver se a IA consegue:

  • Dizer se algo está à esquerda ou direita (Posição Absoluta).
  • Entender se a câmera girou ou se o objeto se moveu (Espaço 3D e Movimento).

2. O Teste: Um "Video Game" Perfeito

Para não gastar dinheiro fotografando coisas reais e para garantir que a IA não tivesse "visto" as respostas antes (vazamento de dados), os cientistas criaram tudo no computador:

  • Para fotos estáticas: Usaram um "pintor digital" (um modelo de difusão) para criar imagens de objetos em lugares específicos.
  • Para movimento: Usaram o jogo Minecraft. Eles criaram sequências de imagens onde objetos e câmeras se moviam. É como se a IA estivesse jogando um jogo de observação, mas em vez de jogar, ela tinha que responder perguntas sobre o que viu.

3. Os Resultados: Humanos vs. Robôs

Aqui está a parte chocante:

  • Os Humanos: Foram quase perfeitos. Conseguiram acertar cerca de 90% a 100% das perguntas, mesmo nas mais difíceis.
  • As IAs (os "gigantes"): Mesmo os modelos mais inteligentes e caros do mundo (como o GPT-4o ou versões gigantes de 72 bilhões de parâmetros) foram desastrosos nas tarefas de movimento e rotação.
    • Em algumas tarefas, eles tiveram pontuação próxima de zero. É como se eles estivessem chutando aleatoriamente.
    • Eles só foram bons nas tarefas mais simples (como dizer se um objeto está no centro da imagem).

4. As Armadilhas: Por que a IA falha?

Os pesquisadores descobriram três motivos principais para essa confusão:

  • A "Ilusão" do Raciocínio: Você pode pensar: "Ah, se eu pedir para a IA pensar antes de responder (como um humano), ela vai melhorar!".
    • A verdade: Nem sempre! Em tarefas complexas de rotação, pedir para a IA "pensar" fez ela se perder ainda mais. Foi como pedir para alguém que já está tonto tentar fazer matemática; o raciocínio extra só gerou mais alucinações (respostas inventadas).
  • Tamanho não é tudo: Fazer a IA ficar maior (mais "cérebro") não ajudou. Às vezes, modelos gigantes foram até piores que modelos menores em tarefas de direção.
  • Treinar com jogos não ajuda: Tentar ensinar a IA especificamente com dados de jogos 3D ou rotação não funcionou. Ela não aprendeu a "sentir" o espaço 3D, apenas memorizou padrões.

5. A Analogia Final: O Piloto de Drone

Imagine que você tem um drone com uma câmera super inteligente.

  • Se você pedir para ele tirar uma foto de um gato, ele faz.
  • Se você pedir para ele dizer se o gato está à esquerda ou direita, ele acerta.
  • Mas, se você pedir: "O gato está se movendo para a direita ou a câmera é que está girando para a esquerda?", o drone entra em pânico. Ele não consegue distinguir o que é o objeto se movendo do que é o observador se movendo.

Conclusão

O estudo nos diz que, embora as IAs sejam incríveis em conversar e reconhecer objetos, elas ainda não têm um "sentido de direção" interno. Elas não entendem a física do mundo 3D da mesma forma que nós. Para que carros autônomos e robôs humanoides sejam realmente seguros e inteligentes, precisamos primeiro ensinar a eles a entenderem o básico: esquerda, direita, girar e mover.

Até lá, a IA continua sendo um gênio da biblioteca, mas um péssimo piloto de drone.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →