Vision Language Models Cannot Reason About Physical Transformation

O artigo apresenta o ConservationBench, um benchmark que revela que os Modelos de Linguagem e Visão (VLMs) atuais falham sistematicamente ao raciocinar sobre transformações físicas e não conseguem manter representações invariantes de propriedades físicas em cenas dinâmicas, dependendo excessivamente de priores textuais em vez de compreensão visual genuína.

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng

Publicado 2026-03-10
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está testando a inteligência de um robô superpoderoso, capaz de ver fotos e ler textos. Você pergunta a ele: "Se eu pegar uma bola de massa de modelar e achatar como uma panqueca, ela fica mais leve?"

Um humano, mesmo uma criança de 5 anos, responderia imediatamente: "Não, ela tem o mesmo peso, só mudou de formato!" Isso é algo que chamamos de conservação. É a capacidade de entender que certas coisas (como quantidade, tamanho ou volume) não mudam apenas porque a aparência delas mudou.

O artigo que você enviou conta uma história surpreendente: os modelos de Inteligência Artificial mais modernos (chamados VLMs) falham miseravelmente nisso. Eles parecem "cegos" para as leis básicas da física quando as coisas se movem ou mudam de forma.

Aqui está uma explicação simples do que os pesquisadores descobriram, usando analogias do dia a dia:

1. O Teste da "Mágica" (O Benchmark Conservation-Bench)

Os pesquisadores criaram um teste chamado Conservation-Bench. Eles fizeram vídeos mostrando transformações físicas simples, como:

  • Número: Espalhar moedas em uma fila longa. (A quantidade de moedas é a mesma?)
  • Volume: Tirar água de um copo alto e fino e colocar em um copo baixo e largo. (A quantidade de água é a mesma?)
  • Tamanho: Achatar uma bola de massinha. (O tamanho total é o mesmo?)

Eles criaram 23.040 perguntas para 112 modelos de IA diferentes. O resultado foi um desastre: a maioria das IAs acertou apenas por sorte (como chutar em um teste de múltipla escolha).

2. A Ilusão do "Palpite" (O Problema do Viés)

A parte mais interessante é por que eles erram. Imagine que a IA é um aluno que não estudou física, mas sabe que o professor adora respostas "seguras".

  • O Truque: Quando os pesquisadores mostraram apenas o texto da pergunta (sem a imagem), a IA acertava quase sempre! Ela dizia: "Sim, a quantidade é a mesma". Por quê? Porque ela aprendeu, lendo milhões de livros, que "conservação" é a resposta certa para esse tipo de pergunta. Ela estava chutando baseado no texto, não vendo a imagem.
  • O Colapso: Assim que eles mostraram a imagem real (o vídeo da água sendo derramada), a IA começou a errar feio. A imagem a confundiu. Em vez de pensar: "Ah, a água mudou de forma, mas o volume é o mesmo", a IA olhou para o copo baixo e disse: "Olha, o nível da água é mais baixo, então deve ter menos água!".

Analogia: É como se você tivesse um amigo que sabe a resposta certa de um quebra-cabeça de memória, mas quando você vira as peças de cabeça para baixo, ele esquece tudo e começa a adivinhar aleatoriamente.

3. Mais Frames Não Ajudam (A "Velocidade" do Vídeo)

Os pesquisadores pensaram: "Talvez a IA precise ver mais quadros do vídeo para entender o movimento?"

  • Eles mostraram 3 quadros, depois 7, depois 16.
  • Resultado: Não fez diferença. Dar mais "informação visual" não ajudou. A IA não consegue conectar os pontos no tempo. Ela vê o quadro inicial e o quadro final como duas fotos separadas, sem entender o "filme" que acontece entre elas.

4. O Paradoxo da Confiança

O estudo descobriu algo curioso:

  • Nas tarefas onde a resposta era "Sim, a quantidade é a mesma" (Conservação), a IA acertava um pouco mais (porque chutava "Sim" baseado no texto).
  • Mas, quando os pesquisadores criaram uma "pegadinha" (onde a quantidade realmente mudava, mas a IA não podia ver a mudança no texto), a IA falhou completamente. Ela insistia que a quantidade era a mesma, mesmo vendo a mágica acontecendo.

Isso prova que a IA não está "pensando" sobre a física. Ela está apenas seguindo um padrão de texto que diz "quantidades não mudam", e quando a imagem contradiz esse padrão, ela fica confusa e erra.

5. O Que Isso Significa para o Futuro?

Hoje, muitas pessoas querem usar essas IAs para coisas reais, como:

  • Robôs que ajudam a cozinhar.
  • Carros autônomos que entendem o trânsito.
  • Sistemas que preveem desastres naturais.

O artigo diz: Cuidado! Se a IA não entende que um copo de água derramado ainda é a mesma água, ela não pode ser confiável no mundo real. Ela pode tentar "consertar" algo que não está quebrado ou ignorar um perigo porque não entende a física do objeto.

Resumo em uma frase

Os modelos de IA atuais são como atletas que memorizaram a teoria do jogo, mas nunca jogaram na vida real: eles sabem o que a regra diz no papel, mas quando a bola rola e a situação muda dinamicamente, eles perdem a noção do que está acontecendo.

Para que a Inteligência Artificial seja verdadeiramente inteligente e segura, ela precisa aprender a "ver" e "sentir" o mundo físico, não apenas a ler sobre ele.