Thinking with Spatial Code for Physical-World Video Reasoning

O artigo apresenta o "Thinking with Spatial Code", um framework que transforma vídeos RGB em representações 3D explícitas e temporalmente coerentes, permitindo que modelos de linguagem de grande porte realizem raciocínio físico com base em variáveis espaciais estruturadas e alcancem o estado da arte no VSI-Bench.

Jieneng Chen, Wenxin Ma, Ruisheng Yuan, Yunzhi Zhang, Jiajun Wu, Alan Yuille

Publicado 2026-03-09
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está assistindo a um filme mudo em preto e branco. Você consegue ver as pessoas se movendo, sabe que elas estão correndo ou paradas, mas se alguém perguntar: "Qual é a distância exata entre o sofá e a mesa de centro?" ou "Se eu estivesse sentado no sofá, onde ficaria a lâmpada em relação a mim?", você teria muita dificuldade em responder com precisão.

Isso é o que acontece com a maioria das Inteligências Artificiais (IA) de vídeo hoje em dia. Elas são ótimas em descrever o que estão vendo (cores, formas, ações), mas péssimas em entender onde as coisas estão no espaço 3D, como elas giram ou como se movem no tempo.

O artigo "Thinking with Spatial Code" (Pensando com Código Espacial) propõe uma solução inteligente para esse problema. Vamos explicar como funciona usando uma analogia simples:

1. O Problema: A IA que "Vê" mas não "Entende" o Espaço

As IAs atuais tentam responder perguntas olhando diretamente para os pixels da imagem (como se olhássemos para uma foto e tentássemos adivinhar a profundidade). É como tentar medir a distância entre dois carros olhando apenas para a pintura deles, sem saber o tamanho real dos veículos ou a perspectiva. Elas tendem a alucinar ou errar feio em perguntas de geometria.

2. A Solução: O "Tradutor" de 3D

Os autores criaram um novo sistema chamado Thinking with Spatial Code. A ideia central é: não deixe a IA tentar adivinhar o espaço direto da imagem. Primeiro, traduza a imagem para uma "linguagem de coordenadas" que a IA possa entender perfeitamente.

Pense no sistema como tendo dois funcionários trabalhando em equipe:

  • O "Arquiteto de Cenário" (O Codificador Espacial):
    Imagine que você tem um vídeo de uma sala bagunçada. O "Arquiteto" é um especialista que assiste ao vídeo e, em vez de apenas descrever a cena, ele cria um mapa 3D digital em tempo real.

    • Ele pega cada objeto (sofá, mesa, gato) e diz: "Ok, este sofá está no ponto X, Y, Z, tem 2 metros de largura e está virado para o Norte".
    • Ele transforma o vídeo caótico em uma lista organizada de dados matemáticos (o "Código Espacial"). É como transformar um filme de ação em uma planilha de Excel precisa com todas as posições.
  • O "Detetive Lógico" (A IA de Linguagem):
    Agora, em vez de mostrar o vídeo para a IA de linguagem (o "Detetive"), nós mostramos apenas essa planilha organizada (o Código Espacial).

    • A IA de linguagem é muito boa em lógica e matemática. Quando ela recebe a lista: "Sofá está em (0,0), Mesa está em (2,0)", ela consegue calcular instantaneamente: "A mesa está 2 metros à direita do sofá".
    • Ela não precisa "adivinhar" se a mesa está perto ou longe; os números já dizem tudo.

3. O Treinamento Especial: A "Chave de Fenda" da Lógica

Para garantir que a IA não apenas leia os números, mas entenda a lógica por trás deles (como a perspectiva de quem está olhando), os pesquisadores usaram uma técnica chamada Reinforcement Learning (Aprendizado por Reforço) com uma regra especial chamada "Rubrica Espacial".

  • A Analogia do Professor Rigoroso:
    Imagine que a IA é um aluno e o professor quer que ele resolva um problema de geometria.
    • Antes: Se o aluno chutasse a resposta certa, ele ganhava nota.
    • Agora (com a Rubrica): O professor olha como o aluno chegou à resposta. Se o aluno disse "A mesa está à direita" mas usou a lógica errada (ex: confundiu a visão do observador com a visão do objeto), ele perde pontos, mesmo que a resposta final esteja certa.
    • Isso força a IA a aprender a pensar corretamente sobre ângulos, direções e pontos de vista, não apenas a memorizar respostas.

4. O Resultado: Superando os Gigantes

O artigo mostra que, ao usar esse método, uma IA relativamente pequena (4 bilhões de parâmetros) consegue superar gigantes industriais (como o GPT-5 ou Gemini, que têm centenas de bilhões de parâmetros) em tarefas de raciocínio espacial.

Por que isso é importante?
Porque descobrimos que o gargalo não é o "tamanho do cérebro" da IA (quantos parâmetros ela tem), mas sim a qualidade da percepção. Se você der a uma IA uma visão 3D precisa e organizada (o Código Espacial), ela se torna um gênio da lógica espacial. Se você der a ela apenas imagens borradas, ela continua confusa, não importa o quanto seja "inteligente".

Resumo em uma Frase

O "Thinking with Spatial Code" é como dar a uma IA um óculos de realidade aumentada que converte o mundo real em números e coordenadas precisas antes de ela tentar responder qualquer pergunta, permitindo que ela "pense" com a precisão de um engenheiro, e não apenas com a intuição de um espectador.