Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Este artigo apresenta o ViewRope, um método de incorporação posicional rotativa sensível à geometria que injeta direções de raios de câmera em modelos de mundo de vídeo para garantir consistência espacial 3D de longo prazo e reduzir alucinações, complementado por uma atenção esparsa eficiente e uma nova suite de avaliação chamada ViewBench.

Chendong Xiang, Jiajun Liu, Jintao Zhang, Xiao Yang, Zhengwei Fang, Shizun Wang, Zijun Wang, Yingtian Zou, Hang Su, Jun Zhu

Publicado 2026-02-24
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está pedindo a um artista de IA para desenhar um filme inteiro, mas com uma regra estrita: a câmera deve girar, andar pela cena e, no final, voltar exatamente para o ponto onde começou. O problema é que, até agora, essas IAs eram como artistas distraídos: quando a câmera voltava para o início, a IA esquecia como era a parede ou a árvore e desenhava algo novo e aleatório. O mundo parecia "derreter" e mudar de lugar.

Este artigo apresenta uma solução genial chamada ViewRope (que podemos imaginar como um "Rope de Visão" ou um "Corda de Memória Visual").

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: O Artista que Perdeu o Mapa

As IAs atuais de vídeo funcionam como se olhassem para a tela de um computador (os pixels). Elas sabem que o "pixel 100" está ao lado do "pixel 101". Mas, se a câmera girar, o "pixel 100" pode sumir e um novo "pixel 100" aparecer em outro lugar.

  • A Analogia: Imagine que você está em um quarto e olha para um vaso. Você se vira 180 graus e olha para a parede oposta. Depois, você se vira de volta para o vaso. Uma IA comum, ao olhar para o vaso novamente, pensa: "Ah, este é um novo objeto que acabou de aparecer", porque para ela, a posição na tela mudou. Ela não entende que é o mesmo vaso no mesmo lugar do mundo real. Isso cria um "drift" (desvio), onde o mundo fica instável e alucinado.

2. A Solução: ViewRope (O GPS da Câmera)

Os autores criaram o ViewRope. Em vez de dizer à IA "este pixel está na posição X, Y da tela", eles dizem: "esta parte da imagem está sendo vista por um raio de luz vindo desta direção específica no espaço 3D".

  • A Analogia: Pense no ViewRope como um GPS de visão.
    • Antes, a IA usava um mapa de papel (a tela 2D). Se você girasse o mapa, tudo ficava confuso.
    • Com o ViewRope, a IA usa um GPS 3D. Ela sabe que, não importa para onde a câmera gire, se o "raio de visão" apontar para o mesmo lugar no mundo real, é o mesmo objeto. É como se a IA tivesse um fio invisível (a "corda" do Rope) amarrado em cada objeto do mundo. Mesmo que a câmera gire, o fio a puxa de volta para a memória correta do objeto.

3. A Técnica: "Atenção Esparsa" (Não ler tudo, apenas o importante)

Para fazer isso funcionar em vídeos longos sem deixar o computador superaquecer, eles criaram uma segunda inovação: Atenção Esparsa Geometricamente Consciente.

  • A Analogia: Imagine que você está escrevendo um diário de viagem de 100 páginas.
    • Método antigo: Para escrever a página 100, você relê as 99 páginas anteriores para ver se algo se repete. Isso é lento e cansativo (computacionalmente caro).
    • Método ViewRope: Você tem um índice inteligente. Quando você escreve sobre "voltar ao hotel", o índice diz: "Ei, você só precisa reler a página 5, onde você descreveu o hotel pela primeira vez. Ignore as páginas 6 a 99, elas não são relevantes agora".
    • A IA, graças ao ViewRope, sabe exatamente quais quadros antigos (históricos) são geometricamente relevantes para o momento atual e ignora os outros. Isso torna o processo muito mais rápido e eficiente.

4. O Resultado: Um Mundo que Não Esquece

Com essa tecnologia, o modelo consegue:

  1. Memória de Longo Prazo: Se a câmera girar e voltar, a IA "lembra" exatamente como era o objeto, sem criar alucinações ou mudar a cor da parede.
  2. Velocidade: Como ela não precisa processar tudo o tempo todo, mas apenas os "quadros-chave" que o GPS de visão indica, o vídeo é gerado mais rápido.

Resumo em uma frase

O ViewRope é como dar a uma IA de vídeo um "sentido de direção 3D" e um "índice inteligente", permitindo que ela crie mundos virtuais consistentes onde você pode girar a câmera livremente sem que o mundo mude de forma ou desapareça, tudo isso de forma rápida e eficiente.

Por que isso importa?
Isso é fundamental para criar jogos, realidade virtual (VR) e simuladores onde o usuário pode se mover livremente e esperar que o mundo ao redor seja estável e realista, sem que a IA "alucine" e mude a arquitetura da sala a cada segundo.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →