Inference-time Physics Alignment of Video Generative Models with Latent World Models

Este trabalho apresenta o WMReward, uma abordagem de alinhamento em tempo de inferência que utiliza um modelo de mundo latente (VJEPA-2) como recompensa para orientar múltiplas trajetórias de geração, resultando em uma melhoria substancial na plausibilidade física de vídeos gerados e na conquista do primeiro lugar no desafio PhysicsIQ do ICCV 2025.

Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich, Nicolas Beltran-Velez, Melissa Hall, Reyhane Askari-Hemmat, Xiaochuang Han, Nicolas Ballas, Michal Drozdzal, Adriana Romero-Soriano

Publicado 2026-03-02
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um artista de cinema muito talentoso, mas um pouco "sonhador". Esse artista consegue criar vídeos incríveis, com cores vibrantes e movimentos fluidos. No entanto, ele tem um problema: às vezes, ele esquece como o mundo real funciona.

Por exemplo, ele pode fazer uma bola de boliche flutuar como se fosse uma pena, ou fazer uma xícara de café se desintegrar em pedaços mágicos ao cair no chão. Para nós, humanos, isso parece estranho e "quebra a imersão". Para robôs ou carros autônomos que precisam aprender com esses vídeos, isso é perigoso.

Os cientistas deste artigo (do Meta e de universidades famosas) decidiram consertar isso. Eles não quiseram reescrever o código do artista do zero (o que seria caro e demorado). Em vez disso, eles criaram um sistema de "corretor de realidade" que trabalha enquanto o artista está criando o vídeo.

Aqui está como funciona, usando uma analogia simples:

1. O Problema: O Artista Sonhador

Os modelos de vídeo atuais são como alunos que estudaram milhões de filmes, mas nunca saíram de casa para ver a física real acontecendo. Eles sabem como as coisas parecem, mas não sabem como elas se comportam (gravidade, colisão, líquidos).

2. A Solução: O "Professor de Física" (O Modelo de Mundo Latente)

Os pesquisadores pegaram um modelo de IA chamado VJEPA-2. Vamos chamar este modelo de "O Professor de Física".

  • Diferente do artista que foca em cores e detalhes bonitos, o Professor de Física foca apenas na lógica do movimento. Ele entende que se você soltar uma pedra, ela cai. Se você empurrar uma bola, ela rola.
  • Ele não "vê" o vídeo como uma imagem, mas como um conjunto de regras de movimento.

3. O Método: O "Detetive de Surpresas" (WMReward)

A grande ideia do artigo é usar o Professor de Física como um juiz durante a criação do vídeo.

Imagine que o artista está criando um vídeo, quadro a quadro. A cada passo, o Professor de Física olha para o que está sendo criado e pensa:

"Espera aí! Se eu prever o que vai acontecer a seguir com base nas leis da física, e o resultado for muito diferente do que o artista desenhou, então algo está errado!"

Essa diferença entre o que a física prevê e o que o artista criou é chamada de "Score de Surpresa".

  • Baixa surpresa: O vídeo segue a física. (Ótimo!)
  • Alta surpresa: O vídeo viola a física (a bola flutou). (Ruim!)

4. A Técnica: O "Jogo de Escolher o Melhor"

O sistema usa essa "surpresa" de duas formas inteligentes para melhorar o vídeo:

  • O Guia (A bússola): O sistema dá um "empurrãozinho" na criação do vídeo, guiando o artista para caminhos onde a física faz mais sentido, como um GPS que evita ruas fechadas.
  • O Sorteio (O "Melhor dos N"): O sistema pede ao artista para criar várias versões do mesmo vídeo (digamos, 16 versões diferentes). Depois, o Professor de Física olha para todas e escolhe apenas a que obedeceu melhor às leis da física. É como se você pedisse a 16 desenhistas para fazerem uma cena de um carro caindo, e você escolhesse apenas o desenho onde o carro bateu no chão de verdade.

5. O Resultado: Campeão de Física

Os pesquisadores testaram isso em vídeos gerados por IA de ponta.

  • O que aconteceu? Os vídeos ficaram muito mais realistas. Objetos colidiram corretamente, líquidos fluíram como água e gravidade funcionou.
  • O Recorde: Eles participaram de uma competição chamada PhysicsIQ (uma prova de física para IAs) e ficaram em primeiro lugar, batendo todos os recordes anteriores.
  • Avaliação Humana: Quando pessoas reais viram os vídeos, elas preferiram os criados com o "Professor de Física" porque pareciam mais naturais e convincentes.

Resumo da Ópera

A equipe descobriu que, em vez de tentar ensinar a IA a entender física desde o início (o que é difícil), é mais fácil ter um especialista em física (o modelo de mundo latente) que revisa o trabalho enquanto ele está sendo feito, escolhendo as melhores opções e corrigindo os erros de lógica em tempo real.

É como ter um diretor de cinema experiente ao lado do roteirista, dizendo: "Ei, se aquele carro bateu naquela parede, ele não pode continuar voando. Vamos tentar outro ângulo que faça sentido."

Isso torna a Inteligência Artificial mais confiável para tarefas do mundo real, como dirigir carros autônomos ou controlar robôs, onde a física precisa ser perfeita.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →