Inference-time Physics Alignment of Video Generative Models with Latent World Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um artista de cinema muito talentoso, mas um pouco "sonhador". Esse artista consegue criar vídeos incríveis, com cores vibrantes e movimentos fluidos. No entanto, ele tem um problema: às vezes, ele esquece como o mundo real funciona.

Por exemplo, ele pode fazer uma bola de boliche flutuar como se fosse uma pena, ou fazer uma xícara de café se desintegrar em pedaços mágicos ao cair no chão. Para nós, humanos, isso parece estranho e "quebra a imersão". Para robôs ou carros autônomos que precisam aprender com esses vídeos, isso é perigoso.

Os cientistas deste artigo (do Meta e de universidades famosas) decidiram consertar isso. Eles não quiseram reescrever o código do artista do zero (o que seria caro e demorado). Em vez disso, eles criaram um sistema de "corretor de realidade" que trabalha enquanto o artista está criando o vídeo.

Aqui está como funciona, usando uma analogia simples:

1. O Problema: O Artista Sonhador

Os modelos de vídeo atuais são como alunos que estudaram milhões de filmes, mas nunca saíram de casa para ver a física real acontecendo. Eles sabem como as coisas parecem, mas não sabem como elas se comportam (gravidade, colisão, líquidos).

2. A Solução: O "Professor de Física" (O Modelo de Mundo Latente)

Os pesquisadores pegaram um modelo de IA chamado VJEPA-2. Vamos chamar este modelo de "O Professor de Física".

Diferente do artista que foca em cores e detalhes bonitos, o Professor de Física foca apenas na lógica do movimento. Ele entende que se você soltar uma pedra, ela cai. Se você empurrar uma bola, ela rola.
Ele não "vê" o vídeo como uma imagem, mas como um conjunto de regras de movimento.

3. O Método: O "Detetive de Surpresas" (WMReward)

A grande ideia do artigo é usar o Professor de Física como um juiz durante a criação do vídeo.

Imagine que o artista está criando um vídeo, quadro a quadro. A cada passo, o Professor de Física olha para o que está sendo criado e pensa:

"Espera aí! Se eu prever o que vai acontecer a seguir com base nas leis da física, e o resultado for muito diferente do que o artista desenhou, então algo está errado!"

Essa diferença entre o que a física prevê e o que o artista criou é chamada de "Score de Surpresa".

Baixa surpresa: O vídeo segue a física. (Ótimo!)
Alta surpresa: O vídeo viola a física (a bola flutou). (Ruim!)

4. A Técnica: O "Jogo de Escolher o Melhor"

O sistema usa essa "surpresa" de duas formas inteligentes para melhorar o vídeo:

O Guia (A bússola): O sistema dá um "empurrãozinho" na criação do vídeo, guiando o artista para caminhos onde a física faz mais sentido, como um GPS que evita ruas fechadas.
O Sorteio (O "Melhor dos N"): O sistema pede ao artista para criar várias versões do mesmo vídeo (digamos, 16 versões diferentes). Depois, o Professor de Física olha para todas e escolhe apenas a que obedeceu melhor às leis da física. É como se você pedisse a 16 desenhistas para fazerem uma cena de um carro caindo, e você escolhesse apenas o desenho onde o carro bateu no chão de verdade.

5. O Resultado: Campeão de Física

Os pesquisadores testaram isso em vídeos gerados por IA de ponta.

O que aconteceu? Os vídeos ficaram muito mais realistas. Objetos colidiram corretamente, líquidos fluíram como água e gravidade funcionou.
O Recorde: Eles participaram de uma competição chamada PhysicsIQ (uma prova de física para IAs) e ficaram em primeiro lugar, batendo todos os recordes anteriores.
Avaliação Humana: Quando pessoas reais viram os vídeos, elas preferiram os criados com o "Professor de Física" porque pareciam mais naturais e convincentes.

Resumo da Ópera

A equipe descobriu que, em vez de tentar ensinar a IA a entender física desde o início (o que é difícil), é mais fácil ter um especialista em física (o modelo de mundo latente) que revisa o trabalho enquanto ele está sendo feito, escolhendo as melhores opções e corrigindo os erros de lógica em tempo real.

É como ter um diretor de cinema experiente ao lado do roteirista, dizendo: "Ei, se aquele carro bateu naquela parede, ele não pode continuar voando. Vamos tentar outro ângulo que faça sentido."

Isso torna a Inteligência Artificial mais confiável para tarefas do mundo real, como dirigir carros autônomos ou controlar robôs, onde a física precisa ser perfeita.

Each language version is independently generated for its own context, not a direct translation.

Título: Alinhamento de Física em Tempo de Inferência de Modelos Geradores de Vídeo com Modelos de Mundo Latente

1. O Problema

Os modelos generativos de vídeo mais avançados (State-of-the-Art) demonstram capacidades notáveis na criação de conteúdo visualmente atraente. No entanto, eles frequentemente violam princípios físicos básicos (como gravidade, colisões sólidas e dinâmica de fluidos), resultando em vídeos fisicamente implausíveis.

Causa Tradicional: A literatura anterior atribui essa falha principalmente à fase de pré-treinamento, sugerindo que os modelos não aprendem física suficiente ao minimizar erros de reconstrução de pixels.
Nova Perspectiva: Os autores argumentam que a falta de plausibilidade física também decorre de estratégias de inferência subótimas. Mesmo que o modelo tenha conhecimento físico latente, a amostragem padrão (vanilla sampling) não explora adequadamente o manifold aprendido para encontrar gerações fisicamente corretas.
Objetivo: Melhorar a plausibilidade física sem retreinar o modelo generativo, tratando o problema como um problema de alinhamento em tempo de inferência.

2. Metodologia: WMReward

A proposta central é o WMReward, um método que utiliza um Modelo de Mundo Latente (especificamente o VJEPA-2) como um modelo de recompensa para guiar a geração de vídeo.

Conceito Central: Modelos de Mundo Latente

Modelos como o VJEPA-2 aprendem a prever estados futuros em um espaço latente compacto, em vez de no espaço de pixels. Ao focar em representações latentes, eles ignoram detalhes visuais superficiais e aprendem dinâmicas fundamentais (movimento, permanência de objetos, continuidade de trajetória). Isso os torna ideais para avaliar a coerência física.

Mecanismo de Recompensa (Surprise Score)

O sistema utiliza a "surpresa" (surprise) do modelo de mundo como função de recompensa:

Janela Deslizante: O vídeo gerado é dividido em janelas de contexto ( $C$ ) e futuro ( $M$ ).
Previsão: O VJEPA-2 observa o contexto e prevê as representações latentes dos quadros futuros.
Comparação: As representações latentes reais dos quadros futuros gerados são comparadas com as previsões do VJEPA-2.
Cálculo: A recompensa é baseada na similaridade de cosseno entre a previsão e a realidade.
- Se o vídeo for fisicamente plausível, o VJEPA consegue prever bem (baixa surpresa $\rightarrow$ alta recompensa).
- Se o vídeo violar a física, a previsão falha (alta surpresa $\rightarrow$ baixa recompensa).

Estratégias de Amostragem (Inference-time Alignment)

Para amostrar a partir de uma distribuição "inclinada" (tilted distribution) ponderada pela recompensa, o artigo propõe três esquemas:

Guidance ( $\nabla$ ): Usa o gradiente da função de recompensa para ajustar o processo de desruído (denoising) em tempo real, guiando a trajetória para regiões de maior recompensa.
Best-of-N (BoN): Gera $N$ amostras independentes e seleciona aquela com a maior recompensa.
$\nabla$ + BoN (Híbrido): Combina as duas abordagens. Usa o guidance para gerar $N$ amostras mais promissoras e, em seguida, seleciona a melhor entre elas. Esta é a estratégia que obteve os melhores resultados, oferecendo um melhor escalonamento.

3. Principais Contribuições

Novo Paradigma de Recompensa: Introduz o uso de modelos de mundo latente (VJEPA-2) como modelos de recompensa para física, superando abordagens baseadas em VLMs (Vision-Language Models) ou reconstrução de pixels.
Alinhamento em Tempo de Inferência: Demonstra que é possível melhorar drasticamente a física de vídeos sem retreinar os modelos generativos pesados (como Sora, MAGI-1), apenas ajustando a estratégia de amostragem.
Escalabilidade: Mostra que o desempenho escala consistentemente com o aumento do custo computacional de inferência (número de partículas/amostras), validando a abordagem de "test-time compute".
Desempenho SOTA: Estabelece um novo estado da arte no desafio PhysicsIQ (ICCV 2025).

4. Resultados Experimentais

Os experimentos foram realizados em três configurações: Texto-para-Vídeo (T2V), Imagem-para-Vídeo (I2V) e Vídeo-para-Vídeo (V2V), utilizando modelos como MAGI-1, Sora2 e um modelo de difusão latente (vLDM).

Benchmarks (PhysicsIQ e VideoPhy):
- No benchmark PhysicsIQ, a abordagem $\nabla$ +BoN alcançou uma pontuação final de 62.64% (na versão final do desafio) ou 62.0% (nos resultados principais do texto), superando o estado da arte anterior em 7.42% (ou 6.78% dependendo da comparação específica citada).
- Houve melhorias consistentes em todas as métricas: IoU espacial, IoU espaço-temporal e MSE.
Estudo Humano:
- Anotações humanas confirmaram ganhos significativos. A taxa de vitória (win rate) em Plausibilidade Física aumentou em 11.4% em relação à amostragem padrão.
- A qualidade visual geral e a consistência temporal também melhoraram, indicando que a correção física não degrada a estética.
Comparação de Recompensas:
- O WMReward (baseado em VJEPA) superou consistentemente recompensas baseadas em VLMs (como Qwen-VL) e autoencoders de pixels (VideoMAE), que operaram próximos ao nível de acaso ou com ganhos marginais.
Custo Computacional:
- O método introduz um overhead de tempo e memória proporcional ao número de partículas ( $N$ ) e ao uso de gradientes, mas oferece um trade-off favorável entre custo e qualidade física.

5. Significado e Impacto

Este trabalho é significativo por várias razões:

Viabilidade de Modelos de Mundo: Valida a hipótese de que modelos de mundo latente, treinados para prever o futuro em espaços comprimidos, capturam princípios físicos fundamentais que podem ser transferidos para outros modelos generativos.
Eficiência de Recursos: Oferece uma solução para melhorar a física em modelos existentes sem a necessidade de um retreinamento massivo e custoso, utilizando apenas o poder de inferência (search).
Aplicações Críticas: A melhoria na plausibilidade física é crucial para aplicações do mundo real, como robótica (simulações realistas) e dirigibilidade autônoma, onde a compreensão correta de interações físicas é essencial para a segurança e eficácia.
Futuro da Geração de Vídeo: Abre caminho para o desenvolvimento de modelos de recompensa mais robustos e algoritmos de busca mais eficientes, sugerindo que o "custo de inferência" (test-time compute) será um componente chave para a próxima geração de IA generativa confiável.

Em resumo, o artigo demonstra que alinhar modelos generativos de vídeo com modelos de mundo latente durante a inferência é uma estratégia poderosa e escalável para resolver o problema crônico de violações físicas na geração de vídeo sintético.