Inference-time Physics Alignment of Video Generative Models with Latent World Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een magische filmcamera hebt die elke droom van je kunt laten zien. Je zegt: "Laat een bal van een trap vallen," en de camera maakt een video. Maar vaak is de magie imperfect: de bal zweeft alsof hij op de maan is, of hij valt door de grond heen. Dit is precies het probleem met de slimste video-cameramakers van vandaag (AI-modellen): ze zijn visueel prachtig, maar ze begrijpen de natuurkunde niet goed.

De auteurs van dit paper, WMReward, hebben een oplossing bedacht. Ze hoeven de camera niet opnieuw te bouwen; ze geven de camera gewoon een slimme assistent die meekijkt terwijl de video wordt gemaakt.

Hier is hoe het werkt, vertaald naar alledaags taal:

1. Het Probleem: De "Droom" vs. De "Werkelijkheid"

De huidige AI's maken video's alsof ze dromen. Ze weten hoe een object eruit moet zien, maar ze weten niet hoe het zich moet gedragen. Een auto kan door een muur rijden of een glas water kan omhoog vloeien. Dit komt omdat de AI alleen heeft geleerd om pixels na te bootsen, niet om de regels van de fysieke wereld te begrijpen.

2. De Oplossing: De "Fysica-Coach" (WMReward)

In plaats van de AI opnieuw te trainen (wat jaren duurt en heel veel geld kost), gebruiken de onderzoekers een slimme coach die meekijkt tijdens het maken van de video.

De Coach is een "Wereldmodel": Stel je voor dat je een zeer ervaren natuurkundige hebt die nooit naar de echte wereld kijkt, maar alleen naar de essentie van beweging. Deze coach (genaamd VJEPA-2) heeft geleerd hoe objecten zich normaal gedragen door te voorspellen wat er als volgende gebeurt, zonder zich te storen aan de kleur van de kleding of de achtergrond.
De "Verrassingsmeter": Terwijl de AI een video maakt, vraagt de coach: "Ik dacht dat de bal hier zou landen, maar hij landt daar."
- Als de AI doet wat de coach verwacht, is er geen verrassing. De video is fysiek correct.
- Als de AI iets doet dat de coach niet verwacht (bijvoorbeeld een bal die door de lucht zweeft), is er een grote verrassing. De coach zegt: "Hé, dat klopt niet!"

3. Hoe ze de video verbeteren: Het "Gokken en Kiezen"

De AI maakt niet direct één perfecte video. In plaats daarvan doet de AI alsof het een gokspeler is die vele versies van dezelfde video maakt (bijvoorbeeld 16 verschillende versies tegelijk).

De Coach kiest de winnaar: De coach kijkt naar al die 16 versies en zegt: "Deze 15 versies zijn raar, maar deze ene versie (waar de bal normaal valt) is perfect."
De AI luistert: De AI kiest dan die ene perfecte versie en gooit de andere weg.

Dit noemen ze "Best-of-N" (Beste van N). Het is alsof je 16 schetsen maakt van een schilderij, en je beste vriend (de coach) er één uitkiest die het meest realistisch is.

4. Het Resultaat: Een Nieuwe Wereldrecord

Door dit proces te gebruiken, zijn ze erin geslaagd om video's te maken die veel natuurgetrouwer zijn.

Ze hebben een wedstrijd gewonnen (de PhysicsIQ Challenge) waarin AI's werden getest op hun kennis van de natuurkunde.
Hun AI scoorde 62,64%, wat een enorm sprong vooruit is ten opzichte van de vorige beste.
Mensen die de video's bekeken, vonden dat de bewegingen veel natuurlijker waren: ballen stuitten, water stroomt naar beneden, en objecten botsen niet door elkaar heen.

Waarom is dit zo cool?

Vroeger dachten mensen dat je de AI heel lang moest laten studeren (trainen) om natuurkunde te leren. Dit paper toont aan dat je de AI ook terwijl het werkt kunt corrigeren.

Het is alsof je een beginnende kok (de AI) hebt die geweldige taarten bakt, maar soms vergeet dat eieren moeten stollen. In plaats van de kok opnieuw naar school te sturen, stuur je een kookmeester (de coach) mee naar de keuken. De kookmeester zegt niet: "Bak de taart opnieuw," maar zegt: "Kijk, die taart zakt in. Probeer de volgende keer de eieren even langer te kloppen."

Kortom: Ze hebben een slimme "fysica-checker" bedacht die AI's helpt om realistischere video's te maken, zonder dat de AI zelf opnieuw hoeft te leren. Het is een slimme manier om de magie van AI te laten samenspannen met de wetten van de natuurkunde.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

State-of-the-art video-generatiemodellen (zoals Sora, MAGI-1, en diverse diffusion-modellen) zijn uitzonderlijk goed in het produceren van visueel aantrekkelijke content. Echter, ze missen vaak een fundamenteel begrip van de fysica, wat leidt tot video's die fysiek onwaarschijnlijk zijn (bijv. objecten die door elkaar heen gaan, onnatuurlijke bewegingen of inconsistenties in vloeistofgedrag).

Traditioneel wordt dit tekort toegeschreven aan de pre-trainingfase, waarbij modellen worden getraind op het minimaliseren van reconstructiefouten op pixel- of feature-niveau zonder expliciete fysieke constraints. Bestaande oplossingen richten zich vaak op het injecteren van fysiek kennis tijdens het trainen of het herschrijven van prompts. Dit paper stelt echter dat een groot deel van het probleem ook voortkomt uit suboptimale inferentiestrategieën. De auteurs betogen dat er binnen de door het generatieve model geleerde manifold al fysiek plausible video's bestaan, maar dat de standaard sampling-methoden deze niet selecteren.

Methodologie: WMReward

De auteurs introduceren WMReward, een methode om de fysieke plausibiliteit van video-generatie te verbeteren tijdens de inferentie (inference-time) door het model te aligneren met een Latent World Model (LWM).

1. Het Beloningssignaal (WMReward):

Bron: Ze gebruiken een latent world model, specifiek VJEPA-2 (Video Joint Embedding Predictive Architecture), dat bekend staat om zijn sterke fysiek begrip. In tegenstelling tot pixel-gebaseerde modellen, leert VJEPA-2 voorspellingen te doen in een gecondenseerde latente ruimte, waardoor het zich richt op dynamica en objectinteracties in plaats van oppervlakkige visuele details.
Het Signaal: Het beloningssignaal is gebaseerd op de "surprise score" (verrassing). Het principe is dat een goed wereldmodel de toekomstige frames van een fysiek plausible video nauwkeurig kan voorspellen op basis van contextframes.
Berekening:
- Een schuifvenster wordt over de gegenereerde video toegepast met contextframes ( $C$ ) en toekomstige frames ( $M$ ).
- VJEPA-2 encodeert de context en probeert de latente representaties van de toekomstige frames te voorspellen ( $\hat{z}_{fut}$ ).
- De daadwerkelijke gegenereerde toekomstige frames worden ook geencodeerd ( $z_{fut}$ ).
- De beloning $r(x)$ wordt berekend als de cosine-afstand (1 - cosine similarity) tussen de voorspelling en de werkelijkheid. Een lage afstand (hoge overeenkomst) betekent een hoge beloning, wat aangeeft dat de video fysiek consistent is met de wetten die het wereldmodel heeft geleerd.

2. Inferentie-Alignment Strategieën:
Om samples te trekken uit een "gekipte" verdeling $p^*(x) \propto w(x)p(x)$ (waarbij $w(x)$ gebaseerd is op de beloning), worden drie benaderingen gebruikt:

Guidance ( $\nabla$ ): Een gradient-based methode waarbij de scorefunctie van het diffusion-model wordt aangepast met de gradient van de beloning ( $\lambda \nabla r(x)$ ). Dit stuurt het denoising-proces direct naar fysiek plausibele gebieden.
Best-of-N (BoN): Er worden $N$ onafhankelijke samples gegenereerd en de sample met de hoogste beloning wordt geselecteerd. Dit is een gradient-free methode.
$\nabla$ + BoN: Een combinatie waarbij eerst $N$ samples worden gegenereerd met guidance, waarna de beste wordt geselecteerd. Dit combineert de gerichte zoektocht van guidance met de filtering van BoN.

Kernbijdragen

Inference-time Alignment voor Fysica: Het paper is een van de eerste werken dat het probleem van fysieke plausibiliteit in video-generatie expliciet formuleert als een inferentie-Alignment-probleem, in plaats van alleen te focussen op training.
Latent World Models als Reward: Het demonstreert dat latent world models (zoals VJEPA-2) superieure reward-signalen bieden voor fysica vergeleken met Vision-Language Models (VLMs) of pixel-reconstructie-modellen (zoals VideoMAE).
Schalbaarheid: Het toont aan dat de prestaties schalen met de berekeningscapaciteit (meer zoekruimte/particles). Hoe meer compute er wordt ingezet voor de zoektocht (BoN of $\nabla$ +BoN), hoe beter de fysieke plausibiliteit.
State-of-the-Art Resultaten: De methode behaalt nieuwe state-of-the-art resultaten op de PhysicsIQ-benchmark zonder dat het onderliggende generatieve model opnieuw hoeft te worden getraind.

Resultaten

De auteurs hebben hun methode getest op drie state-of-the-art video-modellen: MAGI-1, Sora2, en een vLDM (video Latent Diffusion Model).

PhysicsIQ Benchmark:
- Op de uitdagende PhysicsIQ-benchmark (ICCV 2025 Challenge) behaalde de methode een score van 62,64% (in de challenge resultaten vermeld) of 62,0% (in de tekst vermeld, afhankelijk van de specifieke setup), wat een verbetering is van 7,42% respectievelijk 6,78% ten opzichte van de vorige state-of-the-art.
- Dit geldt voor zowel Image-to-Video (I2V) als Video-to-Video (V2V) taken.
Vergelijking met andere Rewards:
- WMReward (gebaseerd op VJEPA) overtreft aanzienlijk andere reward-signalen gebaseerd op VLMs (zoals Qwen3-VL) of pixel-reconstructie (VideoMAE). VLMs presteerden vaak nauwelijks beter dan willekeur.
Menselijke Evaluatie:
- In een menselijke voorkeurstudie (human preference study) won de WMReward-versie in 53,0% tot 60,0% van de gevallen (afhankelijk van het model) op het criterium "Physics Plausibility" vergeleken met de baseline.
- Er was ook een verbetering in visuele kwaliteit en prompt-afstemming, hoewel bij tekst-gestuurde generatie (T2V) een kleine afname in semantische afstemming werd waargenomen (waarschijnlijk omdat de VJEPA-reward tekst-agnostisch is).
Computational Cost:
- De methode introduceert een rekenkundige overhead, maar deze is beheersbaar. BoN schaalt lineair met het aantal deeltjes ( $N$ ), terwijl Guidance extra kosten heeft voor backpropagatie. De combinatie $\nabla$ +BoN biedt de beste balans tussen prestatie en schaalbaarheid.

Betekenis en Toekomstperspectief

Dit werk is significant omdat het een nieuwe weg opent voor het verbeteren van generatieve AI zonder de enorme kosten van het opnieuw trainen van enorme modellen. Het bewijst dat:

Fysiek begrip in bestaande latent world modellen zit opgeslagen en kan worden "onttrokken" als reward-signal.
Inference-time search (zoals Best-of-N en Guidance) een krachtig instrument is om de kwaliteit van gegenereerde video's te verhogen, specifiek voor realisme en fysieke consistentie.
De aanpak model-agnostisch is; het werkt op diverse architecturen (autoregressief en diffusion) en kan worden toegepast op toekomstige modellen.

De auteurs wijzen erop dat toekomstig werk zich kan richten op het verbeteren van de reward-modellen (om meer fysieke fenomenen zoals wrijving en gewicht te dekken) en het ontwikkelen van efficiëntere zoekalgoritmen om de kosten van inference-time alignment verder te verlagen.

Inference-time Physics Alignment of Video Generative Models with Latent World Models

1. Het Probleem: De "Droom" vs. De "Werkelijkheid"

2. De Oplossing: De "Fysica-Coach" (WMReward)

3. Hoe ze de video verbeteren: Het "Gokken en Kiezen"

4. Het Resultaat: Een Nieuwe Wereldrecord

Waarom is dit zo cool?

Probleemstelling

Methodologie: WMReward

Kernbijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation