Inference-time Physics Alignment of Video Generative Models with Latent World Models

Deze paper introduceert WMReward, een methode die een latente wereldmodel (VJEPA-2) gebruikt als beloningssignaal tijdens de inferentie om de fysieke plausibiliteit van gegenereerde video's aanzienlijk te verbeteren en zo de eerste plaats te behalen in de ICCV 2025 Perception Test PhysicsIQ Challenge.

Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich, Nicolas Beltran-Velez, Melissa Hall, Reyhane Askari-Hemmat, Xiaochuang Han, Nicolas Ballas, Michal Drozdzal, Adriana Romero-Soriano

Gepubliceerd 2026-03-02
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een magische filmcamera hebt die elke droom van je kunt laten zien. Je zegt: "Laat een bal van een trap vallen," en de camera maakt een video. Maar vaak is de magie imperfect: de bal zweeft alsof hij op de maan is, of hij valt door de grond heen. Dit is precies het probleem met de slimste video-cameramakers van vandaag (AI-modellen): ze zijn visueel prachtig, maar ze begrijpen de natuurkunde niet goed.

De auteurs van dit paper, WMReward, hebben een oplossing bedacht. Ze hoeven de camera niet opnieuw te bouwen; ze geven de camera gewoon een slimme assistent die meekijkt terwijl de video wordt gemaakt.

Hier is hoe het werkt, vertaald naar alledaags taal:

1. Het Probleem: De "Droom" vs. De "Werkelijkheid"

De huidige AI's maken video's alsof ze dromen. Ze weten hoe een object eruit moet zien, maar ze weten niet hoe het zich moet gedragen. Een auto kan door een muur rijden of een glas water kan omhoog vloeien. Dit komt omdat de AI alleen heeft geleerd om pixels na te bootsen, niet om de regels van de fysieke wereld te begrijpen.

2. De Oplossing: De "Fysica-Coach" (WMReward)

In plaats van de AI opnieuw te trainen (wat jaren duurt en heel veel geld kost), gebruiken de onderzoekers een slimme coach die meekijkt tijdens het maken van de video.

  • De Coach is een "Wereldmodel": Stel je voor dat je een zeer ervaren natuurkundige hebt die nooit naar de echte wereld kijkt, maar alleen naar de essentie van beweging. Deze coach (genaamd VJEPA-2) heeft geleerd hoe objecten zich normaal gedragen door te voorspellen wat er als volgende gebeurt, zonder zich te storen aan de kleur van de kleding of de achtergrond.
  • De "Verrassingsmeter": Terwijl de AI een video maakt, vraagt de coach: "Ik dacht dat de bal hier zou landen, maar hij landt daar."
    • Als de AI doet wat de coach verwacht, is er geen verrassing. De video is fysiek correct.
    • Als de AI iets doet dat de coach niet verwacht (bijvoorbeeld een bal die door de lucht zweeft), is er een grote verrassing. De coach zegt: "Hé, dat klopt niet!"

3. Hoe ze de video verbeteren: Het "Gokken en Kiezen"

De AI maakt niet direct één perfecte video. In plaats daarvan doet de AI alsof het een gokspeler is die vele versies van dezelfde video maakt (bijvoorbeeld 16 verschillende versies tegelijk).

  • De Coach kiest de winnaar: De coach kijkt naar al die 16 versies en zegt: "Deze 15 versies zijn raar, maar deze ene versie (waar de bal normaal valt) is perfect."
  • De AI luistert: De AI kiest dan die ene perfecte versie en gooit de andere weg.

Dit noemen ze "Best-of-N" (Beste van N). Het is alsof je 16 schetsen maakt van een schilderij, en je beste vriend (de coach) er één uitkiest die het meest realistisch is.

4. Het Resultaat: Een Nieuwe Wereldrecord

Door dit proces te gebruiken, zijn ze erin geslaagd om video's te maken die veel natuurgetrouwer zijn.

  • Ze hebben een wedstrijd gewonnen (de PhysicsIQ Challenge) waarin AI's werden getest op hun kennis van de natuurkunde.
  • Hun AI scoorde 62,64%, wat een enorm sprong vooruit is ten opzichte van de vorige beste.
  • Mensen die de video's bekeken, vonden dat de bewegingen veel natuurlijker waren: ballen stuitten, water stroomt naar beneden, en objecten botsen niet door elkaar heen.

Waarom is dit zo cool?

Vroeger dachten mensen dat je de AI heel lang moest laten studeren (trainen) om natuurkunde te leren. Dit paper toont aan dat je de AI ook terwijl het werkt kunt corrigeren.

Het is alsof je een beginnende kok (de AI) hebt die geweldige taarten bakt, maar soms vergeet dat eieren moeten stollen. In plaats van de kok opnieuw naar school te sturen, stuur je een kookmeester (de coach) mee naar de keuken. De kookmeester zegt niet: "Bak de taart opnieuw," maar zegt: "Kijk, die taart zakt in. Probeer de volgende keer de eieren even langer te kloppen."

Kortom: Ze hebben een slimme "fysica-checker" bedacht die AI's helpt om realistischere video's te maken, zonder dat de AI zelf opnieuw hoeft te leren. Het is een slimme manier om de magie van AI te laten samenspannen met de wetten van de natuurkunde.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →