Inference-time Physics Alignment of Video Generative Models with Latent World Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen genialen Filmemacher-KI, der unglaublich schöne Videos erstellen kann. Er kann Sonnenuntergänge, tanzende Katzen und futuristische Städte malen. Aber es gibt ein großes Problem: Die Physik funktioniert in seinen Filmen nicht.

Wenn er einen Ball wirft, fliegt er vielleicht durch die Wand. Wenn Wasser aus einem Glas läuft, fließt es manchmal nach oben. Oder ein Auto fährt, ohne dass die Räder sich drehen. Das sieht zwar cool aus, ist aber für unseren Verstand „falsch" und stört die Illusion.

Bisher dachten Forscher: „Okay, wir müssen den KI-Filmemacher neu ausbilden, damit er die Gesetze der Physik lernt." Das ist wie ein Schüler, der jahrelang zur Schule gehen muss, um zu verstehen, warum Dinge fallen.

Die neue Idee dieses Papers:
Die Forscher sagen: „Warte mal! Der Filmemacher weiß die Physik eigentlich schon, aber er ist beim Zeichnen etwas ungeduldig. Wir müssen ihm nicht die Schule schicken, sondern ihm während des Zeichnens helfen."

Hier ist die Erklärung der Methode, WMReward, mit einfachen Analogien:

1. Der „Wissende Beobachter" (Das Latente Weltmodell)

Stell dir vor, neben dem Filmemacher sitzt ein sehr kluger Physiklehrer. Dieser Lehrer hat nie Filme gemacht, aber er hat Millionen von Stunden echte Naturdokumentationen gesehen. Er weiß genau, wie ein Ball fliegt, wie Wasser fließt und wie sich Stoffe verhalten.

In der Technik heißt dieser Lehrer VJEPA-2. Er ist ein „Weltmodell". Das Besondere: Er schaut sich nicht jedes einzelne Pixel an (wie ein Maler), sondern er versteht die Bewegung und die Struktur der Dinge. Er denkt: „Aha, wenn dieser Stein hier ist, muss der nächste Stein dort sein, sonst fällt er durch den Boden."

2. Der „Überraschungs-Test" (Der Reward)

Der Filmemacher (die Videogenerator-KI) zeichnet nun ein Video. Der Physiklehrer (VJEPA-2) schaut sich das an und sagt:

„Oh, das hier sieht aus, als würde der Ball durch die Wand gehen. Das ist überraschend für mich! Das ist falsch."
„Oh, das hier sieht aus, als würde das Wasser normal fließen. Das ist nicht überraschend. Das ist gut."

Die Forscher nutzen dieses Gefühl der „Überraschung" als Belohnungspunkt. Je weniger überrascht der Lehrer ist, desto besser ist das Video.

3. Die zwei Tricks, um das beste Video zu finden

Jetzt kommt der spannende Teil: Wie nutzen wir diesen Lehrer, um das Video zu verbessern, ohne den Filmemacher neu zu trainieren? Die Forscher nutzen zwei Strategien:

Trick A: Der „Best-of-N" (Der Lotterie-Ansatz)
Stell dir vor, der Filmemacher malt 16 verschiedene Versionen desselben Videos gleichzeitig. Der Physiklehrer schaut sich alle 16 an und sagt: „Version 7 ist die beste, da fließt das Wasser richtig!"
Dann nehmen wir nur Version 7 und verwerfen die anderen 15.
Vorteil: Einfach und effektiv.
Nachteil: Man muss 16 Mal mehr Rechenleistung verbrauchen.
Trick B: Der „Kompass" (Die Führung)
Stell dir vor, der Filmemacher malt das Video Strich für Strich. Der Physiklehrer steht daneben und hält einen Kompass.
„Nein, nein, der Ball geht zu weit nach links! Ein bisschen mehr nach rechts, dann passt die Schwerkraft!"
Der Filmemacher korrigiert seinen Strich sofort, während er malt.
Vorteil: Man braucht weniger Versuche, aber die Korrektur ist komplexer.
Der Super-Trick: Die Kombination
Die Forscher kombinieren beide: Sie lassen den Filmemacher mit dem Kompass arbeiten (Trick B), malen dann trotzdem 16 Versionen (Trick A) und wählen die absolut beste aus. Das Ergebnis ist ein Video, das physikalisch fast perfekt ist.

Was haben sie erreicht?

Die Forscher haben ihre Methode auf die besten KI-Video-Modelle der Welt angewandt (wie Sora, MAGI-1 und andere).

Das Ergebnis: Die Videos sehen nicht nur schöner aus, sie machen auch physikalisch Sinn. Bälle prallen ab, Wasser fließt nach unten, Objekte kollidieren realistisch.
Der Beweis: In einem großen Test namens „PhysicsIQ" (ein Physik-Quiz für KIs) haben sie mit ihrer Methode Platz 1 belegt und den alten Rekord um fast 7 Punkte gebrochen.
Menschliche Meinung: Wenn Menschen die Videos gesehen haben, sagten sie: „Ja, das sieht viel realistischer aus!"

Zusammenfassung in einem Satz

Statt die KI neu zu lernen zu lassen, geben wir ihr einen Physik-Experten als Co-Piloten, der ihr während des Erstellens sagt: „Das hier ist physikalisch unmöglich, versuch es noch einmal anders!" – und das führt zu Videos, die sich wie echte Filme anfühlen.

Warum ist das wichtig?
Weil wir KI bald für Roboter, autonomes Fahren und Simulationen brauchen. Wenn eine KI nicht versteht, wie die Welt funktioniert, kann sie keine sicheren Autos steuern oder Roboter bauen, die nicht gegen Wände laufen. Diese Methode ist ein großer Schritt in Richtung einer KI, die die Welt wirklich „versteht".

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Zustandsmoderne Video-Generierungsmodelle (z. B. Sora, MAGI-1, Wan) sind in der Lage, visuell ansprechende Inhalte zu erzeugen, leiden jedoch häufig unter einem Mangel an physikalischer Plausibilität. Die generierten Videos verletzen grundlegende physikalische Prinzipien (z. B. Objektkontinuität, Schwerkraft, Kollisionsverhalten), was ihre Nutzbarkeit für Anwendungen wie Robotik, autonomes Fahren oder zuverlässige Weltmodellierung einschränkt.

Bisherige Arbeiten führten dieses Defizit primär auf unzureichendes physikalisches Verständnis während des Pre-Training zurück und versuchten, dies durch das Einfügen physikalischer Informationen in den Trainingsprozess zu beheben. Die Autoren dieses Papers argumentieren jedoch, dass ein wesentlicher Teil des Problems auch auf suboptimale Inferenz-Strategien zurückzuführen ist. Es wird postuliert, dass physikalisch plausible Videos bereits im durch das generative Modell gelernten Manifold existieren, aber durch die Standard-Sampling-Methoden nicht effizient gefunden werden.

2. Methodik: WMReward

Das Paper stellt WMReward vor, einen Ansatz zur Inference-time Alignment (Ausrichtung zur Laufzeit), der die physikalischen Priors eines latenten Weltmodells nutzt, um die Generierung zu steuern, ohne das Basis-Modell neu zu trainieren.

Kernkonzept: Latente Weltmodelle als Belohnungsfunktion

Als Reward-Modell wird VJEPA-2 (ein latentes Weltmodell basierend auf der Joint-Embedding-Predictive-Architecture) verwendet.

Funktionsweise: VJEPA-2 kodiert Videoframes in kompakte latente Repräsentationen und lernt die Übergangsfunktion in diesem Raum, um zukünftige Zustände vorherzusagen. Da es im latenten Raum trainiert wird, ignoriert es oberflächliche Pixel-Details und konzentriert sich auf fundamentale Dynamiken (Bewegung, Objektdauerhaftigkeit).
Der „Surprise Score" als Reward: Das Paper definiert die physikalische Plausibilität als die Vorhersagegenauigkeit des Weltmodells.
- Ein Fenster mit Kontextframes ( $C$ ) und zukünftigen Frames ( $M$ ) wird über das generierte Video geschoben.
- VJEPA-2 nutzt die Kontextframes, um die latenten Repräsentationen der zukünftigen Frames vorherzusagen ( $\hat{z}_{fut}$ ).
- Die tatsächlichen generierten zukünftigen Frames werden ebenfalls enkodiert ( $z_{fut}$ ).
- Der Reward $r(x)$ wird als Surprise Score berechnet, basierend auf dem Kosinus-Abstand zwischen Vorhersage und Realität:
  $r(x) = \frac{1}{|K|} \sum_{k \in K} (1 - \cos(\hat{z}_{fut}^k, z_{fut}^k))$
- Ein niedriger Abstand (hohe Übereinstimmung) bedeutet hohe physikalische Plausibilität und somit einen hohen Reward.

Sampling-Strategien zur Ausrichtung

Um aus der gewichteten Verteilung $p^*(x) \propto w(x)p(x)$ zu sampeln, werden drei Strategien untersucht:

Guidance ( $\nabla$ ): Gradientenbasierte Methode. Der Reward wird als zusätzlicher Term in die Score-Funktion des Diffusionsmodells integriert, um den Denoising-Pfad in Richtung höherer physikalischer Plausibilität zu lenken.
Best-of-N (BoN): Es werden $N$ unabhängige Stichproben generiert, und diejenige mit dem höchsten Reward wird ausgewählt. Dies ist eine gradientenfreie Suche.
$\nabla$ +BoN (Kombination): Die effektivste Methode. Zuerst wird mit Guidance eine Menge von $N$ Kandidaten generiert, und anschließend wird der beste Kandidat ausgewählt. Dies kombiniert die gerichtete Suche mit der Selektion des Optimums.

3. Wichtige Beiträge

Neue Perspektive: Demonstration, dass physikalische Plausibilität in Video-Generierung primär als Inference-time Alignment-Problem gelöst werden kann, anstatt nur durch aufwendiges Nachtrainieren.
WMReward: Einführung eines effektiven Reward-Modells, das den „Surprise Score" von latenten Weltmodellen (VJEPA-2) nutzt. Dies übertrifft herkömmliche Ansätze wie Pixel-Rekonstruktionsfehler (VideoMAE) oder Bewertungen durch Vision-Language-Modelle (VLMs).
Skalierbarkeit: Nachweis, dass die Leistung mit der Größe des Suchraums (Anzahl der Partikel $N$ ) und der Rechenleistung skaliert.
Architekturunabhängigkeit: Der Ansatz funktioniert mit verschiedenen modernen Architekturen (autoregressive Modelle wie MAGI-1, Diffusionsmodelle wie vLDM und Sora2).

4. Ergebnisse

Die Methode wurde auf drei Benchmarks und verschiedenen Konditionierungssettings (Text-zu-Video, Bild-zu-Video, Video-zu-Video) evaluiert:

PhysicsIQ Benchmark (ICCV 2025 Challenge):
- Das Team erreichte mit 62,64 % den ersten Platz und verbesserte den vorherigen State-of-the-Art um 7,42 %.
- Auf dem V2V-Set erreichte WMReward (mit $\nabla$ +BoN) einen Score von 62,0 % (ein Plus von 6,78 % gegenüber dem vorherigen Bestwert von MAGI-1).
- Im I2V-Set wurde Sora2 um 4,13 % übertroffen.
Human Preference Study:
- In einer manuellen Bewertung zeigten generierte Videos mit WMReward eine signifikant höhere Präferenz in den Kategorien „Physikalische Plausibilität" (+11,4 % Gewinnrate), visuelle Qualität und Prompt-Alignment.
VideoPhy Benchmark (Text-zu-Video):
- Deutliche Verbesserungen der physikalischen Konsistenz (PC) für Modelle wie MAGI-1 (+8,1 %) und vLDM (+6,9 %).
Vergleich der Reward-Signale:
- WMReward (basierend auf latenter Vorhersage) übertraf deutlich Reward-Signale basierend auf VideoMAE (Pixel-Rekonstruktion) und VLMs (Qwen-VL), die oft nur zufallsnahe Ergebnisse lieferten.
Visuelle Qualität:
- Die Verbesserung der Physik ging nicht zu Lasten der visuellen Qualität; im Gegenteil, Metriken wie Bewegungsstabilität und zeitliche Konsistenz verbesserten sich leicht.

5. Signifikanz und Ausblick

Dieses Paper ist ein Meilenstein für die Entwicklung zuverlässiger Video-Generatoren. Es zeigt, dass latente Weltmodelle als starke, trainingsfreie Reward-Funktionen dienen können, um generative Modelle an physikalische Gesetze anzupassen.

Praktische Relevanz: Die Methode ist sofort anwendbar auf bestehende Modelle ohne Nachtraining und nutzt den verfügbaren Rechenbudget zur Laufzeit („Test-Time Compute"), um die Qualität zu steigern.
Zukünftige Richtungen: Die Autoren sehen Potenzial in der Verbesserung der Reward-Modelle (um komplexere Physik wie Reibung oder Materialwissen abzudecken) und in effizienteren Suchalgorithmen. Zudem wird die Notwendigkeit betont, dass die Qualität des zugrundeliegenden Generators die Obergrenze der erreichbaren Physik bestimmt.

Zusammenfassend beweist die Arbeit, dass die Kombination aus latenten Weltmodellen und Inferenz-Suchstrategien ein vielversprechender Weg ist, um die „Halluzinationen" physikalischer Unmöglichkeiten in KI-generierten Videos zu eliminieren.

Inference-time Physics Alignment of Video Generative Models with Latent World Models

1. Der „Wissende Beobachter" (Das Latente Weltmodell)

2. Der „Überraschungs-Test" (Der Reward)

3. Die zwei Tricks, um das beste Video zu finden

Was haben sie erreicht?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: WMReward

Kernkonzept: Latente Weltmodelle als Belohnungsfunktion

Sampling-Strategien zur Ausrichtung

3. Wichtige Beiträge

4. Ergebnisse

5. Signifikanz und Ausblick

Mehr davon

Unified Multimodal Models as Auto-Encoders

CL4SE: A Context Learning Benchmark For Software Engineering Tasks

CRAFT: Cost-aware Expert Replica Allocation with Fine-Grained Layerwise Estimations

Spark-LLM-Eval: A Distributed Framework for Statistically Rigorous Large Language Model Evaluation

ZEUS: An Efficient GPU Optimization Method Integrating PSO, BFGS, and Automatic Differentiation