Inference-time Physics Alignment of Video Generative Models with Latent World Models

Die Autoren stellen WMReward vor, eine Methode zur Inference-time-Alignment von Videogenerierungsmodellen, die einen latenten Weltmodell-Reward nutzt, um die physikalische Plausibilität durch das Steuern von Denoising-Trajektorien zu verbessern und dabei den ersten Platz im ICCV 2025 Perception Test PhysicsIQ Challenge zu erreichen.

Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich, Nicolas Beltran-Velez, Melissa Hall, Reyhane Askari-Hemmat, Xiaochuang Han, Nicolas Ballas, Michal Drozdzal, Adriana Romero-Soriano

Veröffentlicht 2026-03-02
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen genialen Filmemacher-KI, der unglaublich schöne Videos erstellen kann. Er kann Sonnenuntergänge, tanzende Katzen und futuristische Städte malen. Aber es gibt ein großes Problem: Die Physik funktioniert in seinen Filmen nicht.

Wenn er einen Ball wirft, fliegt er vielleicht durch die Wand. Wenn Wasser aus einem Glas läuft, fließt es manchmal nach oben. Oder ein Auto fährt, ohne dass die Räder sich drehen. Das sieht zwar cool aus, ist aber für unseren Verstand „falsch" und stört die Illusion.

Bisher dachten Forscher: „Okay, wir müssen den KI-Filmemacher neu ausbilden, damit er die Gesetze der Physik lernt." Das ist wie ein Schüler, der jahrelang zur Schule gehen muss, um zu verstehen, warum Dinge fallen.

Die neue Idee dieses Papers:
Die Forscher sagen: „Warte mal! Der Filmemacher weiß die Physik eigentlich schon, aber er ist beim Zeichnen etwas ungeduldig. Wir müssen ihm nicht die Schule schicken, sondern ihm während des Zeichnens helfen."

Hier ist die Erklärung der Methode, WMReward, mit einfachen Analogien:

1. Der „Wissende Beobachter" (Das Latente Weltmodell)

Stell dir vor, neben dem Filmemacher sitzt ein sehr kluger Physiklehrer. Dieser Lehrer hat nie Filme gemacht, aber er hat Millionen von Stunden echte Naturdokumentationen gesehen. Er weiß genau, wie ein Ball fliegt, wie Wasser fließt und wie sich Stoffe verhalten.

In der Technik heißt dieser Lehrer VJEPA-2. Er ist ein „Weltmodell". Das Besondere: Er schaut sich nicht jedes einzelne Pixel an (wie ein Maler), sondern er versteht die Bewegung und die Struktur der Dinge. Er denkt: „Aha, wenn dieser Stein hier ist, muss der nächste Stein dort sein, sonst fällt er durch den Boden."

2. Der „Überraschungs-Test" (Der Reward)

Der Filmemacher (die Videogenerator-KI) zeichnet nun ein Video. Der Physiklehrer (VJEPA-2) schaut sich das an und sagt:

  • „Oh, das hier sieht aus, als würde der Ball durch die Wand gehen. Das ist überraschend für mich! Das ist falsch."
  • „Oh, das hier sieht aus, als würde das Wasser normal fließen. Das ist nicht überraschend. Das ist gut."

Die Forscher nutzen dieses Gefühl der „Überraschung" als Belohnungspunkt. Je weniger überrascht der Lehrer ist, desto besser ist das Video.

3. Die zwei Tricks, um das beste Video zu finden

Jetzt kommt der spannende Teil: Wie nutzen wir diesen Lehrer, um das Video zu verbessern, ohne den Filmemacher neu zu trainieren? Die Forscher nutzen zwei Strategien:

  • Trick A: Der „Best-of-N" (Der Lotterie-Ansatz)
    Stell dir vor, der Filmemacher malt 16 verschiedene Versionen desselben Videos gleichzeitig. Der Physiklehrer schaut sich alle 16 an und sagt: „Version 7 ist die beste, da fließt das Wasser richtig!"
    Dann nehmen wir nur Version 7 und verwerfen die anderen 15.
    Vorteil: Einfach und effektiv.
    Nachteil: Man muss 16 Mal mehr Rechenleistung verbrauchen.

  • Trick B: Der „Kompass" (Die Führung)
    Stell dir vor, der Filmemacher malt das Video Strich für Strich. Der Physiklehrer steht daneben und hält einen Kompass.
    „Nein, nein, der Ball geht zu weit nach links! Ein bisschen mehr nach rechts, dann passt die Schwerkraft!"
    Der Filmemacher korrigiert seinen Strich sofort, während er malt.
    Vorteil: Man braucht weniger Versuche, aber die Korrektur ist komplexer.

  • Der Super-Trick: Die Kombination
    Die Forscher kombinieren beide: Sie lassen den Filmemacher mit dem Kompass arbeiten (Trick B), malen dann trotzdem 16 Versionen (Trick A) und wählen die absolut beste aus. Das Ergebnis ist ein Video, das physikalisch fast perfekt ist.

Was haben sie erreicht?

Die Forscher haben ihre Methode auf die besten KI-Video-Modelle der Welt angewandt (wie Sora, MAGI-1 und andere).

  • Das Ergebnis: Die Videos sehen nicht nur schöner aus, sie machen auch physikalisch Sinn. Bälle prallen ab, Wasser fließt nach unten, Objekte kollidieren realistisch.
  • Der Beweis: In einem großen Test namens „PhysicsIQ" (ein Physik-Quiz für KIs) haben sie mit ihrer Methode Platz 1 belegt und den alten Rekord um fast 7 Punkte gebrochen.
  • Menschliche Meinung: Wenn Menschen die Videos gesehen haben, sagten sie: „Ja, das sieht viel realistischer aus!"

Zusammenfassung in einem Satz

Statt die KI neu zu lernen zu lassen, geben wir ihr einen Physik-Experten als Co-Piloten, der ihr während des Erstellens sagt: „Das hier ist physikalisch unmöglich, versuch es noch einmal anders!" – und das führt zu Videos, die sich wie echte Filme anfühlen.

Warum ist das wichtig?
Weil wir KI bald für Roboter, autonomes Fahren und Simulationen brauchen. Wenn eine KI nicht versteht, wie die Welt funktioniert, kann sie keine sicheren Autos steuern oder Roboter bauen, die nicht gegen Wände laufen. Diese Methode ist ein großer Schritt in Richtung einer KI, die die Welt wirklich „versteht".