LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

Die Arbeit stellt LikePhys vor, eine trainingsfreie Methode zur Bewertung des intuitiven Physikverständnisses in Video-Diffusionsmodellen durch Likelihood-Vergleiche, die zeigt, dass diese Modelle trotz aktueller Schwierigkeiten mit komplexen Dynamiken mit zunehmender Kapazität und optimierten Inferenzeinstellungen ein verbessertes Verständnis physikalischer Gesetze aufweisen.

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini

Veröffentlicht 2026-03-09
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Titel: Wie gut verstehen KI-Filme die Physik? (Eine einfache Erklärung)

Stell dir vor, du schaust dir einen Film an. Plötzlich siehst du, wie ein Ball durch den Boden fällt, als wäre er ein Geist, oder wie Wasser bergauf fließt. Dein Gehirn sagt sofort: „Das ist unmöglich! Das verstößt gegen die Gesetze der Natur."

Das ist genau das Problem, das sich die Forscher in diesem Papier gestellt haben: Verstehen moderne KI-Modelle, die Videos erstellen, wirklich, wie die Welt funktioniert? Oder machen sie nur Dinge, die aussehen, als würden sie funktionieren?

Hier ist die Geschichte hinter dem Papier, einfach erklärt:

1. Das Problem: Der „Blick"-Trick

Heutige KI-Modelle (genannt Video Diffusion Models) sind wie unglaublich talentierte Maler. Sie können wunderschöne, realistische Videos von schwebenden Drachen oder rennenden Hunden erstellen. Aber oft machen sie Fehler in der Physik. Ein Auto könnte plötzlich schweben, oder ein Schatten könnte in die falsche Richtung fallen.

Früher haben Forscher versucht, diese Fehler zu finden, indem sie die KI-Videos von anderen KIs oder Menschen bewerten ließen. Das Problem dabei: Diese „Bewerter" lassen sich oft von der Optik täuschen. Wenn ein Video nur sehr schön aussieht, denken sie, es sei auch physikalisch korrekt. Es ist wie bei einem Zaubertrick: Wenn der Zauberer sehr gut aussieht, glauben wir ihm, auch wenn die Physik nicht stimmt.

2. Die Lösung: „LikePhys" – Der Instinkt-Test

Die Forscher haben eine neue Methode namens LikePhys erfunden. Statt sich anzusehen, was die KI herausbringt (das fertige Video), schauen sie sich an, was in der KI drin ist (ihre innere Wahrscheinlichkeit).

Die Analogie: Der Musik-Tester
Stell dir vor, du hast einen Musik-Tester, der jede Note sofort erkennt.

  • Du spielst ihm eine echte Melodie vor (ein physikalisch korrektes Video).
  • Dann spielst du ihm eine Melodie vor, bei der die Noten durcheinander sind (ein physikalisch unmögliches Video).
  • Ein echter Musik-Experte würde sagen: „Die erste Melodie passt perfekt zu meinem Wissen über Musik, die zweite klingt falsch."

Wie LikePhys funktioniert:
Die Forscher erstellen Paare von Videos:

  1. Das echte Video: Ein Ball fällt normal zu Boden.
  2. Das gefälschte Video: Der gleiche Ball, aber er fliegt plötzlich nach oben oder verschwindet (physikalisch unmöglich).

Beide Videos sehen fast identisch aus (gleiche Farben, gleiche Kamera), nur die Physik ist anders. Die KI muss nun „erraten", welches Video wahrscheinlicher ist.

  • Wenn die KI die Physik wirklich versteht, wird sie sagen: „Das echte Video passt besser zu meinem Wissen."
  • Wenn sie nur die Optik nachahmt, wird sie verwirrt sein oder das falsche Video bevorzugen.

Sie messen dies nicht durch menschliches Urteil, sondern durch eine mathematische Formel im Inneren der KI. Das ist wie ein Physik-Instinkt-Test.

3. Der Prüfstein: 12 verschiedene Welten

Um den Test fair zu machen, haben die Forscher eine ganze Welt aus simulierten Szenarien gebaut (mit Hilfe von Blender, einer 3D-Software). Sie haben 12 verschiedene Situationen getestet, wie zum Beispiel:

  • Kugeln, die kollidieren (Wie prallen sie ab?)
  • Tücher, die im Wind wehen (Wie verformen sie sich?)
  • Wasser, das aus einem Hahn fließt (Wie verhält es sich?)
  • Schatten, die sich bewegen (Bleiben sie am Objekt?)

Für jede Situation haben sie das „echte" Szenario und das „verrückte" Szenario erstellt.

4. Was haben sie herausgefunden?

Sie haben 12 der besten aktuellen KI-Modelle getestet. Hier sind die wichtigsten Erkenntnisse:

  • Die Großen werden besser: Je größer und komplexer das KI-Modell ist, desto besser versteht es die Physik. Es ist wie beim Lernen: Je mehr man liest und je größer das Gehirn, desto besser versteht man die Regeln der Welt.
  • Zeit ist wichtig: Modelle, die längere Videos erstellen können, verstehen die Physik besser. Physik passiert über die Zeit. Wenn eine KI nur auf ein paar Sekunden schaut, verpasst sie den Zusammenhang.
  • Nicht alle Bereiche sind gleich schwer:
    • Die KI ist gut darin, Schatten und starre Objekte (wie fallende Steine) zu verstehen.
    • Aber sie hat riesige Probleme mit Flüssigkeiten (Wasser, Tropfen) und komplexen Bewegungen. Das ist für die KI wie für uns, wenn wir versuchen, eine Tausendfüßlerin zu malen – zu viele bewegliche Teile!
  • Kein „Schönheits-Bias": Die neue Methode (LikePhys) ist nicht davon beeinflusst, ob das Video „hübsch" aussieht. Sie prüft wirklich nur die Physik.

5. Warum ist das wichtig?

Wenn wir KI-Modelle bauen, die als „Welt-Simulatoren" dienen sollen (z. B. für autonome Autos, Roboter oder Filme), müssen sie die Physik verstehen. Ein autonomes Auto, das denkt, ein Ball könnte durch eine Wand fliegen, ist ein gefährliches Auto.

Das Fazit:
Die Forscher haben einen neuen, cleveren Spiegel gebaut, in den die KI schauen muss. Dieser Spiegel zeigt nicht, wie schön die KI ist, sondern ob sie wirklich versteht, wie die Welt funktioniert. Die Ergebnisse sind vielversprechend: Die KIs lernen langsam, aber sicher, die Regeln der Physik zu verstehen – besonders wenn sie groß genug sind und genug Zeit haben, um die Dinge zu beobachten.

Kurz gesagt: WiePhys ist wie ein Lehrer, der nicht schaut, ob die Schüler die Hausaufgaben schön geschrieben haben, sondern ob sie die Matheaufgaben wirklich verstanden haben. Und die Ergebnisse zeigen: Die Schüler werden langsam besser!