Physion-Eval: Evaluating Physical Realism in Generated Video via Human Reasoning

Die Arbeit stellt Physion-Eval vor, ein umfassendes Benchmark-System mit über 10.000 von Experten annotierten Reasoning-Traces, das die physikalische Realitätstreu von generierten Videos bewertet und zeigt, dass aktuelle Modelle in physik-kritischen Szenarien häufig menschlich erkennbare Fehler aufweisen.

Qin Zhang, Peiyu Jing, Hong-Xing Yu, Fangqiang Ding, Fan Nie, Weimin Wang, Yilun Du, James Zou, Jiajun Wu, Bing Shuai

Veröffentlicht 2026-03-23
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Physion-Eval: Wenn KI-Filme die Schwerkraft vergessen

Stell dir vor, du schaust dir einen Film an, der von einer künstlichen Intelligenz (KI) komplett selbstständig gedreht wurde. Die Bilder sind atemberaubend schön, die Farben leuchten, und die Schauspieler sehen realistisch aus. Aber plötzlich passiert etwas Seltsames: Ein Glas fällt vom Tisch, zerschellt in der Luft, verwandelt sich in Schmetterlinge und fliegt dann zurück auf den Tisch, als wäre nichts passiert. Oder ein Mensch läuft durch eine Wand, ohne sie zu berühren.

Das ist das Problem, das die Forscher in dieser Arbeit untersuchen. Sie haben eine neue Methode entwickelt, um zu prüfen, ob KI-generierte Videos wirklich den Gesetzen der Physik gehorchen oder ob sie nur wie echte Filme aussehen, aber im Inneren völlig verrückt spielen.

Hier ist die einfache Erklärung der Studie, mit ein paar anschaulichen Vergleichen:

1. Das Problem: Der "Schönheits-Trick"

Bisher haben wir KI-Videos oft nur danach bewertet, wie schön sie aussehen. Das ist wie bei einem Haus: Wenn die Fassade perfekt gestrichen ist, denken wir, das Haus ist stabil. Aber was, wenn die Wände aus Papier sind und der Boden aus Wasser besteht?
Die aktuellen KI-Modelle (wie Sora oder Veo) sind Meister im Malen von schönen Bildern. Aber sie verstehen die Regeln der Realität nicht wirklich. Sie wissen nicht, dass ein schwerer Stein schneller fällt als ein Federball, oder dass man nicht durch eine Wand laufen kann.

2. Die Lösung: Ein neuer "Physik-Test" (Physion-Eval)

Die Forscher haben einen riesigen neuen Test entwickelt, den sie Physion-Eval nennen. Stell dir das wie einen strengen Physik-Lehrer vor, der sich Videos ansieht und sagt: "Moment mal, das geht physikalisch gar nicht!"

  • Die Daten: Sie haben über 12.000 KI-Videos erstellt, basierend auf echten Videos von alltäglichen Dingen (wie Kochen, Wasser gießen oder Dinge fallen lassen).
  • Die Experten: Statt nur Computer-Algorithmen zu nutzen, haben sie 90 echte Experten (Physiker und Ingenieure) engagiert. Diese Experten haben sich die Videos genau angesehen und notiert:
    • Wo genau der Fehler passiert (z. B. "Sekunde 2,3 bis 4,1").
    • Was genau falsch ist (z. B. "Ein Objekt verschwindet einfach" oder "Schwerkraft funktioniert nicht").
    • Warum es falsch ist (eine Erklärung in normaler Sprache).

Das Ergebnis ist eine riesige Datenbank mit über 10.000 detaillierten Berichten über physikalische Fehler.

3. Die schockierende Entdeckung

Als sie die Ergebnisse auswerteten, sahen sie ein riesiges Problem:

  • Fast alle Videos haben Fehler: Bei Videos, die aus der Perspektive einer Person gefilmt wurden (wie aus den Augen eines Roboters), hatten 93,5 % mindestens einen physikalischen Fehler. Bei Videos aus der Vogelperspektive waren es immer noch 83,3 %.
  • Das bedeutet: Die meisten KI-Videos, die wir heute sehen, sind wie ein Traum, in dem die Gesetze der Physik nicht gelten. Für einen Film mag das cool sein, aber für Anwendungen wie Roboter, die in der echten Welt arbeiten sollen, ist das katastrophal.

4. Der große Unterschied: Mensch vs. KI-Gerät

Ein weiterer spannender Teil der Studie war der Vergleich zwischen menschlichen Augen und KI-Prüfern (den sogenannten MLLMs).

  • Der normale Mensch: Selbst jemand, der kein Physiker ist, merkt sofort, wenn etwas falsch läuft. Wenn ein Ball durch eine Wand fliegt, sagt unser Gehirn: "Das ist doof!"
  • Die KI-Prüfer: Die Forscher haben die besten aktuellen KI-Modelle getestet, um zu sehen, ob diese die Fehler selbst erkennen können. Das Ergebnis war ernüchternd: Die KI-Prüfer haben die Fehler fast gar nicht bemerkt.
    • Vergleich: Stell dir vor, du hast einen sehr schlauen Assistenten, der dir sagt: "Alles sieht toll aus!" – obwohl gerade das Dach des Hauses in Flammen steht. Die KI-Prüfer halluzinieren oft Erklärungen ("Ah, das ist ein Schatten-Effekt"), obwohl es gar keinen Schatten gibt.

5. Warum ist das wichtig?

Warum sollten wir uns darum kümmern, ob ein KI-Film die Schwerkraft beachtet?

  1. Roboter und Autos: Wenn wir KI nutzen wollen, um Roboter zu bauen, die in unserer Küche kochen oder Autos, die selbstständig fahren, müssen diese Systeme die Physik verstehen. Wenn ein Roboter denkt, ein Glas sei aus Wasser, wird er es fallen lassen und zerbrechen.
  2. Bessere Filme: Damit KI wirklich als Werkzeug für Filmemacher dienen kann, muss sie nicht nur hübsche Bilder malen, sondern auch glaubwürdige Welten erschaffen.
  3. Vertrauen: Wir müssen wissen, wann wir einer KI trauen können und wann sie uns nur etwas vorspielt.

Fazit

Die Studie sagt uns im Grunde: Unsere KI-Videos sind noch wie ein Kind, das gerade erst lernt, wie die Welt funktioniert. Es malt schöne Bilder, aber es versteht noch nicht, dass Dinge fallen, brechen und sich nicht durch Wände bewegen können.

Mit Physion-Eval haben die Forscher nun eine Art "Physik-Notenbuch" erstellt, das zeigt, wo genau die KI versagt. Das Ziel ist es, die KI so zu trainieren, dass sie nicht nur sieht, wie die Welt aussieht, sondern auch versteht, wie sie funktioniert. Bis dahin sollten wir uns die KI-Videos vielleicht eher wie einen surrealen Traum ansehen – schön anzusehen, aber nicht unbedingt real.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →