RealWonder: Real-Time Physical Action-Conditioned Video Generation

RealWonder ist ein Echtzeitsystem, das durch die Nutzung von physikalischen Simulationen als Zwischenschritt erstmals videobasierte Generierung ermöglicht, die die physikalischen Konsequenzen von 3D-Aktionen auf starre Objekte, deformierbare Körper, Flüssigkeiten und körnige Materialien aus einer einzigen Eingabebildquelle realistisch simuliert.

Wei Liu, Ziyu Chen, Zizhang Li, Yue Wang, Hong-Xing Yu, Jiajun Wu

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben ein Foto von einem Tisch mit einer Tasse Kaffee darauf. Normalerweise ist das Bild statisch – es passiert nichts. Aber was wäre, wenn Sie auf das Bild zeigen und sagen könnten: „Stoß die Tasse jetzt mal an!" oder „Lass einen Windstoß wehen"? Und das Bild würde sofort live reagieren, die Tasse würde umfallen, der Kaffee würde spritzen, und das alles in Echtzeit?

Genau das macht RealWonder. Es ist wie ein magischer Regisseur, der nicht nur Filme abspielt, sondern auf Ihre Befehle hin sofort neue Szenen erschafft, die den Gesetzen der Physik gehorchen.

Hier ist die Erklärung, wie das funktioniert, ohne komplizierte Fachbegriffe:

1. Das Problem: Warum normale KI-Video-Generatoren scheitern

Heutige KI-Modelle, die Videos aus Bildern machen, sind wie gute Schauspieler, aber schlechte Physiker. Sie können sehr schön aussehen, aber sie verstehen nicht wirklich, wie die Welt funktioniert.

  • Wenn Sie ihnen sagen: „Drück den Ball", wissen sie oft nicht, wie der Ball rollt, wie er abprallt oder wie schwer er ist.
  • Sie arbeiten nur mit 2D-Bildern (Pixel), nicht mit 3D-Objekten im Raum. Es ist, als würden Sie versuchen, ein Auto zu steuern, indem Sie nur auf das Armaturenbrett schauen, ohne das Lenkrad zu berühren.

2. Die Lösung: RealWonder als „Übersetzer"

RealWonder löst dieses Problem, indem es einen Übersetzer zwischen Ihnen (dem Nutzer) und dem KI-Modell einschaltet. Dieser Übersetzer ist ein Physik-Simulator.

Stellen Sie sich den Prozess wie eine Küche vor:

  • Der Nutzer (Sie): Sie geben eine Anweisung, z. B. „Greife die Tasse mit der Roboterklaue" oder „Wirf einen Stein hinein". Das ist wie eine Bestellung beim Koch.
  • Der Physik-Simulator (Der Koch): Bevor das KI-Modell das Video malt, nimmt der „Koch" Ihre Bestellung und spielt sie in einer virtuellen Welt durch. Er berechnet: Wenn ich die Tasse greife, wie bewegt sie sich? Wo fällt der Kaffee hin?
    • Er berechnet keine perfekten Bilder, sondern nur die Bewegung (wohin fließt das Wasser?) und einen grob skizzierten Entwurf (wo ist die Tasse jetzt?).
  • Die KI (Der Künstler): Jetzt kommt der eigentliche Künstler ins Spiel. Er sieht den groben Entwurf und die Bewegungsanleitung des Kochs. Seine Aufgabe ist es, daraus ein wunderschönes, fotorealistisches Video zu machen. Er muss nicht mehr über die Physik nachdenken; er muss nur die Bewegung des Kochs in schönes Licht, Schatten und Texturen verwandeln.

3. Warum ist das so schnell? (Das „Echtzeit"-Geheimnis)

Normalerweise braucht KI viel Zeit, um jedes Video-Bild zu berechnen (wie ein Maler, der jeden Pinselstrich minutiös plant). RealWonder ist wie ein Profi-Skizzenzeichner, der extrem schnell ist.

  • Der Trick: Anstatt das Video komplett von Grund auf neu zu malen, nutzt RealWonder die grobe Skizze des Physik-Simulators als Vorlage.
  • Die Technik: Das System wurde „distilliert" (wie bei der Destillation von Schnaps). Das bedeutet, ein sehr komplexes, langsames KI-Modell hat einem kleinen, schnellen Modell beigebracht, wie man mit nur 4 Schritten (statt normalerweise 50) ein perfektes Bild malt.
  • Das Ergebnis: Es läuft mit 13,2 Bildern pro Sekunde. Das ist so schnell, dass Sie mit der Maus über das Bild fahren können, und die KI reagiert sofort darauf, genau wie in einem Videospiel.

4. Was kann man damit machen?

Mit RealWonder können Sie mit verschiedenen Materialien spielen, als wären Sie ein Gott in einer Miniaturwelt:

  • Feste Objekte: Stoßen Sie einen Stapel Teller um.
  • Flüssigkeiten: Lassen Sie Wasser in ein Glas laufen oder einen Windstoß durch einen Vorhang wehen.
  • Roboter: Steuern Sie eine virtuelle Roboterhand, die Dinge greift und bewegt.
  • Granulat: Lassen Sie Sandburgen durch Wind zusammenbrechen.

Zusammenfassung in einem Satz

RealWonder ist wie ein unendlicher, interaktiver Spielplatz, bei dem Sie nicht nur zuschauen, sondern die Schwerkraft, den Wind und Roboterarme steuern können, und eine super-schnelle KI malt sofort das perfekte, physikalisch korrekte Bild davon, was passiert.

Es verbindet die Logik der Physik (wie Dinge sich bewegen) mit der Kunst der KI (wie Dinge schön aussehen), und das alles in Echtzeit.