Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Die Arbeit stellt ViewRope vor, eine geometriebewusste rotierende Positionseingebung, die Kamerablickrichtungen direkt in Video-Transformer integriert, um die räumliche Konsistenz und Langzeitstabilität von Weltmodellen bei expliziter Kamerasteuerung zu verbessern und gleichzeitig die Rechenkosten durch eine neue geometriebewusste, frame-sparse Aufmerksamkeitsmechanik zu senken.

Chendong Xiang, Jiajun Liu, Jintao Zhang, Xiao Yang, Zhengwei Fang, Shizun Wang, Zijun Wang, Yingtian Zou, Hang Su, Jun Zhu

Veröffentlicht 2026-02-24
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du spielst ein Videospiel in einer virtuellen Welt. Du drehst dich um, gehst ein paar Schritte, schaust dich um und drehst dich dann wieder zurück zu dem Punkt, an dem du angefangen hast.

In den meisten aktuellen KI-Modellen passiert dann etwas Seltsames: Wenn du zurückblickst, ist die Welt nicht mehr dieselbe. Die Wand, die vorher da war, ist verschwunden, oder ein Baum hat plötzlich eine andere Farbe. Es ist, als würde die KI kurzzeitig das Gedächtnis verlieren, sobald sie sich bewegt hat. Sie „halluziniert" neue Details, anstatt sich an das zu erinnern, was sie schon gesehen hat.

Das ist das Problem, das die Forscher in diesem Papier mit ViewRope lösen wollen. Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Der „verlorene Blick"

Bisher haben KIs Videos hauptsächlich wie ein Film betrachtet: Frame für Frame. Sie wissen, dass Bild 2 auf Bild 1 folgt. Aber sie verstehen nicht wirklich den Raum.

Stell dir vor, du hältst eine Kamera in der Hand. Wenn du dich drehst, ändert sich, was auf dem Bildschirm zu sehen ist. Ein altertümlicher Stein, der links im Bild war, rutscht nach rechts, wenn du dich drehst.

  • Die alte KI denkt: „Oh, links ist jetzt etwas anderes. Ich muss etwas Neues erfinden."
  • Die neue KI (ViewRope) denkt: „Aha, ich habe mich nur gedreht. Der Stein ist immer noch da, er ist nur von einer anderen Perspektive zu sehen."

Das alte System verliert den Bezug zur 3D-Welt, weil es nur auf die Pixel auf dem Bildschirm schaut, nicht auf die Richtung, in die die Kamera blickt.

2. Die Lösung: ViewRope (Der „Kompass" für die KI)

Die Forscher haben eine neue Methode namens ViewRope entwickelt. Das ist wie ein eingebauter Kompass für die KI.

  • Wie es funktioniert: Normalerweise sagt die KI einem Bildteil: „Du bist oben links im Bild." ViewRope sagt stattdessen: „Du wirst von dieser spezifischen Richtung im Raum aus betrachtet."
  • Die Analogie: Stell dir vor, du bist in einem dunklen Raum mit vielen Gegenständen.
    • Ohne Kompass (alte KI) würdest du sagen: „Der Stuhl war links." Wenn du dich drehst, ist er plötzlich rechts. Du denkst, es ist ein neuer Stuhl.
    • Mit Kompass (ViewRope) sagst du: „Der Stuhl ist immer noch 3 Meter nördlich von mir." Egal, wie du dich drehst, die KI weiß genau, wo der Stuhl im Raum ist. Sie kann sich also daran erinnern, wie er aussieht, auch wenn du ihn von einer ganz anderen Seite betrachtest.

3. Der Trick: Nur das Wichtige ansehen (Geometrische Sparsamkeit)

Wenn eine KI einen sehr langen Film generiert, muss sie sich an tausende vergangene Bilder erinnern. Das ist wie ein Mensch, der versucht, sich an jeden einzelnen Moment seines ganzen Lebens zu erinnern, während er gleichzeitig einen neuen Film drehen muss. Das ist zu anstrengend und langsam.

ViewRope nutzt einen cleveren Trick namens „Geometry-Aware Frame-Sparse Attention".

  • Die Analogie: Stell dir vor, du suchst in einem riesigen Archiv nach einem Foto von deinem Geburtstag.
    • Die alte KI würde jedes Foto durchsuchen, das sie je gesehen hat (sehr langsam).
    • ViewRope schaut sich zuerst an, wohin du gerade blickst. Wenn du dich wieder zu deinem Geburtstag drehst, sagt der Kompass: „Hey, du schaust genau in die Richtung, wo wir das Foto vom Geburtstag gemacht haben!"
    • Die KI holt sich dann nur dieses eine, relevante Foto aus dem Archiv und ignoriert alles andere. Das macht sie extrem schnell und spart Energie, ohne die Erinnerung zu verlieren.

4. Das Ergebnis: Ein stabiler Traum

Mit dieser Technik kann die KI jetzt lange Videosequenzen erstellen, in denen die Kamera sich wild bewegt, sich umdreht und wieder zurückkehrt.

  • Früher: Die Welt würde sich verzerren, Wände würden verschwinden, Objekte würden sich in andere verwandeln.
  • Jetzt: Wenn die Kamera zurückkehrt, sieht die Welt exakt so aus, als wäre sie nie weggegangen. Die KI hat die „Geometrie" (die räumliche Struktur) verstanden und behalten.

Zusammenfassung

Die Forscher haben der KI einen räumlichen Sinn gegeben. Anstatt nur Pixel zu zählen, versteht sie nun, in welche Richtung sie schaut. Dadurch kann sie sich an die Welt erinnern, die sie schon gesehen hat, selbst wenn sie sich weit entfernt hat und wieder zurückkommt. Es ist der Unterschied zwischen einem Amnesie-Patienten, der bei jeder Drehung vergisst, wo er war, und einem erfahrenen Reisenden, der immer weiß, wo er steht.

Das macht interaktive Welten (für Spiele, VR oder Simulationen) viel realistischer und stabiler, da die KI nicht mehr ständig Dinge erfindet, die gar nicht da sind.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →