Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Dit paper introduceert ViewRope, een geometrie-bewuste rotatiepositie-embeddingsmethode die camera-stralen direct in de zelf-attentie van video-transformers injecteert om de ruimtelijke consistentie van voorspellende wereldmodellen te verbeteren en geometrische drift bij lange trajecten te voorkomen.

Chendong Xiang, Jiajun Liu, Jintao Zhang, Xiao Yang, Zhengwei Fang, Shizun Wang, Zijun Wang, Yingtian Zou, Hang Su, Jun Zhu

Gepubliceerd 2026-02-24
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een film maakt met een camera die door een virtuele wereld vliegt. Je draait om een hoek, kijkt naar een boom, draait weer om en komt terug naar dezelfde boom.

In de meeste huidige AI-films gebeurt er dan iets raars: de boom is verdwenen, of hij ziet eruit als een andere boom, of de kleur is veranderd. De AI heeft de "geheugen" van die boom verloren zodra de camera even weg was. Het is alsof je een foto van je kamer maakt, wegloopt, terugkomt en de kamer er dan compleet anders uitziet.

De onderzoekers van dit papier hebben een oplossing bedacht die ze ViewRope noemen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Scherm-Blindheid"

Huidige AI-modellen kijken naar video's alsof ze alleen naar een plat scherm kijken. Ze onthouden: "Op pixel 100, 200 zag ik een boom."
Maar als de camera draait, verandert de positie van die boom op het scherm volledig. De boom zit nu op pixel 500, 100. Voor de AI is dit een heel ander ding. Ze denkt: "Oh, hier is een nieuwe boom!" en vergeten de oude. Dit heet geometrische drift.

2. De Oplossing: ViewRope (De "Blik-Compass")

In plaats van te kijken naar waar iets op het scherm staat, leert ViewRope de AI om te kijken naar naar waar de camera kijkt.

  • De Analogie: Stel je voor dat je een kompas hebt dat niet naar het noorden wijst, maar naar je blikrichting.
    • Normale AI: "Ik zie een boom op de linkerkant van het scherm." (Dit verandert als je je hoofd draait).
    • ViewRope AI: "Ik kijk rechtstreeks naar een boom." (Dit blijft hetzelfde, of je nu links, rechts, boven of onder kijkt).

ViewRope pakt de richting van de camerastralen (de "blik") en stopt die direct in het brein van de AI. Zo weet de AI: "Als ik straks weer naar die richting kijk, moet ik dezelfde boom laten zien, ongeacht waar die op het scherm staat."

3. Het Slimme Geheugen: "Geometry-Aware Attention"

Video's kunnen heel lang zijn. Als je een uur lang filmt, moet de AI duizenden frames onthouden. Als ze naar alles tegelijk kijken, wordt de computer traag en duur.

De onderzoekers hebben een slimme filter bedacht: Geometry-Aware Frame-Sparse Attention.

  • De Analogie: Stel je voor dat je een enorme bibliotheek hebt met duizenden boeken (oude beelden). Als je een nieuwe scène schrijft, zou je normaal gesproken alle boeken moeten doorzoeken. Dat duurt eeuwen.
  • De ViewRope-methode: De AI heeft nu een magische kaart. Ze weet precies welke boeken (oude beelden) relevant zijn voor de huidige blikrichting. Ze negeert de rest en pakt alleen die 5 of 10 boeken die echt belangrijk zijn.
    • Dit maakt het proces sneller (minder boeken lezen) en slimmer (geen verwarrende informatie).

4. De Test: ViewBench

Om te bewijzen dat het werkt, hebben ze een nieuwe test gemaakt genaamd ViewBench.

  • De Test: De camera maakt een rondje (draait weg en komt weer terug).
  • Het Resultaat:
    • De oude AI's: De kamer ziet er bij terugkomst anders uit (geesten, nieuwe muren, vervormde bomen).
    • De ViewRope AI: De kamer is exact hetzelfde als toen je wegging. De boom staat op dezelfde plek, met dezelfde kleur.

Samenvatting in één zin

ViewRope geeft de AI een 3D-kompas in plaats van een plat scherm, zodat ze weet dat een boom een boom blijft, zelfs als je er omheen draait, en ze doet dit zo slim dat ze niet de hele geschiedenis hoeft te lezen om het te onthouden.

Dit is een grote stap voor interactieve AI, zoals voor virtuele werelden (VR), games en toekomstige robots die de wereld echt consistent moeten begrijpen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →