UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models

UCM is een nieuw framework dat lange termijn consistentie en precieze camerabesturing in wereldmodellen verenigt door een tijdbewuste positionele encoding-warping-mechanisme en een efficiënte dubbelstroom-diffusietransformator te gebruiken, wat resulteert in overleggende prestaties op synthetische en real-world benchmarks.

Tianxing Xu, Zixuan Wang, Guangyuan Wang, Li Hu, Zhongyi Zhang, Peng Zhang, Bang Zhang, Song-Hai Zhang

Gepubliceerd 2026-02-27
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een regisseur bent die een film draait in een virtuele wereld. Je wilt dat de camera soepel beweegt, dat je de scène kunt verlaten en later weer terugkeert naar exact dezelfde plek zonder dat de muren veranderen van kleur of de meubels verdwijnen. En je wilt dit allemaal doen op basis van een simpele beschrijving in tekst.

Dat is precies wat het nieuwe systeem UCM (Unifying Camera Control and Memory) doet, ontwikkeld door onderzoekers van Tsinghua Universiteit en Alibaba. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Vergetelheid" van AI-films

Tot nu toe hadden AI-filmmakers twee grote problemen:

  • De geheugenverlies: Als je een AI vraagt om een lange film te maken en je laat de camera een rondje maken, vergeet de AI vaak hoe de kamer eruitzag toen je wegging. Als je terugkomt, is de kamer veranderd of is de persoon verdwenen. Het is alsof je een verhaal vertelt, maar na elke zin vergeet je wat je de vorige zin hebt gezegd.
  • De oncontroleerbare camera: Het is lastig om de AI te vertellen: "Ga nu precies naar links en zoom in." Vaak doet de AI wat hij zelf wil, of beweegt de camera onzachtjes.

2. De Oplossing: Een "Tijdbewust" GPS-systeem

UCM lost dit op met een slimme truc die ze Time-aware Positional Encoding Warping noemen. Laten we dat omschrijven als een Tijdbewust GPS-systeem.

Stel je voor dat je een foto van een kamer maakt. Normaal gesproken weet de computer alleen: "Dit is een stoel op positie X, Y". Maar met UCM krijgt elke pixel een 3D-coördinaat met een tijdstempel.

  • Het systeem bouwt een onzichtbaar, driedimensionaal model (een puntwolk) van de hele wereld.
  • Als je de camera beweegt, "warp" (vervormt) het systeem de posities van de objecten in het geheugen precies zoals ze zouden moeten zijn vanuit je nieuwe hoek.
  • De analogie: Het is alsof je een foto van een stad in een 3D-bril bekijkt. Als je je hoofd draait, ziet de bril de gebouwen automatisch van de juiste kant, zonder dat je de foto hoeft te herhalen. Het systeem "weet" precies waar elke steen zit, zelfs als je terugkijkt naar een plek die je 100 beelden geleden hebt verlaten.

3. De "Dubbele Stroom" voor Snelheid

Een ander probleem is dat het berekenen van al deze 3D-gegevens heel veel rekenkracht kost. Het zou zijn alsof je een hele bibliotheek moet doorzoeken voor elk nieuw woord dat je schrijft.

UCM gebruikt een Efficiënte Dubbele Stroom architectuur.

  • Stroom 1 (Het geheugen): Dit is de "stille" kant. Hier worden de oude beelden en de camera-instructies bewaard. Ze hoeven niet constant opnieuw te worden bedacht; ze zijn al klaar.
  • Stroom 2 (De creatie): Dit is de "actieve" kant. Hier wordt het nieuwe beeld gegenereerd.
  • De analogie: Stel je voor dat je een schilder bent. In plaats van elke keer dat je een nieuwe penseelstreek maakt, de hele foto opnieuw te bekijken en te berekenen, heb je een assistent (Stroom 1) die de oude foto vasthoudt en alleen de instructies geeft: "De muur is hier, de stoel daar." Jij (Stroom 2) hoeft alleen maar te schilderen op basis van die instructies. Dit maakt het proces veel sneller en efficiënter.

4. Oefenen met "Tijdmachines" (Data Curation)

Om dit systeem te leren, heb je duizenden video's nodig waarin mensen dezelfde scène vanuit verschillende hoeken filmen. Maar die bestaan bijna niet op het internet.

De onderzoekers bedachten een slimme oplossing: Simulatie.

  • Ze nemen gewone video's (van één camera) en gebruiken een 3D-systeem om er virtuele "tijdmachines" van te maken.
  • Ze "rekenen" de video om naar een puntwolk en renderen (tekenen) diezelfde scène opnieuw vanuit een willekeurige nieuwe hoek.
  • De analogie: Het is alsof je een foto van een huis hebt, en je gebruikt een computer om te simuleren hoe dat huis eruit zou zien als je eromheen liep. Zo kunnen ze het systeem trainen met honderdduizenden video's, zelfs als er maar één camera in de originele video zat.

Samenvatting

UCM is als een onvergetelijke regisseur die:

  1. Altijd weet hoe de wereld eruitzag, zelfs als je jaren (of duizenden beelden) terugkijkt.
  2. Precies doet wat je met de camera wilt, alsof je een onzichtbare hand hebt die de lens bestuurt.
  3. Snel genoeg werkt om realistische films te maken, dankzij slimme trucs om de rekenkracht te besparen.

Met deze technologie kunnen we in de toekomst virtuele werelden bezoeken die voelen als echt, waar we vrij rond kunnen lopen zonder dat de wereld om ons heen verandert of verdwijnt.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →