UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models

Das Paper stellt UCM vor, ein neuartiges Framework, das durch eine zeitbewusste Positionscodierungs-Warping-Mechanismus und einen effizienten Dual-Stream-Diffusions-Transformer langfristige Szenenkonsistenz sowie präzise Kamerasteuerung in Weltmodellen für die Videogenerierung vereint.

Tianxing Xu, Zixuan Wang, Guangyuan Wang, Li Hu, Zhongyi Zhang, Peng Zhang, Bang Zhang, Song-Hai Zhang

Veröffentlicht 2026-02-27
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie möchten einen Film drehen, bei dem die Kamera frei durch eine Welt schwebt – mal fliegt sie über eine Stadt, mal taucht sie in einen Wald ein. Das Problem bei aktuellen KI-Filmen ist jedoch: Wenn die Kamera zu einem Ort zurückkehrt, den sie schon einmal gesehen hat, erkennt die KI diesen Ort oft nicht wieder. Die Gebäude sehen plötzlich anders aus, die Farben ändern sich oder die Szene "vergisst", wie sie war. Es ist, als würde ein Regisseur die Kulissen nach jeder Einstellung neu bauen, ohne sich an das Original zu erinnern.

Die Forscher von UCM (Unifying Camera Control and Memory) haben eine Lösung entwickelt, die diesem Problem ein Ende setzt. Hier ist eine einfache Erklärung ihrer Arbeit, verpackt in Alltagsbilder:

1. Das Problem: Der vergessliche Regisseur

Bisherige KI-Modelle für Videogeneration arbeiten wie ein Regisseur mit einem sehr kurzen Gedächtnis. Sie schauen sich nur die letzten paar Sekunden an, um den nächsten Moment zu planen. Wenn die Kamera aber einen langen Bogen beschreibt und zu einem alten Ort zurückkehrt, hat die KI die Details längst vergessen. Zudem ist es schwer, der KI exakt zu sagen: "Fliege jetzt genau 5 Meter nach links und drehe dich um 30 Grad." Die KI macht das oft ungenau.

2. Die Lösung: Ein "Gedächtnis-Atlas" mit Zeit-Brille

UCM führt zwei revolutionäre Ideen ein, die wie ein super-intelligenter Assistent funktionieren:

  • Der Zeit-Atlas (Time-aware Positional Encoding Warping):
    Stellen Sie sich vor, die KI hat einen riesigen Atlas der Welt, in dem jeder Punkt nicht nur einen Ort, sondern auch eine Zeit und eine Blickrichtung hat.
    Wenn die Kamera sich bewegt, nutzt UCM diese "Zeit-Brille", um die alten Bilder (die Erinnerung) genau so zu verzerren und anzupassen, als würde man sie durch ein neues Fenster betrachten.
    Die Analogie: Nehmen Sie ein Foto von einem Baum. Wenn Sie sich um den Baum herum bewegen, sieht er von jeder Seite anders aus. UCM nimmt das alte Foto des Baumes und "verformt" es mathematisch perfekt, damit es genau so aussieht, wie er von der neuen Kameraposition aus aussehen würde. So weiß die KI immer noch genau, wie der Baum aussieht, auch wenn sie ihn schon vor 100 Sekunden gesehen hat. Das sorgt für perfekte Konsistenz.

  • Die Zwei-Strom-Küche (Efficient Dual-Stream Diffusion):
    Normalerweise müsste die KI alles auf einmal berechnen: Die Erinnerung (die alten Bilder) und die neue Szene (was gerade passiert). Das ist wie ein Koch, der versucht, gleichzeitig das Abendessen zu kochen und das Geschirr zu spülen, während er noch den Einkaufsplan liest – das wird chaotisch und langsam.
    UCM trennt diese Aufgaben in zwei Ströme:

    1. Der ruhige Strom: Hier werden die alten Bilder (das Gedächtnis) vorbereitet. Sie werden nicht neu "gekocht", sondern nur als Referenz bereitgehalten.
    2. Der aktive Strom: Hier wird das neue Video generiert.
      Der aktive Strom schaut sich nur die relevanten Teile des ruhigen Stroms an (wie ein Koch, der nur auf die Zutaten schaut, die er gerade braucht). Das macht den Prozess schneller und effizienter, ohne Qualität zu verlieren.

3. Der Trick mit dem Training: Die "Simulierte Zeitreise"

Ein großes Problem beim Lernen solcher KI-Modelle ist, dass es kaum echte Videos gibt, in denen eine Kamera lange Zeit durch dieselbe Welt fliegt und immer wieder zurückkehrt.
Die Forscher haben einen cleveren Trick angewendet:
Sie nehmen normale Videos (z. B. von einer Straßenumgebung) und nutzen eine 3D-Software, um daraus eine Punktwolke (eine Art 3D-Modell) zu bauen. Dann "reisen" sie virtuell in diesem Modell zu neuen Blickwinkeln und rendern (zeichnen) neue Bilder, die so aussehen, als hätte die Kamera den Ort neu besucht.
Die Analogie: Es ist, als würde man ein Lego-Modell einer Stadt bauen, es auseinandernehmen und dann aus einer völlig anderen Perspektive wieder zusammenbauen, um zu üben, wie die Stadt von dort aussieht. So konnte das Modell mit über 500.000 Videos trainiert werden, obwohl echte "Rundum-Video"-Daten selten sind.

Das Ergebnis

Mit UCM kann die KI jetzt:

  1. Exakte Kamerafahrten: Sie tut genau das, was der Nutzer sagt (z. B. "fliege durch das Fenster und drehe dich um").
  2. Langzeit-Gedächtnis: Wenn die Kamera zu einem Ort zurückkehrt, sieht dieser Ort exakt so aus wie beim ersten Mal. Keine Verzerrungen, keine vergessenen Details.
  3. Hohe Qualität: Die Videos sehen realistisch und detailliert aus, selbst bei komplexen Szenen.

Zusammenfassend: UCM gibt der KI ein "Gedächtnis" für die Welt und eine "Brille", um alte Erinnerungen perfekt an neue Blickwinkel anzupassen. Es ist, als hätte man einen Regisseur, der nie vergisst, wie eine Kulisse aussieht, und der die Kamera mit chirurgischer Präzision steuern kann.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →