SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

SpatialMem ist ein speicherzentriertes System, das aus alltäglichen egozentrischen RGB-Videos eine metrisch ausgerichtete 3D-Struktur erstellt, um durch hierarchische Objektknoten effiziente, räumlich verankerte Abfragen und Navigation in langen Videoszenen ohne spezielle Sensoren zu ermöglichen.

Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast eine Brille auf, die nicht nur die Welt um dich herum sieht, sondern sich auch erinnert, wo alles steht – wie ein unsichtbarer, super-intelligenter Butler, der dir sagt: „Der rote Becher steht links vom Fenster, genau dort, wo du gestern warst."

Das ist im Grunde das, was das Team um Xinyi Zheng mit ihrem System SpatialMem entwickelt hat. Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Das Problem: Ein vergesslicher Film

Normalerweise nehmen wir Videos auf (z. B. mit einer Handykamera oder einer GoPro am Kopf). Ein normales Video ist wie ein langer Filmstreifen: Es zeigt nur, was in diesem Moment passiert. Wenn du das Video stoppst und fragst: „Wo war eigentlich der Schlüssel?", muss das Computer-Programm den ganzen Film von vorne durchsuchen. Das ist langsam und oft ungenau, weil das Programm nicht wirklich „weiß", wie der Raum aufgebaut ist. Es sieht nur Bilder, keine 3D-Welt.

2. Die Lösung: Ein 3D-Gedächtnis-Baum

SpatialMem macht etwas anderes. Es nimmt das Video und baut daraus kein einfaches Bild, sondern einen intelligenten 3D-Baum des Gedächtnisses.

Stell dir diesen Baum so vor:

  • Der Stamm (Die Struktur): Zuerst erkennt das System die festen Dinge im Raum: Wände, Türen, Fenster. Das sind die „Anker". Sie sind wie die Wurzeln des Baumes. Sie geben dem Ganzen eine stabile Basis und eine echte Größe (Meter statt nur Pixel).
  • Die Äste (Die Objekte): An diesen Wänden und Türen „hängen" dann die beweglichen Dinge: Der Stuhl, der Becher, die Vase. Das System weiß genau, wie weit der Becher von der Tür entfernt ist.
  • Die Blätter (Die Beschreibung): Jedes Objekt hat zwei Arten von Notizen:
    1. Was es gerade ist: „Ein roter Becher."
    2. Wo er gehört: „Steht auf dem Tisch, links vom Fenster."

3. Der Clou: Nur eine normale Kamera reicht

Früher brauchte man dafür teure Spezialkameras, die Tiefe messen können (wie bei der Nintendo Wii oder Robotern). SpatialMem ist aber wie ein Zaubertrick: Es nimmt nur ein ganz normales Handy-Video (nur Farben, keine Tiefensensoren) und rechnet aus dem Bewegungsmuster des Videos selbst die 3D-Welt zurück. Es ist, als würde ein Künstler aus einem flachen Foto eine plastische Skulptur modellieren.

4. Was kann man damit machen?

Sobald dieser „Gedächtnis-Baum" gebaut ist, kannst du ganz natürlich Fragen stellen, als würdest du mit einem Menschen sprechen:

  • Die Such-Maschine: „Wo ist der rote Becher?" -> Das System springt sofort zu dem Ast im Baum, wo der Becher hängt, und zeigt dir genau, wo er ist.
  • Der Wegweiser: „Wie komme ich zur Küche?" -> Das System plant einen Weg durch den Baum: „Gehe geradeaus zur Tür, dann links an der Wand entlang." Es nutzt die festen Anker (Wände/Türen), damit du dich nicht verirrst, auch wenn es im Raum voller Kisten steht.
  • Die Logik-Frage: „Was steht rechts vom Sofa?" -> Das System prüft die Abstände im 3D-Modell und antwortet präzise.

5. Warum ist das wichtig?

Stell dir vor, du bist ein Roboter oder eine AR-Brille (Augmented Reality). Du willst nicht nur sehen, sondern verstehen, wo Dinge sind, auch wenn du sie gerade nicht direkt ansiehst.

  • Stabilität: Selbst wenn der Raum voller Kisten ist (wie in einem chaotischen Keller), bleibt das System ruhig. Es weiß, dass die Wand dahinter ist, auch wenn sie verdeckt ist.
  • Geschwindigkeit: Weil die Welt schon im „Baum" gespeichert ist, muss das System nicht jedes Video neu analysieren. Es schlägt einfach im Buch nach.

Zusammenfassung in einem Satz

SpatialMem verwandelt ein langweiliges, flaches Video in einen lebendigen, dreidimensionalen Gedächtnisraum, der sich an alles erinnert, wo alles steht und wie man dorthin gelangt – und das alles nur mit einer ganz normalen Kamera, ohne teure Sensoren.

Es ist, als würdest du einem Roboter nicht nur ein Video geben, sondern ihm ein Gehirn mit einem perfekten 3D-Plan seines Hauses schenken.