SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast eine Brille auf, die nicht nur die Welt um dich herum sieht, sondern sich auch erinnert, wo alles steht – wie ein unsichtbarer, super-intelligenter Butler, der dir sagt: „Der rote Becher steht links vom Fenster, genau dort, wo du gestern warst."

Das ist im Grunde das, was das Team um Xinyi Zheng mit ihrem System SpatialMem entwickelt hat. Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Das Problem: Ein vergesslicher Film

Normalerweise nehmen wir Videos auf (z. B. mit einer Handykamera oder einer GoPro am Kopf). Ein normales Video ist wie ein langer Filmstreifen: Es zeigt nur, was in diesem Moment passiert. Wenn du das Video stoppst und fragst: „Wo war eigentlich der Schlüssel?", muss das Computer-Programm den ganzen Film von vorne durchsuchen. Das ist langsam und oft ungenau, weil das Programm nicht wirklich „weiß", wie der Raum aufgebaut ist. Es sieht nur Bilder, keine 3D-Welt.

2. Die Lösung: Ein 3D-Gedächtnis-Baum

SpatialMem macht etwas anderes. Es nimmt das Video und baut daraus kein einfaches Bild, sondern einen intelligenten 3D-Baum des Gedächtnisses.

Stell dir diesen Baum so vor:

Der Stamm (Die Struktur): Zuerst erkennt das System die festen Dinge im Raum: Wände, Türen, Fenster. Das sind die „Anker". Sie sind wie die Wurzeln des Baumes. Sie geben dem Ganzen eine stabile Basis und eine echte Größe (Meter statt nur Pixel).
Die Äste (Die Objekte): An diesen Wänden und Türen „hängen" dann die beweglichen Dinge: Der Stuhl, der Becher, die Vase. Das System weiß genau, wie weit der Becher von der Tür entfernt ist.
Die Blätter (Die Beschreibung): Jedes Objekt hat zwei Arten von Notizen:
1. Was es gerade ist: „Ein roter Becher."
2. Wo er gehört: „Steht auf dem Tisch, links vom Fenster."

3. Der Clou: Nur eine normale Kamera reicht

Früher brauchte man dafür teure Spezialkameras, die Tiefe messen können (wie bei der Nintendo Wii oder Robotern). SpatialMem ist aber wie ein Zaubertrick: Es nimmt nur ein ganz normales Handy-Video (nur Farben, keine Tiefensensoren) und rechnet aus dem Bewegungsmuster des Videos selbst die 3D-Welt zurück. Es ist, als würde ein Künstler aus einem flachen Foto eine plastische Skulptur modellieren.

4. Was kann man damit machen?

Sobald dieser „Gedächtnis-Baum" gebaut ist, kannst du ganz natürlich Fragen stellen, als würdest du mit einem Menschen sprechen:

Die Such-Maschine: „Wo ist der rote Becher?" -> Das System springt sofort zu dem Ast im Baum, wo der Becher hängt, und zeigt dir genau, wo er ist.
Der Wegweiser: „Wie komme ich zur Küche?" -> Das System plant einen Weg durch den Baum: „Gehe geradeaus zur Tür, dann links an der Wand entlang." Es nutzt die festen Anker (Wände/Türen), damit du dich nicht verirrst, auch wenn es im Raum voller Kisten steht.
Die Logik-Frage: „Was steht rechts vom Sofa?" -> Das System prüft die Abstände im 3D-Modell und antwortet präzise.

5. Warum ist das wichtig?

Stell dir vor, du bist ein Roboter oder eine AR-Brille (Augmented Reality). Du willst nicht nur sehen, sondern verstehen, wo Dinge sind, auch wenn du sie gerade nicht direkt ansiehst.

Stabilität: Selbst wenn der Raum voller Kisten ist (wie in einem chaotischen Keller), bleibt das System ruhig. Es weiß, dass die Wand dahinter ist, auch wenn sie verdeckt ist.
Geschwindigkeit: Weil die Welt schon im „Baum" gespeichert ist, muss das System nicht jedes Video neu analysieren. Es schlägt einfach im Buch nach.

Zusammenfassung in einem Satz

SpatialMem verwandelt ein langweiliges, flaches Video in einen lebendigen, dreidimensionalen Gedächtnisraum, der sich an alles erinnert, wo alles steht und wie man dorthin gelangt – und das alles nur mit einer ganz normalen Kamera, ohne teure Sensoren.

Es ist, als würdest du einem Roboter nicht nur ein Video geben, sondern ihm ein Gehirn mit einem perfekten 3D-Plan seines Hauses schenken.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Autonome Agenten (z. B. AR-Assistenten oder mobile Roboter) benötigen eine persistente, hierarchische räumliche Erinnerung, um komplexe Fragen über 3D-Umgebungen zu beantworten und Navigationen durchzuführen. Bestehende Systeme leiden jedoch unter zwei Hauptproblemen:

Hardware-Abhängigkeit: Viele Ansätze erfordern spezialisierte Sensoren wie Tiefenkameras (RGB-D) oder IMUs sowie kalibrierte Visual-SLAM-Systeme, was die Einsatzmöglichkeiten auf Standard-Hardware (z. B. Smartphones, Ego-Cameras) einschränkt.
Fehlende metrische Konsistenz: Reine 2D-Video- oder Text-basierte Erinnerungen verlieren oft die räumliche Konsistenz über lange Zeiträume und verschiedene Blickwinkel hinweg. Sie können keine präzisen metrischen Relationen (z. B. „drei Meter hinter dem Sofa") oder stabilen räumlichen Verweise (z. B. „links von der Tür") gewährleisten.

Das Ziel von SpatialMem ist es, eine abfragbare, metrisch ausgerichtete 3D-Umgebungserinnerung ausschließlich aus unkalibrierten, zufällig aufgenommenen (casual) Ego-RGB-Videostreams zu erstellen, ohne auf Tiefensensoren angewiesen zu sein.

2. Methodik

SpatialMem ist ein zentralisiertes Speichersystem, das Geometrie, Semantik und Sprache in einer einzigen, abfragbaren Baumstruktur vereint. Der Prozess gliedert sich in folgende Schritte:

A. Geometrische Vorbereitung und Metrische Ausrichtung

Eingabe: Ego-RGB-Video.
Wiedergewinnung: Mittels moderner monokularer Rekonstruktions-Backends (z. B. VGGT, SLAM3R) werden Kameraposen und dichte Tiefenkarten geschätzt.
Ausrichtung (Alignment): Der rekonstruierte Punktwolken wird in ein aufrechtes, metrisches Koordinatensystem transformiert. Dies geschieht durch:
- Erkennung des Bodens (RANSAC) und Ausrichtung der Normalen auf die globale Z-Achse.
- Skalierung mittels eines Höhen-Priors (z. B. bekannte Deckenhöhe).
Ankererkennung: Stabile strukturelle Elemente (Wände, Türen, Fenster) werden als „Anker" (Level-1) detektiert und als 3D-Ebenen oder -Boxen definiert. Diese dienen als stabile Referenzpunkte für die gesamte Erinnerung.

B. Hierarchischer Speicher (Memory Tree)

Der Speicher wird als Wurzelbaum $T = (V, E)$ organisiert:

Level 1 (Anker): Strukturelle Elemente (Wände, Türen, Fenster) mit geometrischen Parametern und Semantik.
Level 2 (Objekte): Instanzen von Objekten, die in 3D-Boxen gehoben und mit den nächstgelegenen Anker-Strukturen verknüpft sind.
Level 3 (Beschreibungen): Ein zweischichtiges Beschreibungsmodell für jedes Objekt:
- Ebene 1 (Bild-Ebene): Sichtspezifische Details (z. B. aktuelle Position relativ zum Anker, Beleuchtung).
- Ebene 2 (Szenen-Ebene): Stabile, konsolidierte Zusammenfassungen, die über mehrere Ansichten hinweg gültig sind (z. B. „Der rote Becher steht auf dem Tisch"). Dies verhindert Drift und sorgt für Konsistenz.

C. Metrische Verankerung und Relationale Semantik

Vertikale Relationen: Werden im globalen, z-ausgerichteten Frame eindeutig definiert (z. B. „auf", „unter").
Laterale Relationen: Werden zunächst egozentrisch erfasst und dann über die Anker in allocentrische Relationen (links/rechts/vorne/hinten) konsolidiert, sofern genügend Evidenz vorliegt.
Abfrage: Natursprachliche Anfragen werden in Pfade durch den Speicherbaum übersetzt. Das System nutzt die Anker, um Suchräume einzugrenzen, und prüft geometrische Prädikate (Distanz, Sichtbarkeit, Ausrichtung).

3. Hauptbeiträge

Einheitliches 3D-Memory-System: Ein System, das ausschließlich aus Ego-RGB-Video aufgebaut wird und Geometrie, Semantik und Sprache in einer metrisch verankerten Hierarchie vereint.
Zweischichtige Beschreibung: Ein Mechanismus, der zwischen flüchtigen bildbasierten Details und stabilen szenenweiten Zusammenfassungen unterscheidet, was die Zuverlässigkeit bei der Pfad-Grounding verbessert.
Strukturelle Anker: Die Nutzung von Wänden, Türen und Fenstern als stabile Referenzpunkte ermöglicht präzises räumliches Schließen und offene Vokabular-Abfragen (Open-Vocabulary).
Effiziente Abfragearchitektur: Ein Low-Latency-System für Offline-Navigationsführung und Objektrückgewinnung, das auf einem vorgebauten Speicher operiert.

4. Ergebnisse

Das System wurde an drei Szenarien evaluiert: einer öffentlichen Replica-Szene (einfach) und zwei realen, komplexeren Ego-Indoor-Szenen (Wohnzimmer, Labor mit hohem Chaos).

Layout-Verständnis: SpatialMem erreicht in Aufgaben zur relativen Positionierung eine Genauigkeit von ca. 0,84 (Szene 1), was mit führenden Multimodal-Modellen wie Google Gemini 2.5 Flash (0,86) konkurrierbar ist, aber deutlich besser abschneidet als andere lokale Modelle. Die Leistung bleibt auch bei steigender Komplexität (Szene 3) stabil.
Navigationsführung: Bei der Offline-Navigationsführung (Schritt-für-Schritt-Anleitung) erreicht SpatialMem eine Schritt-Abschlussrate (Step Completion) von 0,89 in Szene 1, was höher ist als bei Gemini (0,84). Die Pfad-Effizienz (SPL) liegt bei 0,69.
Objektrückgewinnung: Die Erfolgsrate bei der Objektsuche (SR_obj) liegt bei 0,83 (Szene 1) und bleibt in komplexeren Szenen (0,72 in Szene 3) konkurrenzfähig. Die hierarchische Korrektheit (Acc_path) ist ebenfalls hoch.
Robustheit: Ablation-Studien zeigen, dass das Entfernen der zweischichtigen Beschreibungen die Leistung signifikant verschlechtert. Das System ist zudem robust gegenüber leichten Skalierungsstörungen (±10%).

5. Bedeutung und Fazit

SpatialMem demonstriert, dass eine robuste, metrisch verankerte räumliche Erinnerung auch ohne spezialisierte Tiefensensoren möglich ist. Durch die Kombination von monokularer 3D-Rekonstruktion mit strukturellen Ankerpunkten und einem hierarchischen Speichermodell gelingt es, komplexe räumliche Fragen zu beantworten und Navigationen in chaotischen Umgebungen zu unterstützen.

Das System stellt einen wichtigen Schritt hin zu langfristigen, räumlich fundierten Video-Verständnissystemen für den Alltag dar. Es ermöglicht die Nutzung von Standardhardware (Smartphones, Ego-Kameras) für Anwendungen wie AR-Assistenten oder robotergestützte Navigation, wobei die Interpretierbarkeit der Speicherstruktur (durch Anker und metrische Relationen) ein entscheidender Vorteil gegenüber reinen Black-Box-Modellen ist.