SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot of een slimme bril (zoals voor Augmented Reality) hebt die je huis doorloopt. Normaal gesproken "vergeet" deze robot alles zodra hij de kamer verlaat. Als je hem vraagt: "Waar heb ik mijn rode mok gelaten, die ik gisteren bij het raam zag?", dan kijkt hij verward en zegt: "Ik weet het niet, ik heb geen geheugen."

SpatialMem is de oplossing voor dit probleem. Het is een slim systeem dat een duurzaam, 3D-geheugen bouwt voor robots, puur op basis van een gewone video van een camera (zoals op je telefoon of een bril).

Hier is hoe het werkt, vertaald in alledaagse termen:

1. Het Bouwplan: Van Video naar 3D-Model

Stel je voor dat je een video maakt van je kamer terwijl je erin rondloopt. Normaal is dat maar een reeks platte foto's. SpatialMem kijkt naar die video en doet alsof het een 3D-puzzel oplost.

De "Skelet"-methode: Het systeem zoekt eerst naar de grote, vaste onderdelen van je huis: de muren, de deuren en de ramen. Dit noemen ze "Ankers".
De Meting: Het zorgt ervoor dat de afstanden kloppen. Als de muur 3 meter lang is in het echt, is hij dat ook in het digitale geheugen. Het maakt de kamer "rechtop" (zodat de vloer echt de vloer is en het plafond het plafond).

2. Het Geheugen: Een Boom met Drie Lagen

In plaats van duizenden losse foto's op te slaan, bouwt SpatialMem een georganiseerde boomstructuur (een hiërarchie). Denk aan een goed georganiseerde bibliotheek of een gereedschapskist:

Lag 1 (De Steunpilaren): Dit zijn de muren, deuren en ramen. Ze zijn het fundament. Alles wordt hieraan vastgehecht.
Lag 2 (De Voorwerpen): Hier komen de objecten: de stoel, de mok, de tv. Het systeem weet precies waar deze staan ten opzichte van de muren (bijv. "De mok staat op de tafel, die tegen de noordelijke muur staat").
Lag 3 (De Beschrijvingen): Dit is het slimste deel. Het systeem slaat niet alleen op wat het is, maar ook hoe het eruitziet en waar het zit.
- Laag 1 van de beschrijving: "Een rode mok." (Algemene eigenschap).
- Laag 2 van de beschrijving: "De rode mok staat op de houten tafel, links van de deur." (Contextuele relatie).

Dit zorgt ervoor dat de robot niet verward raakt als je de kamer even anders bekijkt. Hij weet dat de mok altijd bij de deur hoort, ongeacht waar jij staat.

3. Waarom is dit zo handig? (De Creatieve Analogie)

Stel je voor dat je een gids hebt die je huis kent als zijn broekzak.

Zonder SpatialMem: De gids kijkt naar een foto van de kamer en zegt: "Ik zie een mok." Als je vraagt waar hij is, zegt hij: "Ik weet het niet meer, de foto is verouderd."
Met SpatialMem: De gids heeft een interne kaart getekend. Als je vraagt: "Is de mok links of rechts van de deur?", kijkt hij niet naar een foto, maar naar zijn kaart. Hij zegt direct: "De mok staat 2 meter rechts van de deur, op de tafel."

Het systeem gebruikt geen dure 3D-scanners of speciale sensoren. Het doet dit puur met een gewone camera die je al hebt. Het is alsof je met je ogen een 3D-kaart tekent terwijl je loopt.

4. Wat kan het doen?

Het systeem is getest in drie verschillende situaties: een simpele kamer, een volgepropte woonkamer en een rommelige werkplaats. Het blijkt verrassend goed te werken:

Vragen beantwoorden: Je kunt vragen als "Wat staat er op de tafel naast het raam?" en het antwoord is correct.
Navigatie: Je kunt zeggen: "Ga naar de kamer en zoek de rode mok." Het systeem geeft stap-voor-stap instructies: "Ga rechtdoor, sla linksaf bij de deur, de mok staat op de tafel."
Robuustheid: Zelfs als de kamer rommelig is of als de robot de kamer vanuit een andere hoek bekijkt, blijft het geheugen stabiel. Het "weet" nog steeds waar de muren zijn, zelfs als er veel spullen voor staan.

Samenvattend

SpatialMem is als het geven van een onvergetelijk geheugen aan een robot. Het neemt een simpele video, zet die om in een nauwkeurige 3D-kaart met muren en objecten, en slaat alles op in een slimme structuur. Hierdoor kan de robot later vragen beantwoorden en je door je huis leiden, alsof hij de ruimte al jaren kent, zonder dat je dure apparatuur nodig hebt. Het maakt slimme huisrobots en AR-brillen eindelijk echt bruikbaar in het dagelijks leven.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Autonome agenten, zoals AR-assistenten of mobiele robots, hebben behoefte aan een persistente, hiërarchische ruimtelijke geheugenstructuur om complexe 3D-omgevingen te begrijpen en redeneren over lange tijdshorizons. Bestaande systemen lijden vaak onder de volgende beperkingen:

Afhankelijkheid van gespecialiseerde hardware: Veel systemen vereisen RGB-D-sensoren (diepte) of IMU's, wat de inzetbaarheid op consumentenhardware (zoals smartphones of hoofdgebonden camera's) beperkt.
Gebrek aan metrische consistentie: Bestaande visuele geheugens zijn vaak frame-lokaal of 2D, waardoor ze geen nauwkeurige metrische relaties (afstand, richting, zichtbaarheid) kunnen ondersteunen over verschillende perspectieven heen.
Uitdagingen bij monocular input: Het reconstrueren van een stabiele 3D-structuur en het aligneren daarvan in een gemeenschappelijk, metrisch coördinatenstelsel (bijv. "drie meter achter de bank") vanuit alleen RGB-video is inherent een slecht gesteld (ill-posed) probleem, gevoelig voor bewegingsonscherpte, occlusie en dynamische belichting.

Het doel van dit paper is een systeem te bouwen dat een querybaar, metrisch 3D-geheugen creëert uitsluitend op basis van casual opgenomen egocentrische RGB-video, zonder gespecialiseerde sensoren.

Methodologie: SpatialMem

SpatialMem is een geheugencentrisch systeem dat geometrie, semantiek en taal unificeert in een enkele, querybare structuur. De pijplijn bestaat uit de volgende kerncomponenten:

1. 3D Omgeving Voorbereiding (Geometry & Alignment)

Input: Casual egocentrische RGB-video.
Reconstructie: Het systeem gebruikt een uitwisselbare back-end (zoals VGGT, SLAM3R of COLMAP) om camera-pose en dichte diepte te schatten.
Metrische Alignering: De gereconstrueerde puntenwolk wordt uitgelijnd in een "upright" (rechtopstaand) metrisch frame. Dit gebeurt door:
- Het vloerplan te detecteren en uit te lijnen met de globale Z-as.
- Het schaalverloop te bepalen via een hoogte-prior (bijv. standaard plafondhoogte).
- Dit resulteert in een allocentrisch frame waar ruimtelijke expressies als "naast de deur" een exacte meetkundige betekenis krijgen.

2. Hiërarchisch Ruimtelijk Geheugen (Tree Structure)
Het geheugen wordt opgeslagen als een gewortelde boom ( $T = (V, E)$ ) met vier lagen:

Root: Scenemetadata en het globale frame.
Level 1 (Anchors): Structurele elementen zoals muren, deuren en ramen. Deze dienen als stabiele, meetkundige ankers voor het geheugen.
Level 2 (Objects): Objecten die zijn gelinkt aan 3D-bounding boxes en multi-view 2D-maskers. Deze worden gelinkt aan de dichtstbijzijnde Level 1-ankers.
Level 3 (Descriptions): Een tweelaags beschrijvingsmechanisme voor elk object:
- Laag 1 (Image-level): Bevat view-specifieke details (wat er nu te zien is).
- Laag 2 (Scene-level): Bevat stabiele, contextuele samenvattingen die consistent zijn over meerdere perspectieven (bijv. attributen en relaties die niet veranderen).

3. Metrische Grounding en Relationale Semantiek

Verticale relaties: Worden direct berekend in het uitgelijnde frame (bijv. "op", "onder").
Laterale relaties: (links/rechts/voor/achter) worden eerst opgeslagen als egocentrische hints en vervolgens geconsolideerd naar allocentrische relaties wanneer er voldoende ankerondersteuning is.
Querying: Het systeem ondersteunt lage-latentie queries door door de geheugenboom te navigeren. Queries worden vertaald naar een reeks ankers en objecten, waarbij geometrische predikaten (afstand, hoek, zichtbaarheid) worden gecontroleerd.

Belangrijkste Bijdragen

Unificatie van Geometrie en Semantiek: Een systeem dat puur op RGB-video draait en een hiërarchisch 3D-geheugen bouwt dat zowel geometrische structuur als open-vocabulary objecten integreert.
Tweelaags Beschrijvingsmechanisme: Een innovatieve aanpak voor objectbeschrijvingen die lokale visuele bewijzen scheidt van stabiele contextuele relaties, wat essentieel is voor samenstellend redeneren (compositional reasoning).
3D-Grounded Querying: Mogelijkheid tot het stellen van complexe vragen over relaties (bijv. "wat ligt links van het raam?") met expliciete metrische relaties, zonder dat een actieve agent of online SLAM nodig is.
Efficiënte Offline Architectuur: Een ontwerp dat zware geometrische berekeningen offline uitvoert, waardoor snelle, lage-latentie queries en navigatie-geleiding mogelijk zijn op de reeds opgebouwde geheugenboom.

Resultaten

Het systeem werd geëvalueerd op drie scènes: één publieke Replica-scène (Replica) en twee real-world egocentrische scènes (een suite en een laboratorium) met toenemende complexiteit en rommel.

Layout Begrip: SpatialMem behaalde een relatieve positie-accuraatheid van 0.84 in de simpele scène en 0.74 in de complexe scène, vergelijkbaar met of beter dan sterke baselines zoals Google Gemini 2.5 Flash en InternVL 2.5. Het systeem toonde stabiele prestaties voor muren, deuren en ramen.
Navigatie-geleiding: In de offline navigatietaken (stap-voor-stap begeleiding) behaalde SpatialMem de hoogste Step Completion score van 0.89 in Scene 1, wat hoger was dan Gemini (0.84). De Success Rate (SRnav) was vergelijkbaar (0.77 vs 0.78), met een iets lagere finale foutafstand.
Object Retrieval: De systeem behaalde een retrieval success rate (SRobj) van 0.83 in Scene 1, wat beter was dan de concurrenten. De hiërarchische nauwkeurigheid (Accpath) was ook sterk (0.76).
Robuustheid: Zelfs bij toenemende rommel en occlusie (Scène 3) bleef het systeem concurrerend, hoewel er een matige daling in prestaties was. Ablatiestudies toonden aan dat het verwijderen van de tweelaagse beschrijvingen leidde tot een consistente daling in alle metrieken, wat het belang van deze laag bevestigt.

Betekenis en Conclusie

SpatialMem vertegenwoordigt een belangrijke stap in de richting van praktisch, ruimtelijk onderbouwd video-onderstanding voor dagelijkse binnenomgevingen. Door te laten zien dat een robuust, metrisch 3D-geheugen kan worden opgebouwd zonder dure sensoren, opent dit de deur voor betaalbare AR-toepassingen en robotica op standaard hardware. Het systeem demonstreert dat het combineren van structurele ankers met een hiërarchisch geheugen en taalgrounding leidt tot stabiel redeneren over lange tijdshorizons, zelfs in complexe en rommelige omgevingen. De focus op offline geheugenconstructie maakt het direct inzetbaar voor toepassingen zoals navigatie-assistentie en semantische zoekopdrachten in bestaande video-opnames.

SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

1. Het Bouwplan: Van Video naar 3D-Model

2. Het Geheugen: Een Boom met Drie Lagen

3. Waarom is dit zo handig? (De Creatieve Analogie)

4. Wat kan het doen?

Samenvattend

Probleemstelling

Methodologie: SpatialMem

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

When both Grounding and not Grounding are Bad -- A Partially Grounded Encoding of Planning into SAT (Extended Version)

Teaching an Agent to Sketch One Part at a Time

Learning to Disprove: Formal Counterexample Generation with Large Language Models

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning