SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

SpatialMem is een geheugencentrisch systeem dat op basis van casual RGB-ego-video een meetkundig 3D-structuur bouwt om langdurige taalkundige zoekopdrachten en vragen over binnenruimtes te ondersteunen zonder speciale sensoren.

Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot of een slimme bril (zoals voor Augmented Reality) hebt die je huis doorloopt. Normaal gesproken "vergeet" deze robot alles zodra hij de kamer verlaat. Als je hem vraagt: "Waar heb ik mijn rode mok gelaten, die ik gisteren bij het raam zag?", dan kijkt hij verward en zegt: "Ik weet het niet, ik heb geen geheugen."

SpatialMem is de oplossing voor dit probleem. Het is een slim systeem dat een duurzaam, 3D-geheugen bouwt voor robots, puur op basis van een gewone video van een camera (zoals op je telefoon of een bril).

Hier is hoe het werkt, vertaald in alledaagse termen:

1. Het Bouwplan: Van Video naar 3D-Model

Stel je voor dat je een video maakt van je kamer terwijl je erin rondloopt. Normaal is dat maar een reeks platte foto's. SpatialMem kijkt naar die video en doet alsof het een 3D-puzzel oplost.

  • De "Skelet"-methode: Het systeem zoekt eerst naar de grote, vaste onderdelen van je huis: de muren, de deuren en de ramen. Dit noemen ze "Ankers".
  • De Meting: Het zorgt ervoor dat de afstanden kloppen. Als de muur 3 meter lang is in het echt, is hij dat ook in het digitale geheugen. Het maakt de kamer "rechtop" (zodat de vloer echt de vloer is en het plafond het plafond).

2. Het Geheugen: Een Boom met Drie Lagen

In plaats van duizenden losse foto's op te slaan, bouwt SpatialMem een georganiseerde boomstructuur (een hiërarchie). Denk aan een goed georganiseerde bibliotheek of een gereedschapskist:

  • Lag 1 (De Steunpilaren): Dit zijn de muren, deuren en ramen. Ze zijn het fundament. Alles wordt hieraan vastgehecht.
  • Lag 2 (De Voorwerpen): Hier komen de objecten: de stoel, de mok, de tv. Het systeem weet precies waar deze staan ten opzichte van de muren (bijv. "De mok staat op de tafel, die tegen de noordelijke muur staat").
  • Lag 3 (De Beschrijvingen): Dit is het slimste deel. Het systeem slaat niet alleen op wat het is, maar ook hoe het eruitziet en waar het zit.
    • Laag 1 van de beschrijving: "Een rode mok." (Algemene eigenschap).
    • Laag 2 van de beschrijving: "De rode mok staat op de houten tafel, links van de deur." (Contextuele relatie).

Dit zorgt ervoor dat de robot niet verward raakt als je de kamer even anders bekijkt. Hij weet dat de mok altijd bij de deur hoort, ongeacht waar jij staat.

3. Waarom is dit zo handig? (De Creatieve Analogie)

Stel je voor dat je een gids hebt die je huis kent als zijn broekzak.

  • Zonder SpatialMem: De gids kijkt naar een foto van de kamer en zegt: "Ik zie een mok." Als je vraagt waar hij is, zegt hij: "Ik weet het niet meer, de foto is verouderd."
  • Met SpatialMem: De gids heeft een interne kaart getekend. Als je vraagt: "Is de mok links of rechts van de deur?", kijkt hij niet naar een foto, maar naar zijn kaart. Hij zegt direct: "De mok staat 2 meter rechts van de deur, op de tafel."

Het systeem gebruikt geen dure 3D-scanners of speciale sensoren. Het doet dit puur met een gewone camera die je al hebt. Het is alsof je met je ogen een 3D-kaart tekent terwijl je loopt.

4. Wat kan het doen?

Het systeem is getest in drie verschillende situaties: een simpele kamer, een volgepropte woonkamer en een rommelige werkplaats. Het blijkt verrassend goed te werken:

  • Vragen beantwoorden: Je kunt vragen als "Wat staat er op de tafel naast het raam?" en het antwoord is correct.
  • Navigatie: Je kunt zeggen: "Ga naar de kamer en zoek de rode mok." Het systeem geeft stap-voor-stap instructies: "Ga rechtdoor, sla linksaf bij de deur, de mok staat op de tafel."
  • Robuustheid: Zelfs als de kamer rommelig is of als de robot de kamer vanuit een andere hoek bekijkt, blijft het geheugen stabiel. Het "weet" nog steeds waar de muren zijn, zelfs als er veel spullen voor staan.

Samenvattend

SpatialMem is als het geven van een onvergetelijk geheugen aan een robot. Het neemt een simpele video, zet die om in een nauwkeurige 3D-kaart met muren en objecten, en slaat alles op in een slimme structuur. Hierdoor kan de robot later vragen beantwoorden en je door je huis leiden, alsof hij de ruimte al jaren kent, zonder dat je dure apparatuur nodig hebt. Het maakt slimme huisrobots en AR-brillen eindelijk echt bruikbaar in het dagelijks leven.