SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

Each language version is independently generated for its own context, not a direct translation.

🧠 SpatialMem : La Mémoire Géante de votre Robot

Imaginez que vous donnez à un robot (ou à un assistant de réalité augmentée) une caméra simple, comme celle d'un smartphone ou d'une caméra de casque, et que vous lui dites : "Promène-toi dans cette maison, regarde tout, et souviens-toi de l'endroit où est le mug rouge."

Le problème ? La plupart des robots actuels sont comme des amnésiques. Ils voient une image, puis l'oublient dès qu'ils tournent la tête. Ils ne comprennent pas que le mug rouge est sur la table, qui est devant la fenêtre, qui est à gauche du canapé.

SpatialMem, c'est la solution proposée par les chercheurs de l'Université de Bristol. C'est un système qui permet de transformer une simple vidéo prise avec une caméra classique en une mémoire 3D intelligente et structurée.

Voici comment cela fonctionne, étape par étape, avec des images simples :

1. Le Voyageur et la Carte (De la vidéo à la 3D)

Imaginez que vous marchez dans une maison inconnue avec un carnet de croquis.

L'entrée : Vous filmez tout avec votre téléphone (juste de la vidéo, pas de capteurs de profondeur coûteux).
Le travail : SpatialMem agit comme un architecte très rapide. Il regarde votre vidéo et reconstruit la maison en 3D, comme si il dessinait les murs, les portes et les fenêtres dans l'espace.
L'astuce : Il ne se contente pas de faire un dessin flou. Il aligne tout sur un "grid" (une grille) réel. Il sait que le sol est plat, que le plafond est haut, et il mesure les distances en mètres réels. C'est comme passer d'un dessin d'enfant à un plan d'architecte précis.

2. L'Échafaudage et les Post-It (La Mémoire Hiérarchique)

C'est le cœur du système. Au lieu de stocker des millions de pixels, SpatialMem construit une arborescence (un arbre de données) très organisée, comme un grand arbre généalogique de la maison.

Le Tronc (Niveau 1 - Les Ancres) : Ce sont les éléments fixes et immuables : les murs, les portes, les fenêtres. Ce sont les "piliers" de la maison.
Les Branches (Niveau 2 - Les Objets) : C'est là qu'on accroche les objets : le mug, le canapé, la lampe. Chaque objet est "clipsé" à un pilier. Par exemple : "Le mug est accroché à la table, qui est collée au mur du nord."
Les Feuilles (Niveau 3 - Les Descriptions) : C'est la couche de texte. On ajoute deux types d'informations :
1. Ce que c'est : "C'est un mug rouge."
2. Où il est par rapport aux autres : "Il est à gauche de la fenêtre."

L'analogie du Post-It : Imaginez que vous mettez un Post-It sur chaque objet. Ce Post-It ne dit pas juste "Mug". Il dit : "Mug rouge, posé sur la table basse, à 2 mètres de la porte d'entrée." Si vous bougez, le Post-It reste attaché à l'objet, pas à la caméra.

3. La Conversation avec la Mémoire (Les Questions)

Une fois la maison "mémorisée", vous pouvez poser des questions en langage naturel, comme si vous parliez à un humain qui connaît parfaitement les lieux.

Question : "Où est le mug rouge ?"
Réponse du système : Il ne cherche pas dans une vidéo. Il consulte son arbre de mémoire. Il trouve le nœud "Mug", vérifie son lien avec le "Mur Nord" et répond : "Il est sur la table, près de la fenêtre du mur nord."
Question de navigation : "Comment aller à la cuisine ?"
Réponse : Le système trace un chemin sur sa carte mentale : "Allez tout droit, tournez à gauche à la porte, passez devant le canapé..."

4. Pourquoi c'est révolutionnaire ?

Pas de matériel coûteux : Vous n'avez pas besoin de caméras 3D spéciales (comme sur les voitures autonomes). Juste une caméra normale.
Robuste : Même si la maison est encombrée (des jouets partout, des ombres), le système se concentre sur les gros éléments (murs, portes) pour ne pas se perdre. C'est comme avoir une boussole même si vous êtes entouré de buissons.
Précis : Il comprend les relations spatiales. Il sait la différence entre "sur", "sous", "à gauche" et "à droite" dans un monde en 3D, pas juste en 2D.

En résumé

SpatialMem, c'est comme donner à un robot un cerveau spatial capable de transformer une simple vidéo en une carte mentale 3D précise.

Au lieu de regarder une vidéo et de dire "j'ai vu un mug", il dit : "J'ai mémorisé un mug rouge, situé à 2 mètres de la porte, sur une table, et je peux vous y guider même si vous ne regardez pas la vidéo."

C'est une étape clé pour permettre aux assistants personnels et aux robots de comprendre notre monde quotidien, de se souvenir de l'endroit où nous avons posé nos clés, et de nous guider dans nos maisons, le tout sans avoir besoin d'équipement de science-fiction.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Le papier aborde le défi de permettre aux agents autonomes (comme les assistants de réalité augmentée ou les robots mobiles) de représenter et de raisonner de manière cohérente sur des environnements intérieurs 3D à long terme.

Les systèmes existants souffrent de plusieurs limitations majeures :

Dépendance matérielle : Ils reposent souvent sur des capteurs spécialisés (capteurs de profondeur RGB-D, IMU) ou des systèmes SLAM calibrés, ce qui limite leur déploiement sur du matériel grand public (smartphones, caméras ego-centriques).
Incohérence spatiale : Les approches purement visuelles ou basées sur des graphes de scènes 2D manquent souvent d'un cadre métrique global stable, rendant difficile la réponse à des requêtes complexes impliquant des relations spatiales précises (ex: "à 3 mètres derrière le canapé").
Manque de mémoire persistante : La plupart des modèles traitent les images image par image, perdant la cohérence temporelle et structurelle nécessaire pour des tâches de navigation ou de recherche sur de longues horizons.

L'objectif de SpatialMem est de construire une mémoire spatiale 3D métrique, interrogeable et hiérarchique, à partir uniquement de flux vidéo RGB ego-centriques (capturés de manière informelle), sans capteurs de profondeur dédiés.

2. Méthodologie

SpatialMem propose un pipeline en cinq étapes qui transforme une séquence vidéo RGB en une structure de mémoire arborescente hiérarchique et métriquement alignée.

A. Préparation de l'environnement 3D (Géométrie et Alignement)

Reconstruction 3D : À partir de la vidéo RGB, le système utilise un backend de reconstruction monoculaire (comme VGGT, SLAM3R ou COLMAP) pour estimer les poses de la caméra et la profondeur dense.
Alignement Métrique et Verticalité : Le nuage de points reconstruit est aligné sur un cadre de référence global "vertical" (axe Z vers le haut).
- Le plancher est détecté (via RANSAC) pour définir l'axe Z.
- Une échelle métrique est appliquée en utilisant une priori de hauteur (ex: hauteur plafond-plancher) ou d'objets connus.
Ancres Structurelles (Niveau 1) : Le système détecte et extrait des ancres structurelles stables (murs, portes, fenêtres) en tant que plans ou boîtes 3D. Ces ancres servent de fondation stable pour la mémoire.

B. Construction de la Mémoire Hiérarchique

La mémoire est structurée sous forme d'arbre raciné ( $T = (V, E)$ ) avec quatre couches :

Racine : Métadonnées de la scène et cadre global.
Niveau 1 (Ancres) : Éléments structurels (murs, portes). Ils ancrent la géométrie et fournissent un cadre de référence pour les relations spatiales.
Niveau 2 (Objets) : Instances d'objets détectés (via segmentation open-vocabulary) et projetées en 3D. Chaque objet est lié à l'ancre structurelle la plus proche.
Niveau 3 (Descriptions) : Une couche textuelle à deux niveaux pour chaque objet :
- Couche 1 (Image) : Détails spécifiques à la vue actuelle (attributs, position relative immédiate).
- Couche 2 (Scène) : Résumé stable et consensuel à travers plusieurs vues (attributs globaux, relations invariantes). Cela évite la dérive sémantique due aux changements de vue ou d'occlusion.

C. Sémantique Relationnelle et Interrogation

Ancrage Métrique : Les relations verticales (sur, sous) sont évaluées dans le cadre global aligné. Les relations latérales (gauche, droite) sont d'abord enregistrées dans le cadre ego-centrique, puis consolidées en relations allocentriques fiables grâce aux ancres.
Requête et Navigation : Pour répondre à une question ou guider un utilisateur, le système parcourt l'arbre de mémoire. Il utilise des index légers pour rechercher des nœuds proches, vérifie les prédicats géométriques (distance, alignement, visibilité) et génère des étapes de navigation basées sur les ancres (ex: "tournez à gauche à la porte").

3. Contributions Clés

Système de mémoire 3D unifié : Une structure hiérarchique intégrant géométrie, sémantique et langage, construite exclusivement à partir de vidéo RGB.
Mécanisme de description à deux couches : Une approche novatrice séparant les détails éphémères (vue spécifique) des résumés stables (scène globale), améliorant la robustesse pour le raisonnement à long terme.
Interrogation ancrée en 3D : Capacité à répondre à des requêtes "open-vocabulary" avec des relations métriques précises (distance, direction) en s'appuyant sur des ancres structurelles (murs, portes).
Architecture à faible latence : Un système de requête optimisé pour fonctionner sur une mémoire préconstruite, permettant une navigation et une recherche d'objets efficaces sans recalcul géométrique lourd en temps réel.

4. Résultats Expérimentaux

Le système a été évalué sur trois scènes : une scène publique (Replica) et deux scènes réelles capturées avec une caméra ego-centrique (un salon et un laboratoire encombré).

Compréhension de la disposition (Layout Understanding) : SpatialMem atteint une précision de 0,84 pour les relations spatiales de base sur la scène Replica, se comparant favorablement aux modèles de pointe comme Google Gemini 2.5 Flash (0,86) et surpassant d'autres modèles VLM locaux. La performance reste stable même dans les environnements encombrés (Scène 3).
Guidage de navigation (Offline Guidance) : Le système excelle dans la génération de guides étape par étape. Sur la scène Replica, il obtient un taux de complétion d'étapes (Step Completion) de 0,89, dépassant Gemini (0,84). L'efficacité du chemin (SPL) est également compétitive (0,69).
Récupération d'objets (Object Retrieval) : SpatialMem atteint un taux de succès de 0,83 sur la scène Replica, légèrement supérieur à Gemini (0,81), avec une haute précision hiérarchique (l'objet est bien placé dans l'arbre de mémoire).
Robustesse : Des études d'ablation montrent que la suppression de la description à deux couches dégrade significativement les performances. Le système reste robuste face à des perturbations d'échelle de ±10%.

5. Signification et Conclusion

SpatialMem représente une avancée significative vers la compréhension vidéo spatiale à long terme sur des appareils grand public. En démontrant qu'il est possible de construire une mémoire spatiale métrique fiable sans capteurs de profondeur, le travail ouvre la voie à des applications pratiques comme :

Des assistants AR capables de guider les utilisateurs dans des bâtiments complexes.
Des robots domestiques capables de répondre à des questions contextuelles ("Où ai-je posé mes clés ?") en se basant sur une mémoire persistante.
Une alternative économique et accessible aux systèmes de cartographie 3D coûteux.

Le papier souligne que bien que la performance diminue légèrement avec l'encombrement extrême, la dégradation reste modérée, validant l'approche comme une interface mémoire efficace et extensible pour la robotique et l'AR.