AIM-SLAM: Dense Monocular SLAM via Adaptive and Informative Multi-View Keyframe Prioritization with Foundation Model

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous marchez dans une pièce inconnue avec une seule caméra (votre téléphone, par exemple) et que vous devez dessiner une carte précise de l'endroit où vous êtes, tout en sachant exactement où vous vous situez. C'est le défi du SLAM (localisation et cartographie simultanées).

Le papier que nous allons explorer s'appelle AIM-SLAM. Pour le comprendre facilement, comparons-le à une équipe d'explorateurs qui tentent de reconstruire un château de cartes géant, mais avec des règles très spécifiques.

1. Le Problème : L'Explorateur un peu "bête"

Jusqu'à récemment, les robots qui faisaient cela utilisaient des règles mathématiques rigides et avaient besoin de connaître parfaitement la "puce" de leur caméra (ses paramètres techniques).

Récemment, de nouveaux "super-héros" intelligents (appelés modèles de fondation géométriques, comme VGGT) sont apparus. Ils peuvent regarder une photo et deviner la forme 3D de l'objet, même sans connaître les réglages de la caméra. C'est magique !

Mais il y a un hic :
Ces super-héros sont très puissants, mais ils sont un peu lents et gourmands.

Les anciennes méthodes les forçaient à regarder deux photos à la fois (comme un stéréoscope). C'est trop simple, ça manque de contexte.
D'autres méthodes leur donnaient une pile fixe de 16 ou 32 photos d'affilée. C'est comme si vous demandiez à un architecte de regarder 30 photos de votre salon prises une seconde après l'autre. Il y a beaucoup de redondance (les mêmes meubles sous le même angle) et ça gaspille du temps de calcul.

2. La Solution : AIM-SLAM et son "Chef d'Orchestre" (SIGMA)

L'équipe derrière AIM-SLAM a créé un système intelligent pour dire au super-héros : "Ne regarde pas n'importe quoi, et ne regarde pas trop de choses inutiles. Regarde juste les photos les plus intéressantes."

Voici comment ils procèdent, avec une analogie culinaire :

A. Le SIGMA : Le Chef qui choisit les ingrédients

Imaginez que vous devez faire un gâteau (la reconstruction 3D). Vous avez un frigo rempli de milliers d'ingrédients (vos images vidéo).

L'ancienne méthode : Elle prenait les 10 derniers ingrédients sortis du frigo, même si c'était 10 tomates identiques.
La méthode AIM-SLAM (SIGMA) : Le Chef (le module SIGMA) regarde le frigo et dit : "Non, je veux une tomate, mais aussi un œuf, un peu de farine et une noix de muscade. Je veux des ingrédients qui se complètent, pas des doublons."

Comment fait-il ce choix ?

Regard croisé (Chevauchement) : Il cherche des photos qui regardent les mêmes objets sous des angles différents (comme si vous tourniez autour d'un vase).
Gain d'information : Il se demande : "Si j'ajoute cette photo, est-ce que ça m'apprendra quelque chose de nouveau sur la forme du vase ?" Si la photo est floue ou redondante, il la jette.
Stabilité : Il teste si l'ajout de cette photo rend le gâteau plus solide ou s'il fait tout s'effondrer.

C'est ce qu'on appelle une priorisation adaptative et informative. Le système choisit dynamiquement le nombre de photos parfaites (parfois 3, parfois 5, parfois plus) pour obtenir le meilleur résultat sans gaspiller d'énergie.

B. L'Assemblage : La Danse des Photos

Une fois que le Chef a sélectionné les meilleures photos, il les envoie au Super-Héros (le modèle VGGT).
Le Super-Héros ne se contente pas de les regarder une par une. Il les regarde toutes ensemble en même temps pour ajuster sa vision.

Imaginez que vous essayez de deviner la forme d'un objet en le touchant avec plusieurs mains en même temps. C'est beaucoup plus précis que de le toucher avec une seule main.
AIM-SLAM fait cela mathématiquement : il aligne toutes ces photos choisies pour créer une carte 3D dense et précise, même si la caméra n'est pas calibrée (comme si vous utilisiez n'importe quelle caméra de téléphone).

3. Les Résultats : Pourquoi c'est génial ?

Grâce à cette méthode intelligente :

Précision : Le robot ne se perd pas. Il sait exactement où il est, même s'il fait des mouvements brusques ou si la lumière change.
Détails : La carte 3D qu'il dessine est très fine. On voit les textures, les bords, pas juste des blocs flous.
Efficacité : En ne regardant que les photos utiles, il va plus vite et consomme moins de batterie que les méthodes qui regardent tout bêtement.

En résumé

AIM-SLAM, c'est comme passer d'un élève qui recopie bêtement tout son manuel page par page (méthodes anciennes), à un étudiant brillant qui lit seulement les paragraphes clés, les relie entre eux intelligemment, et comprend le livre entier en un temps record.

Ils ont créé un système qui sait choisir ses batailles (quelles images utiliser) pour reconstruire le monde en 3D avec une caméra simple, sans avoir besoin d'outils de calibration complexes. C'est un pas de géant vers des robots et des applications de réalité augmentée qui peuvent fonctionner partout, avec n'importe quel appareil photo.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les systèmes de SLAM (Localisation et Cartographie Simultanées) visuels denses traditionnels reposent souvent sur des pipelines géométriques utilisant des caractéristiques manuelles et nécessitent une calibration caméra précise. Récemment, les modèles de fondation géométriques (comme DUSt3R, MASt3R, VGGT) ont émergé comme une alternative prometteuse, permettant de prédire directement des cartes de points 3D denses à partir d'images RGB non calibrées.

Cependant, l'intégration de ces modèles dans des systèmes SLAM en temps réel présente des défis majeurs :

Limitation des entrées : Les méthodes précédentes (ex: MASt3R-SLAM, VGGT-SLAM) se limitent souvent à des paires d'images consécutives ou à des fenêtres temporelles fixes de longueurs prédéfinies.
Redondance et manque de contexte : L'utilisation de fenêtres fixes inclut souvent des images redondantes avec peu d'apport d'information géométrique, tout en négligeant des vues clés non adjacentes qui pourraient améliorer la contrainte géométrique.
Drift et incohérence : Sans sélection intelligente des vues, ces systèmes souffrent de dérive d'échelle (scale drift) et d'incohérences structurelles, surtout lors de mouvements agressifs ou de changements de point de vue importants.

L'objectif est donc de concevoir un système SLAM monoculaire dense qui exploite la capacité des modèles de fondation à traiter un nombre arbitraire de vues, tout en sélectionnant dynamiquement les vues les plus informatives pour optimiser la précision et la cohérence globale.

2. Méthodologie : AIM-SLAM

AIM-SLAM est un cadre SLAM monoculaire dense qui introduit une priorisation adaptative et informative des images clés (keyframes) couplée à une optimisation conjointe multi-vues. L'architecture se compose de deux parties principales :

A. Module SIGMA (Selective Information- and Geometric-aware Multi-view Adaptation)

Ce module est le cœur de la sélection de vues. Au lieu d'utiliser une fenêtre temporelle fixe, il construit dynamiquement un sous-ensemble d'images clés $W$ optimisé pour l'inférence du modèle de fondation (VGGT). Il fonctionne en trois étapes :

Initialisation géométrique basée sur les voxels :
- Une carte de voxels indexe les images clés observant chaque voxel 3D.
- Pour l'image clé précédente ( $I_k$ ), le système calcule un score de chevauchement de voxels avec les autres images candidates.
- Les $N$ images avec le plus grand chevauchement forment l'ensemble candidat initial $W_v$ . Cela assure une visibilité commune (co-visibility) suffisante.
Reclassement basé sur l'information (Information-driven Re-ranking) :
- Le chevauchement géométrique ne garantit pas l'informativité. Le module reclasse les candidats en maximisant le gain d'information.
- En supposant une distribution gaussienne des points 3D prédits, le système calcule la réduction de la covariance (gain d'information) apportée par l'ajout d'une vue candidate à l'image clé de référence.
- Les vues qui réduisent le plus l'incertitude (covariance) des points 3D sont prioritaires.
Activation adaptative avec critère de stabilité :
- Le système commence avec une base de trois vues (courante, dernière clé, meilleure candidate).
- Il évalue la stabilité statistique de l'optimisation en utilisant le test du Chi-deux réduit ( $\kappa$ ) sur les résidus.
- Si l'ajout d'une vue supplémentaire améliore la stabilité ( $\kappa$ diminue), la vue est activée. Sinon, le système revient à la configuration minimale. Cela évite l'oscillation et garantit un ensemble d'entrées compact mais efficace.

B. Optimisation conjointe Multi-vues Sim(3)

Une fois le sous-ensemble $W$ sélectionné par SIGMA :

Optimisation de pose : Une optimisation conjointe est effectuée dans l'espace Sim(3) (incluant la mise à l'échelle, la rotation et la translation) pour aligner toutes les vues sélectionnées simultanément.
Résidus Hybrides : La fonction de coût combine deux termes :
1. Résidus basés sur les rayons (Ray-based) : Invariants à l'échelle, robustes aux erreurs d'étalonnage.
2. Résidus basés sur la projection (Pixel-based) : Utilisent les intrinsiques estimées par VGGT pour une précision géométrique fine.
Boucle de fermeture (Loop Closure) : Utilise les tokens de la première couche de VGGT (basés sur DINOv2) comme descripteurs globaux légers pour détecter les fermetures de boucle et optimiser le graphe de poses global en arrière-plan.

3. Contributions Clés

Module SIGMA : Une méthode de priorisation adaptative qui sélectionne un sous-ensemble d'images clés clairsemé mais riche en chevauchements et en information, remplaçant les fenêtres fixes par une approche dynamique guidée par le gain d'information et la stabilité statistique.
Optimisation Sim(3) Multi-vues : Première formulation d'une optimisation conjointe multi-vues dans un SLAM basé sur des modèles de fondation, permettant un alignement précis sans calibration caméra préalable.
Performance État-de-l'Art : Validation sur des jeux de données réels montrant des performances supérieures en estimation de pose et en reconstruction dense par rapport aux méthodes existantes (MASt3R-SLAM, VGGT-SLAM, DROID-SLAM), même en conditions non calibrées.
Intégration ROS : Le code est publié et le système est intégré avec ROS, facilitant son adoption par la communauté.

4. Résultats Expérimentaux

Les expériences ont été menées sur les jeux de données TUM RGB-D (environnements intérieurs encombrés) et EuRoC MAV (mouvements agressifs, grands changements de vue).

Estimation de pose (ATE RMSE) :
- Sur TUM RGB-D, AIM-SLAM atteint une précision comparable à MASt3R-SLAM (qui nécessite une calibration) et dépasse DROID-SLAM non calibré, avec une erreur moyenne de 0.031 m.
- Sur EuRoC, AIM-SLAM surpasse toutes les méthodes non calibrées, y compris VGGT-Long et VGGT-SLAM, avec une erreur moyenne de 0.072 m. Cela démontre sa robustesse face aux grandes bases et aux mouvements rapides grâce à la sélection de vues non adjacentes.
Reconstruction Dense :
- AIM-SLAM produit des reconstructions 3D plus précises avec moins d'artefacts (fantômes) sur les surfaces planes par rapport aux méthodes basées sur des fenêtres fixes.
- Les métriques de complétion et de distance de Chamfer sont supérieures (ex: 0.051 m sur EuRoC contre 0.081 m pour VGGT-Long).
Études d'ablation :
- L'utilisation du module SIGMA est cruciale : une sélection basée uniquement sur la récence (fenêtre fixe) montre une saturation rapide de la précision au-delà de 4-5 vues, tandis que SIGMA maintient une haute précision en sélectionnant les vues les plus informatives.
- Le résidu hybride (Ray + Projection) est essentiel pour combiner la robustesse et la précision.

5. Signification et Conclusion

AIM-SLAM représente une avancée significative dans l'application des modèles de fondation géométriques au SLAM en temps réel.

Changement de paradigme : Il passe d'une approche "fenêtre temporelle fixe" à une approche "sélection adaptative basée sur l'information", exploitant pleinement la capacité des modèles de fondation à traiter un nombre arbitraire de vues.
Robustesse : En éliminant le besoin de calibration caméra et en gérant dynamiquement la redondance des vues, le système est plus robuste dans des environnements réels complexes et non structurés.
Évolutivité : Bien que la vitesse d'exécution actuelle soit limitée par l'inférence de VGGT (~3 Hz), l'architecture modulaire permet d'envisager une accélération future ou l'utilisation de modèles plus rapides.

En résumé, AIM-SLAM démontre qu'une sélection intelligente des entrées, couplée à une optimisation géométrique rigoureuse, permet d'atteindre des performances de reconstruction dense et de localisation de pointe, même sans connaissances préalables de la caméra.