JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous devez guider un robot à travers une maison inconnue, uniquement en lui donnant des instructions verbales comme : « Va vers la droite, passe devant le canapé et arrête-toi près de la plante verte ». C'est ce qu'on appelle la navigation visuelle et linguistique.

Le problème, c'est que les robots actuels ont souvent du mal à se souvenir de l'espace. Ils sont comme des gens qui lisent une carte mentale (des mots) mais qui oublient à quoi ressemble la pièce, ou qui se souviennent de tout ce qu'ils ont vu, ce qui les rend lents et confus.

Voici comment JanusVLN résout ce problème, expliqué simplement :

1. Le Cerveau Humain : Une Inspiration Géniale

Les auteurs du papier s'inspirent du cerveau humain. On dit souvent que :

Le cerveau gauche est bon pour le langage et les concepts (le "quoi").
Le cerveau droit est excellent pour l'espace et la géométrie (le "où" et le "comment").

La plupart des robots actuels n'utilisent que le "cerveau gauche" : ils comprennent les mots et les objets, mais ils sont perdus dans l'espace 3D. JanusVLN, lui, donne au robot un double cerveau :

Un cerveau sémantique : Il comprend les mots et les objets (ex: "c'est une chaise").
Un cerveau spatial : Il comprend la géométrie, la profondeur et la position (ex: "cette chaise est à 2 mètres, derrière ce mur").

2. La Mémoire : Le "Post-it" vs Le "Camion de Déménagement"

C'est ici que l'idée devient vraiment intelligente.

Les anciennes méthodes : Pour se souvenir du chemin, elles prenaient une photo de chaque pas et les empilaient toutes dans un camion de déménagement. Plus le robot marchait, plus le camion devenait lourd. À la fin, le robot était si chargé de photos qu'il ne pouvait plus bouger (c'est ce qu'on appelle la "mémoire bloat"). De plus, pour chaque nouvelle décision, il devait relire tout le camion, ce qui était très lent.
La méthode JanusVLN (Mémoire Implicite) : Imaginez que le robot ne stocke pas les photos, mais qu'il écrit deux notes très courtes sur un post-it magique qui ne grossit jamais :
- Note 1 (Sémantique) : "Je suis dans un salon, il y a un canapé rouge."
- Note 2 (Spatiale) : "Le canapé est à ma gauche, à 3 mètres, et il y a un mur devant moi."

Ces notes sont mises à jour en temps réel. Le robot garde toujours les notes des derniers pas (fenêtre glissante) et les notes du début du voyage (fenêtre initiale) pour ne jamais oublier le but global. Il n'a pas besoin de relire tout le passé, il consulte juste son post-it. C'est rapide, léger et efficace.

3. La Magie des "Yeux" 3D

Habituellement, les robots ne voient que des images plates (2D), comme une photo sur un écran. Ils ont du mal à deviner la distance.

JanusVLN utilise un outil spécial (appelé VGGT) qui agit comme un super-pouvoir de vision. Même si le robot ne voit qu'une vidéo normale (RGB), cet outil "devine" la structure 3D de la pièce. C'est comme si le robot pouvait fermer les yeux et imaginer le volume de la pièce, les profondeurs et les angles, juste en regardant l'image. Cela lui permet de dire : « Attention, ce n'est pas juste une image plate, c'est un couloir qui tourne à droite ».

4. Les Résultats : Un Robot Plus Intuitif

Grâce à cette approche, JanusVLN est devenu le champion (SOTA) dans ce domaine.

Il réussit mieux que les autres, même sans utiliser de capteurs coûteux (comme des lasers ou des caméras 3D spéciales). Il utilise juste une caméra normale.
Il est beaucoup plus rapide car il ne perd pas de temps à relire des heures de vidéo.
Il comprend mieux les instructions complexes comme « Arrête-toi à côté de la chaise la plus éloignée », car il a une vraie notion de l'espace, pas juste des mots.

En Résumé

JanusVLN, c'est comme donner à un robot une boussole interne et une mémoire de poche qui ne grossit jamais. Au lieu de se souvenir de chaque pierre du chemin (ce qui est trop lourd), il se souvient de la carte mentale et de la géométrie de l'endroit. Cela permet au robot de naviguer dans des maisons inconnues avec la même aisance qu'un humain qui a l'habitude de se repérer dans l'espace.

C'est un pas de géant vers des robots domestiques qui pourront vraiment nous aider à la maison sans se perdre !

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La Navigation Visuelle et Linguistique (VLN) consiste à guider un agent incarné dans des environnements non vus, en suivant des instructions naturelles et un flux vidéo continu. Bien que les récents progrès des Modèles de Langage Multimodaux (MLLM) aient amélioré la compréhension sémantique, les méthodes actuelles souffrent de limitations critiques :

Mémoire explicite inefficace : Les approches existantes construisent des cartes cognives textuelles ou stockent des trames historiques. Cela entraîne une perte d'informations spatiales, une redondance computationnelle et un gonflement de la mémoire (memory bloat) qui croît exponentiellement avec la durée de la navigation.
Déficit de raisonnement 3D : La plupart des encodeurs visuels des MLLM sont pré-entraînés sur des paires image-texte 2D (paradigme CLIP). Ils excellent pour la sémantique de haut niveau mais échouent à comprendre les structures géométriques 3D et les relations spatiales profondes, pourtant essentielles pour la navigation physique.
Dépendance aux données 3D : Les méthodes tentant d'intégrer la géométrie 3D nécessitent souvent des capteurs coûteux (profondeur, LiDAR) ou des données d'entraînement supplémentaires, limitant leur applicabilité réelle.

2. Méthodologie : JanusVLN

Le papier propose JanusVLN, un cadre novateur qui découple la sémantique visuelle et la géométrie spatiale en utilisant une mémoire neuronale implicite duale. L'architecture s'inspire de la spécialisation hémisphérique du cerveau humain (hémisphère gauche pour la sémantique, droit pour l'espace).

A. Architecture à Double Encodeur

Le modèle utilise deux encodeurs distincts pour traiter le flux vidéo RGB :

Encodeur Sémantique Visuel (2D) : Basé sur l'encodeur visuel de Qwen2.5-VL, il extrait les tokens sémantiques ("quoi ?").
Encodeur de Géométrie Spatiale (3D) : Basé sur VGGT (Visual Geometry Grounded Transformer), un modèle fondation pré-entraîné sur des paires pixel-nuages de points 3D. Il extrait des tokens géométriques ("où ?" et "relation spatiale") directement à partir de la vidéo RGB, sans besoin de données 3D explicites.

B. Mémoire Neuronale Implicite Duale

Au lieu de stocker des images brutes ou des descriptions textuelles, JanusVLN maintient une mémoire fixe et compacte basée sur les caches Key-Value (KV) des transformateurs :

Mémoire Sémantique Implicite : Cache les KV de l'encodeur sémantique.
Mémoire Géométrique Implicite : Cache les KV de l'encodeur VGGT.

Stratégie de Mise à Jour Hybride (Fenêtre Glissante + Initiale) :
Pour éviter le recalcul complet à chaque nouvelle trame (problème de complexité linéaire/exponentielle) :

Une fenêtre initiale conserve les KV des premières trames (agissant comme des "Attention Sinks" pour ancrer le contexte global).
Une fenêtre glissante (FIFO) conserve les KV des $n$ trames les plus récentes.
Seuls les KV de ces fenêtres sont conservés. Pour une nouvelle trame, le modèle effectue une attention croisée uniquement avec ces caches, éliminant la nécessité de retraiter l'historique complet.

C. Fusion et Décision

Les tokens sémantiques et géométriques sont fusionnés via une couche MLP légère et un mécanisme d'attention, puis injectés dans le LLM (Qwen2.5-VL) pour prédire la prochaine action (Avancer, Tourner, Arrêter).

3. Contributions Clés

Paradigme de Mémoire Implicite Duale : Introduction d'une mémoire fixe et compacte qui découple sémantique et géométrie, résolvant les problèmes d'explosion mémoire et de redondance computationnelle.
Navigation 3D à partir de RGB seul : Démonstration qu'un encodeur de géométrie 3D (VGGT) peut être intégré dans un flux de navigation en temps réel pour fournir des priors spatiaux, sans capteurs de profondeur ni données 3D externes.
Efficacité Computationnelle : Grâce à la stratégie de cache hybride (fenêtre initiale + glissante), le temps d'inférence reste constant et faible, contrairement aux méthodes qui re-traitent l'ensemble de l'historique.
Performance SOTA : Le modèle atteint les meilleurs résultats sur les benchmarks VLN-CE (R2R-CE et RxR-CE) en utilisant uniquement des données RGB.

4. Résultats Expérimentaux

Les expériences ont été menées sur les benchmarks R2R-CE et RxR-CE, ainsi que sur des évaluations en monde réel avec un robot Unitree Go2.

Performance sur VLN-CE :
- JanusVLN bat plus de 20 méthodes récentes (SOTA).
- Par rapport aux méthodes utilisant des entrées multiples (panoramique, odométrie), il améliore le taux de réussite (SR) de 10,5 % à 35,5 % avec une seule entrée RGB.
- Par rapport aux méthodes utilisant des données 3D supplémentaires (profondeur), il surpasse les meilleurs modèles de 3,6 % à 10,8 % en SR.
- Sur le jeu de données RxR-CE, l'amélioration du SR est de 3,3 % à 30,7 %.
Efficacité d'Inférence :
- L'approche avec cache réduit le temps d'inférence de 69 % à 90 % par rapport à une réévaluation complète de la séquence (comme le ferait VGGT standard).
- Le temps d'inférence reste stable même avec des séquences longues, tandis que les méthodes basées sur le re-calcul complet deviennent impraticables (échec de mémoire sur 48 trames).
Études d'Abalation :
- Le retrait de la mémoire spatiale fait chuter le SPL (Success-weighted Path Length) de 49,2 à 40,9, prouvant l'importance cruciale de la géométrie 3D.
- L'utilisation d'encodeurs 2D standards (DINOv2, SigLIP) à la place de VGGT n'apporte pas d'amélioration significative, confirmant que la valeur réside dans les priors 3D.
Évaluation Réelle :
- Sur des tâches nécessitant une compréhension spatiale (ex: "le tabouret le plus éloigné", "à côté de la plante"), JanusVLN surpasse sa variante sans mémoire spatiale de 23,6 %.

5. Signification et Impact

JanusVLN marque un tournant dans la recherche VLN en passant d'une domination de la sémantique 2D à une synergie 3D spatiale-sémantique.

Nouveau Paradigme : Il établit que la mémoire implicite neuronale (KV caches) est supérieure aux cartes cognitives explicites pour la navigation en flux continu.
Accessibilité : En éliminant le besoin de capteurs 3D coûteux et de données d'entraînement massives supplémentaires, il rend la navigation d'agents incarnés plus viable pour des applications réelles (robots de service, assistance aux personnes malvoyantes).
Fondation pour l'IA Incarnée : Ce travail ouvre la voie vers la prochaine génération d'agents spatialement conscients capables de naviguer de manière efficace et robuste dans des environnements complexes et non vus.

Le code source et les modèles seront publiés pour assurer la reproductibilité des résultats.