PROSPECT: Unified Streaming Vision-Language Navigation via Semantic--Spatial Fusion and Latent Predictive Representation

Each language version is independently generated for its own context, not a direct translation.

🧭 PROSPECT : Le Guide qui "Devine" l'Avenir pour Ne Jamais Se Perdre

Imaginez que vous devez guider un robot dans une maison inconnue, les yeux bandés, en ne suivant que les instructions d'une personne qui vous parle (ex: "Va dans le salon, tourne à gauche devant le canapé rouge, et arrête-toi devant la porte de la salle de bain"). C'est ce qu'on appelle la Navigation Visuelle-Langage.

Le problème ? La plupart des robots actuels sont comme des touristes qui regardent uniquement ce qu'ils voient à l'instant T. Ils comprennent le mot "canapé", mais ils ne savent pas vraiment comment l'espace change quand ils avancent. Ils peuvent se perdre si la lumière change ou si le chemin est long.

PROSPECT est un nouveau robot qui a une super-puissance : il ne se contente pas de regarder, il prédit ce qui va se passer juste après.

1. Le Cerveau à Double Vision (Le "Système de Vision")

Pour bien se repérer, un humain utilise deux choses :

Ce qu'il voit (les couleurs, les objets, le texte sur les panneaux).
Où il est dans l'espace (la distance, la profondeur, la géométrie de la pièce).

La plupart des robots actuels sont malins pour reconnaître les objets (comme un humain qui lit un panneau), mais ils sont un peu "myopes" pour la profondeur.

L'analogie : Imaginez un photographe qui a une caméra 2D (plate) et une caméra 3D (qui voit la profondeur).
La solution PROSPECT : Il combine deux caméras de pointe (SigLIP pour le sens, CUT3R pour l'espace 3D) en temps réel. Il ne regarde pas juste une photo, il construit une carte mentale précise de la pièce, même s'il avance dans le noir ou avec une lumière bizarre.

2. Le "Sixième Sens" de la Prédiction (Le "Modèle du Monde")

C'est ici que PROSPECT change la donne. Au lieu de seulement réagir à ce qu'il voit, il s'entraîne à deviner ce qu'il verra dans la prochaine seconde.

L'analogie du conducteur :
- Un conducteur normal regarde la route devant lui et freine s'il voit un obstacle.
- Un conducteur expert (comme PROSPECT) regarde la route, mais il imagine déjà où sera la voiture dans 2 secondes s'il tourne le volant. Il anticipe.
Comment ça marche ? Pendant l'entraînement, le robot reçoit une instruction, regarde la vidéo actuelle, et on lui demande : "À quoi ressemblera l'image dans la prochaine seconde ?".
- Il ne doit pas dessiner une image parfaite (ce qui est trop lent et compliqué).
- Il doit juste deviner les formes et les idées (les "latents") de la prochaine image.
- C'est comme si un élève en géographie devait dessiner une carte mentale de la ville suivante avant même d'y arriver.

3. Pourquoi c'est génial ? (L'Entraînement vs La Réalité)

Le plus beau dans PROSPECT, c'est que cette capacité de prédiction est utilisée uniquement pour l'entraînement.

Pendant l'entraînement : Le robot fait des exercices de "prédiction d'avenir". Cela force son cerveau à mieux comprendre la physique du monde et la géométrie des lieux. C'est comme si un athlète s'entraînait avec des poids supplémentaires : c'est dur, mais ça rend ses muscles plus forts.
Pendant la vraie course (Inference) : On enlève les "poids" (la partie prédiction). Le robot est maintenant plus rapide, plus léger, et il a gardé cette intelligence spatiale acquise. Il ne perd pas de temps à prédire pendant qu'il court, il utilise simplement ce qu'il a appris.

4. Les Résultats : Un Robot qui ne panique pas

Les chercheurs ont testé PROSPECT dans des simulations complexes et sur un vrai robot (un petit chariot avec une caméra sur la tête) dans des conditions réelles :

Dans le noir ? Il s'en sort bien.
Dans une pièce encombrée ? Il trouve son chemin.
Sur de longues distances ? C'est là qu'il brille. Plus le trajet est long, plus il est meilleur que les autres, car il a gardé le fil de l'histoire sans se perdre.

En Résumé

PROSPECT, c'est comme donner à un robot un GPS mental qui ne se contente pas de dire "tourne à gauche", mais qui lui permet de visualiser le futur pour rester stable et sûr, même quand la lumière change ou que le chemin est long.

C'est un pas de géant vers des robots domestiques capables de vraiment nous aider dans nos maisons, sans avoir besoin d'une carte pré-enregistrée ou d'un GPS parfait. Ils apprennent à "sentir" l'espace, tout comme nous le faisons.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La Navigation Vision-Language (VLN) est une étape clé vers des agents incarnés (embodied agents) généralistes. Bien que les modèles de langage multimodaux (MLLM) aient permis des progrès significatifs en navigation "zero-shot" via des paradigmes Vision-Language-Action (VLA), les approches actuelles souffrent de plusieurs limitations :

Manque de modélisation prédictive : La navigation robuste nécessite non seulement de comprendre la sémantique, mais aussi de prédire la dynamique de l'environnement et la structure spatiale future.
Limites des modèles existants : Les méthodes prédictives actuelles reposent souvent sur des modèles d'état de basse dimension (peu expressifs) ou sur une supervision dans des espaces explicites (pixels, profondeur), ce qui entraîne un surapprentissage sur des détails non pertinents (textures, éclairage) et réduit la robustesse hors domaine.
Gestion du contexte et de l'échelle : De nombreux modèles utilisent des encodeurs 3D (comme VGGT) qui génèrent des représentations à échelle relative et sont coûteux en mémoire pour des épisodes longs, nécessitant des troncatures de l'historique. De plus, ils ne tirent pas pleinement parti du contexte de streaming continu.

2. Méthodologie : PROSPECT

PROSPECT propose un agent de navigation unifié en flux continu (streaming) qui couple une politique VLA avec un apprentissage de représentations prédictives latentes. L'architecture repose sur quatre piliers principaux :

A. Fusion Sémantique-Spatiale en Flux Continu

Encodeur 2D (Sémantique) : Utilisation de SigLIP pour extraire des caractéristiques sémantiques 2D de chaque image observée.
Encodeur 3D (Spatial) : Utilisation de CUT3R, un modèle fondation 3D natif en flux continu. Contrairement aux modèles basés sur VGGT, CUT3R produit des caractéristiques spatiales à échelle absolue, essentielles pour maintenir la cohérence sur de longues trajectoires avec de grands changements de point de vue.
Fusion : Les caractéristiques 2D et 3D sont fusionnées via un mécanisme d'attention croisée (cross-attention) pour alimenter le modèle de langage (LLM).

B. Apprentissage Prédictif Latent via "Stream Query Tokens"

Au lieu de prédire des pixels ou de la profondeur explicite (ce qui est coûteux et sujet au bruit), PROSPECT apprend à prédire les caractéristiques latentes futures (2D et 3D).

Mécanisme : Pendant l'entraînement, des tokens d'interrogation apprenables (stream query tokens) sont injectés dans le contexte. Ces tokens interrogent le flux de données historique pour prédire les caractéristiques latentes de l'étape suivante ( $t+1$ ).
Supervision : Les prédictions sont supervisées par des enseignants figés (frozen teachers) SigLIP et CUT3R qui génèrent les caractéristiques latentes réelles de l'étape suivante.
- Perte 2D : Distance cosinus.
- Perte 3D : Erreur quadratique moyenne (MSE).
Avantage : Cette branche prédictive façonne les représentations internes du modèle pour qu'elles intègrent la dynamique de l'environnement, mais elle est supprimée lors de l'inférence. Ainsi, la prédiction améliore la performance sans ajouter de latence.

C. Masque d'Attention Streaming Causal

Pour gérer la causalité et éviter les fuites d'information dans un cadre unifié, un masque d'attention spécifique est conçu :

Il assure que les tokens de requête ne peuvent voir que leur propre tour et les tours précédents (causalité stricte).
Il isole les requêtes 2D et 3D les unes des autres pour éviter l'entrelacement des modalités.
Il empêche les requêtes d'accéder aux tokens de navigation futurs.

3. Contributions Clés

Cadre Unifié : Première architecture VLN en flux continu intégrant une politique VLA et un apprentissage de représentations prédictives latentes, atteignant des performances de premier plan.
Perception 3D à Échelle Absolue : Utilisation de CUT3R pour une navigation à long terme stable, évitant les problèmes de mémoire (OOM) et les incohérences d'échelle des modèles 3D existants.
Tokens de Requête en Flux (Stream Query Tokens) : Un mécanisme novateur permettant la prédiction latente tout en découplant les objectifs 2D/3D via un masque d'attention causal.
Déploiement Réel : Validation sur un robot physique (ARX-Lift2) démontrant une robustesse élevée dans des conditions d'éclairage variées (intérieur/extérieur, jour/nuit).

4. Résultats Expérimentaux

Les expériences ont été menées sur les benchmarks VLN-CE (R2R et RxR) et sur des robots réels.

Performance sur les Benchmarks (VLN-CE) :
- PROSPECT atteint des performances de premier niveau (State-of-the-Art) sur les splits val-unseen de R2R et RxR.
- Sur le benchmark RxR (plus long et complexe), les gains sont particulièrement marqués par rapport aux méthodes précédentes (ex: +4.68% de SR sur les tâches moyennes, +4.14% sur les tâches longues), démontrant une meilleure robustesse pour le suivi d'instructions à long horizon.
- Comparé à StreamVLN (la base), PROSPECT améliore le taux de réussite (SR) de 55.7% à 58.9% sur R2R et de 52.9% à 54.6% sur RxR.
Ablations :
- La fusion SigLIP-CUT3R est supérieure à l'utilisation de SigLIP seul.
- L'ajout des objectifs prédictifs 2D et 3D améliore systématiquement les métriques.
- L'utilisation de CUT3R est nettement supérieure à InfiniteVGGT en termes de précision et de latence, évitant les erreurs de mémoire.
- Le masque d'attention strict est crucial pour la performance.
Déploiement Robotique :
- Déployé sur un robot ARX-Lift2 avec une fréquence de contrôle d'environ 4 Hz.
- Résultats supérieurs à NaVid et StreamVLN dans tous les scénarios, notamment la nuit et dans des environnements extérieurs complexes.

5. Signification et Impact

PROSPECT représente une avancée significative dans le domaine de l'IA incarnée et de la navigation. En démontrant que l'apprentissage de représentations prédictives latentes (inspiré par JEPA) peut être intégré de manière transparente dans un agent VLA en flux continu, le papier résout le compromis entre la compréhension spatiale, la prédiction dynamique et l'efficacité computationnelle.

L'approche prouve qu'il n'est pas nécessaire de générer des images futures explicites pour bénéficier d'une "modélisation du monde". La capacité à maintenir une cohérence spatiale à échelle absolue sur de longues durées, combinée à une robustesse face aux variations d'éclairage sur des robots réels, ouvre la voie à des agents autonomes plus fiables pour des applications dans des environnements non structurés et dynamiques. Le code sera bientôt rendu public pour la communauté.