JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du musst einen Freund durch ein völlig neues, riesiges Haus führen, nur indem du ihm per Sprachnachricht sagst: „Geh geradeaus, dann links, bis du die blaue Vase siehst." Das ist die Aufgabe, die sich ein Roboter in der Vision-and-Language Navigation (VLN) stellt.

Das Problem bisher war: Die Roboter waren wie Menschen mit einem sehr guten Sprachverständnis, aber einem schlechten räumlichen Gefühl. Sie konnten die Wörter verstehen, aber sie „fühlten" den Raum nicht richtig. Außerdem wurden sie schnell überfordert, weil sie sich an alles erinnerten, was sie je gesehen hatten – wie ein Mensch, der sich an jeden einzelnen Schritt eines langen Spaziergangs erinnert und dabei den Weg vergisst.

Hier kommt JanusVLN ins Spiel. Der Name ist eine Anspielung auf Janus, den römischen Gott mit zwei Gesichtern, der in beide Richtungen schaut. Genau das macht dieser neue Roboter-Architektur-Typ.

Die zwei Gehirnhälften des Roboters

Stell dir das menschliche Gehirn vor: Die linke Seite ist gut für Sprache und Logik, die rechte für räumliches Vorstellungsvermögen. JanusVLN kopiert dieses Prinzip mit zwei speziellen „Gedächtnis-Modulen":

Das semantische Gedächtnis (Das „Was"): Das ist wie ein gut lesender Bibliothekar. Er weiß, dass ein Objekt ein „Stuhl" oder eine „Tür" ist. Er versteht die Sprache der Anweisung.
Das räumlich-geometrische Gedächtnis (Das „Wo"): Das ist wie ein erfahrener Architekt oder ein Tausendfüßler, der den Raum mit allen Fühlern spürt. Er weiß nicht nur, dass da ein Stuhl ist, sondern wie weit er entfernt ist, wie hoch die Decke ist und wie die Perspektive aussieht.

Bisherige Roboter hatten oft nur den Bibliothekar und mussten sich alles, was der Architekt gesehen hätte, mühsam aus dem Text erschließen. JanusVLN hat beides gleichzeitig.

Das Problem mit dem „Gedächtnis-Blähbauch"

Stell dir vor, du läufst durch ein Labyrinth.

Der alte Weg: Du nimmst dir ein riesiges Notizbuch und zeichnest jeden einzelnen Schritt, jeden Stein und jeden Schatten, den du je gesehen hast, hinein. Nach 100 Schritten ist das Buch so dick, dass du es nicht mehr tragen kannst. Wenn du jetzt eine neue Entscheidung treffen musst, musst du das ganze dicke Buch durchblättern. Das ist langsam und ineffizient.
Der JanusVLN-Weg: Du hast ein magisches, festes Notizbuch mit nur zwei Seiten.
- Seite 1 (Der Anfang): Hier stehen die wichtigsten Orientierungspunkte, die du am Start gesehen hast (z. B. „Der Eingang ist rechts"). Diese Seite vergisst du nie.
- Seite 2 (Das Fenster): Hier siehst du nur die letzten paar Schritte, die du gemacht hast. Sobald du einen neuen Schritt machst, rutscht der älteste Schritt von dieser Seite herunter und wird durch den neuen ersetzt.

Das Geniale daran: Du musst nicht das ganze alte Buch neu lesen. Du schaust nur auf diese zwei Seiten. Das spart enorm viel Zeit und Energie. Der Roboter vergisst nicht den Weg, aber er speichert nicht unnötigen „Müll".

Wie sieht das in der Praxis aus?

Stell dir vor, du sollst zu einem Stuhl gehen, der „hinter dem Tisch" steht.

Ein alter Roboter würde vielleicht denken: „Tisch ist da. Stuhl ist da. Okay, ich gehe dorthin." Aber er könnte den Abstand falsch einschätzen und gegen den Tisch laufen.
JanusVLN nutzt sein „Architekt-Gedächtnis". Es sieht das Bild der Kamera und rechnet im Hintergrund sofort aus: „Der Tisch ist 2 Meter entfernt, der Stuhl ist 3 Meter entfernt und leicht rechts versetzt." Es baut sich eine unsichtbare 3D-Karte aus dem normalen 2D-Bild, ohne dass es extra teure 3D-Kameras oder Laser braucht.

Warum ist das so wichtig?

Schneller und schlanker: Weil der Roboter nicht alles neu berechnen muss, wenn er einen neuen Schritt macht, ist er viel schneller. Er kann in Echtzeit entscheiden, wohin er geht.
Besser im Dunkeln (im übertragenen Sinne): Er versteht die räumliche Tiefe viel besser als seine Vorgänger. Er weiß, was „nah" und was „fern" bedeutet, nicht nur, was „links" oder „rechts" ist.
Kein teures Equipment: Früher brauchte man oft spezielle 3D-Kameras oder Tiefensensoren, um den Raum zu verstehen. JanusVLN schafft das nur mit einer ganz normalen Kamera (wie in deinem Handy), weil es so gut darin ist, die Tiefe aus dem Bild zu „erraten".

Zusammenfassung in einer Metapher

Stell dir Navigation wie das Fahren eines Autos vor.

Früher: Der Fahrer hatte eine Landkarte (Text), aber keine Windschutzscheibe. Er musste sich die Straße aus der Beschreibung vorstellen. Wenn er eine Abbiegung verpasste, musste er die ganze Landkarte von vorne durchsuchen, um zu wissen, wo er steht.
Mit JanusVLN: Der Fahrer hat eine Landkarte und eine klare Windschutzscheibe. Er sieht die Straße direkt vor sich (räumliches Gedächtnis) und versteht die Anweisungen (semantisches Gedächtnis). Und sein Rückspiegel zeigt ihm nur die letzten paar Meter, damit er nicht abgelenkt wird, während sein Navigationssystem ihm den Startpunkt nie vergessen lässt.

Das Ergebnis: Der Roboter findet sein Ziel schneller, macht weniger Fehler und braucht weniger Rechenleistung. Es ist ein großer Schritt hin zu Robotern, die sich wirklich wie Menschen in unserer 3D-Welt zurechtfinden.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Vision-and-Language Navigation (VLN) verlangt von einem embodied Agenten, sich in unbekannten Umgebungen basierend auf natürlichen Sprachanweisungen und einem kontinuierlichen Videostream zu bewegen. Aktuelle Ansätze, die auf Multimodalen Large Language Models (MLLMs) basieren, leiden unter mehreren fundamentalen Einschränkungen:

Verlust räumlicher Informationen: Herkömmliche Methoden nutzen oft explizite semantische Speicher (z. B. textbasierte kognitive Karten oder das Speichern historischer Videoframes). Textuelle Beschreibungen können räumliche Beziehungen und Orientierungen nur ungenau wiedergeben.
Rechenineffizienz und Speicherüberlauf: Das Speichern und erneute Verarbeiten ganzer Historien von Beobachtungen führt zu exponentiell wachsendem Rechenaufwand und Speicherbedarf (Memory Bloat), was Echtzeit-Anwendungen behindert.
Mangelndes 3D-Verständnis: Die visuellen Encoder der meisten MLLMs basieren auf dem CLIP-Paradigma (2D-Bild-Text-Paare) und sind daher hervorragend im Erfassen von Semantik, aber schlecht im Verständnis von 3D-geometrischen Strukturen und räumlichen Tiefeninformationen.
Abhängigkeit von teuren Sensoren: Viele fortschrittliche Methoden benötigen zusätzliche 3D-Daten (wie Tiefenkarten oder Punktwolken), die in der Praxis oft nicht verfügbar sind.

2. Methodik: JanusVLN

Das Paper stellt JanusVLN vor, ein neues Framework, das die menschliche kognitive Arbeitsteilung (linke Hemisphäre für Semantik, rechte für räumliche Kognition) nachahmt. Der Kernansatz ist die Entkopplung von Semantik und Räumlichkeit durch ein dual-implizites neuronales Gedächtnis.

A. Dual-Encoder-Architektur

JanusVLN verwendet zwei separate Encoder, die aus einem reinen RGB-Videostream arbeiten:

Visuell-semantischer Encoder: Basiert auf dem Encoder von Qwen2.5-VL. Er extrahiert hochlevelige semantische Merkmale („Was ist es?").
Räumlich-geometrischer Encoder: Basiert auf VGGT (Visual Geometry Grounded Transformer). Dieser Encoder ist auf Pixel-zu-3D-Punktwolken-Paare vortrainiert und extrahiert aus reinem RGB-Video 3D-geometrische Strukturinformationen („Wo ist es und wie ist die Struktur?").

B. Dual-Implizites Neuronales Gedächtnis (Dual Implicit Neural Memory)

Anstatt explizite Frames oder Textkarten zu speichern, nutzt JanusVLN Key-Value (KV) Caches als kompakte, feste Größe neuronale Repräsentationen. Dies verhindert Speicherüberlauf und Rechenredundanz.

Hybride Update-Strategie: Der Speicher besteht aus zwei Komponenten:
- Initial Window: KV-Caches der ersten Frames werden dauerhaft gespeichert und fungieren als „Attention Sinks" (globale Anker für die gesamte Aufgabe).
- Sliding Window: Ein FIFO-Puffer (First-In-First-Out) speichert die KV-Caches der letzten $n$ Frames.
Inkrementelles Update: Bei jedem neuen Frame werden nur die neuen KV-Pairs berechnet und mit dem bestehenden Cache fusioniert. Es müssen keine historischen Frames erneut verarbeitet werden. Dies ermöglicht effizientes Streaming.

C. Räumlich-bewusste Feature-Fusion

Die extrahierten semantischen Token ( $S_t$ ) und geometrischen Token ( $G_t$ ) werden fusioniert:

Die geometrischen Token werden räumlich gemerged, um die Form der semantischen Token anzupassen.
Eine leichte MLP-Projektionsschicht fusioniert die Merkmale: $F_t = S_t + \lambda \cdot \text{MLP}(G_t)$ .
Die fusionierten Merkmale werden zusammen mit der Sprachanweisung in das MLLM eingespeist, um die nächste Aktion vorherzusagen.

3. Schlüsselbeiträge

Neues Paradigma des dualen impliziten Gedächtnisses: Inspiriert von der menschlichen Kognition wird erstmals ein Framework vorgestellt, das Semantik und Geometrie in zwei separaten, festen Speichermodulen abbildet, ohne dass die Speichergröße mit der Pfadlänge wächst.
Entschlüsselung von 3D-Priors aus RGB: Durch die Integration von VGGT kann das Modell 3D-geometrische Strukturen und Tiefeninformationen direkt aus monokularem RGB-Video ableiten, ohne teure Tiefensensoren oder zusätzliche 3D-Daten.
Effizienzsteigerung: Durch die Vermeidung der erneuten Verarbeitung historischer Frames (Re-Computation) wird der Inferenzaufwand drastisch reduziert (69–90 % weniger Overhead im Vergleich zu Baselines), was Echtzeit-Navigation ermöglicht.
State-of-the-Art (SOTA) Leistung: Das Modell erreicht Spitzenwerte auf den VLN-CE-Benchmarks (R2R-CE und RxR-CE), selbst wenn es nur mit RGB-Daten trainiert wird und weniger externe Daten nutzt als vergleichbare SOTA-Methoden.

4. Ergebnisse

Benchmark-Leistung: Auf dem R2R-CE Val-Unseen Split erreicht JanusVLN eine Success Rate (SR) von 60,5 % und eine Success-weighted Path Length (SPL) von 56,8. Dies übertrifft Methoden, die Panoramen, Odometrie oder Tiefendaten nutzen, sowie Methoden, die explizite Karten oder historische Frames speichern.
- Verbesserung gegenüber Methoden mit mehreren Datentypen: +10,5 bis +35,5 % SR.
- Verbesserung gegenüber Methoden mit mehr RGB-Trainingsdaten: +3,6 bis +10,8 % SR.
Effizienz: Die Inferenzzeit steigt bei JanusVLN nur marginal mit der Sequenzlänge an, während sie bei herkömmlichen VGGT-Ansätzen exponentiell wächst (Out-of-Memory-Fehler bei 48 Frames auf einer 48GB GPU).
Real-World-Evaluation: Tests mit einem Unitree Go2 Roboter in realen Umgebungen zeigen, dass JanusVLN Aufgaben mit komplexen räumlichen Anforderungen (z. B. „das am weitesten entfernte Hocker", „neben dem Topf, nicht davor") erfolgreich löst.
Ablationsstudien:
- Das Entfernen des räumlichen Gedächtnisses senkt die SPL um ca. 17 %.
- Das Entfernen des semantischen Gedächtnisses senkt die SR um ca. 13,8 %.
- Dies bestätigt die Notwendigkeit und Komplementarität beider Speichermodulen.

5. Bedeutung und Ausblick

JanusVLN markiert einen Paradigmenwechsel in der VLN-Forschung: weg von einer rein semantisch dominierten, 2D-basierten Navigation hin zu einer synergetischen 3D-räumlich-semantischen Navigation.

Skalierbarkeit: Das Konzept des festen, impliziten Speichers löst das Problem des exponentiellen Speicherwachstums und macht VLN für lange, komplexe Navigationen in Echtzeit praktikabel.
Praktische Anwendbarkeit: Da das System nur RGB-Kameras benötigt, ist es direkt auf kostengünstige Roboterplattformen übertragbar, ohne teure 3D-Sensoren.
Zukunft: Die Arbeit legt den Grundstein für die nächste Generation von „spatially-aware" embodied agents, die komplexe Umgebungen ähnlich wie Menschen verstehen und navigieren können.

Zusammenfassend demonstriert JanusVLN, dass die Entkopplung und gezielte Wiedervereinigung von semantischen und geometrischen Merkmalen durch ein effizientes, implizites Gedächtnis der Schlüssel zu robuster und effizienter visueller Sprachnavigation ist.