History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient Vision-Language Navigation

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr intelligenten Roboter-Hund (wie den Unitree Go2 aus dem Papier), der Ihnen folgt, wenn Sie ihm sagen: „Geh durch den Flur, biege links ab und stoppe vor dem Kühlschrank."

Das Problem ist: Dieser Roboter ist wie ein Genie, das aber extrem langsam denkt. Um die Welt zu sehen, schaut er sich ein riesiges Bild an, das aus tausenden kleinen Puzzleteilen (den sogenannten „Tokens") besteht. Jedes Puzzleteil ist ein winziger Fleck des Bildes. Wenn der Roboter einen langen Weg gehen muss, muss er sich nicht nur das aktuelle Bild ansehen, sondern auch an alle Bilder erinnern, die er in der Vergangenheit gesehen hat.

Das ist wie wenn Sie versuchen, einen Weg zu finden, indem Sie sich jeden einzelnen Stein auf einem kilometerlangen Wanderweg genau ansehen und sich jeden einzelnen Stein aus den letzten 10 Kilometern noch einmal im Kopf vorstellen. Das ist für den Roboter extrem anstrengend und dauert zu lange. Er stolpert, weil er zu viel Zeit mit dem „Grübeln" über unwichtige Details verbringt.

Die Lösung des Papiers: Der „Kluger Wegweiser"

Die Forscher haben eine Methode entwickelt, die wie ein kluger Wegweiser funktioniert. Sie nennen es „History-Conditioned Spatio-Temporal Visual Token Pruning". Klingt kompliziert, ist aber im Kern ganz einfach:

Statt sich alles anzusehen, lernt der Roboter, das Wichtige zu behalten und das Unwichtige wegzulassen, und zwar auf zwei verschiedene Arten:

Für das aktuelle Bild (Der „Jetzt"-Moment):
Stellen Sie sich vor, Sie stehen in einem Raum. Es gibt viele Dinge: eine Lampe, ein Fenster, eine Vase und einen Haufen alter Zeitungen in der Ecke.
- Der Roboter fragt sich: „Was ist für meine Aufgabe wichtig?" Wenn Sie sagen „Geh zur Vase", dann ist die Vase wichtig. Die Zeitungen sind es nicht.
- Die Methode wählt also nur die Puzzleteile aus, die die Vase und den Weg dorthin zeigen, und wirft die Zeitungen (die unwichtigen Puzzleteile) einfach weg. Sie nennt dies A-MMR. Das ist wie ein Filter, der sicherstellt, dass die wichtigsten Dinge scharf bleiben, aber keine doppelten Informationen (z. B. 50 Puzzleteile, die alle nur die rote Farbe der Vase zeigen) gespeichert werden.
Für die Erinnerung (Die „Vergangenheit"):
Hier wird es noch cleverer. Der Roboter muss sich an den Weg erinnern, den er schon gegangen ist. Aber er muss sich nicht an jeden Stein erinnern, den er je gesehen hat.
- Die Methode fragt: „Was aus meiner Vergangenheit ist jetzt noch relevant?" Wenn Sie gerade durch eine Tür gehen, ist es wichtig zu wissen, dass Sie vor 10 Sekunden links abgebogen sind. Es ist aber egal, ob Sie vor 2 Minuten eine blaue Wand gesehen haben, die nichts mit dem aktuellen Ziel zu tun hat.
- Die Methode nimmt also die „wichtigen" Teile aus der aktuellen Szene und sucht in der Erinnerung nur nach den Teilen, die damit zusammenhängen. Alles andere wird „zusammengepresst" oder weggelassen.

Warum ist das so toll?

Kein neues Lernen nötig: Die Forscher mussten den Roboter nicht neu ausbilden. Es ist wie ein Plug-and-Play-Filter, den man einfach vor die Kamera des Roboters schraubt. Der Roboter bleibt derselbe kluge Typ, wird aber viel schneller.
Schneller und trotzdem klug: In Tests hat sich gezeigt, dass der Roboter mit diesem Filter bis zu 90 % weniger Informationen verarbeiten muss, aber trotzdem fast genauso gut (oder sogar besser) navigiert als ohne Filter. Er stolpert nicht mehr, weil er nicht mehr mit unnötigem „Ballast" beladen ist.
Echte Roboter: Die Forscher haben das nicht nur am Computer getestet, sondern auf einem echten Roboter-Hund in der echten Welt. Der Roboter konnte Anweisungen in Echtzeit befolgen, ohne zu zögern, selbst wenn er nur eine kleine Batterie und einen kleinen Computer an Bord hatte.

Zusammenfassung in einem Satz:
Die Forscher haben eine Methode entwickelt, die einem Roboter beibringt, wie ein erfahrener Wanderer zu denken: Er schaut sich nur die Wegweiser an, die ihn zum Ziel führen, und ignoriert den Rest des Waldes – sowohl im aktuellen Blick als auch in seiner Erinnerung –, damit er schnell und sicher ans Ziel kommt.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient Vision-Language Navigation" auf Deutsch:

1. Problemstellung

Vision-Language Navigation (VLN) ermöglicht es Robotern, natürliche Sprachanweisungen in visuell verankerten Umgebungen zu befolgen. Während neuere Vision-Language-Action (VLA)-Modelle hervorragende Navigationsleistungen erzielen, sind sie aufgrund ihrer transformer-basierten Architektur rechenintensiv. Dies führt zu hohen Latenzen, die eine Echtzeit-Implementierung auf physischen Robotern erschweren.

Ein vielversprechender Ansatz zur Beschleunigung ist das „Token Pruning" (das Entfernen unwichtiger visueller Tokens). Bestehende Methoden sind jedoch oft rein bildbasiert (frame-centric) und ignorieren die spezifische Struktur von VLN-Aufgaben. VLN erfordert eine historisch konditionierte Entscheidungsfindung, bei der der Agent nicht nur den aktuellen Bildrahmen, sondern auch die räumlich-zeitlichen Beziehungen zu vergangenen Beobachtungen nutzen muss. Herkömmliche Pruning-Strategien vernachlässigen diese zeitliche Abhängigkeit, was zu einem Verlust an für die Navigation kritischen Informationen führt.

2. Methodik

Die Autoren schlagen einen trainingsfreien (training-free) Rahmen vor, der speziell für VLA-basierte VLN-Systeme entwickelt wurde. Der Ansatz unterscheidet explizit zwischen der Verarbeitung des aktuellen Bildes und der Kompression historischer Erinnerungen.

Der Framework besteht aus vier Hauptschritten (siehe Abbildung 2 im Paper):

A. Merkmalsextraktion und Wichtigkeitsberechnung:
Alle Frames (aktuell und historisch) werden durch den Vision-Encoder kodiert. Die Wichtigkeit jedes Patch-Tokens wird basierend auf der Ähnlichkeit zum globalen [CLS]-Token berechnet (Cosine-Similarity), was als Basis-Wichtigkeits-Score ( $I_{base}$ ) dient.
B. Token-Auswahl (Aktueller Frame):
Für den aktuellen Beobachtungsrahmen wird eine Adaptive Maximal Marginal Relevance (A-MMR)-Strategie angewendet. Im Gegensatz zu starren Aufteilungen optimiert A-MMR iterativ die Auswahl von Tokens, indem es zwei Ziele balanciert:
1. Semantische Wichtigkeit: Hohe Aufmerksamkeit für relevante Objekte (z. B. Ziele, Hindernisse).
2. Diversität: Sicherstellung, dass ausgewählte Tokens sich gegenseitig nicht stark ähneln (maximale räumliche Abdeckung).
  Die ausgewählten Tokens des aktuellen Frames dienen als Abfragen ( $Q$ ) für die historische Verarbeitung.
C. Token-Auswahl (Historische Frames):
Für historische Frames wird ein Query-Guided Re-weighting-Mechanismus eingeführt. Die Wichtigkeit historischer Tokens wird basierend auf ihrer Ähnlichkeit zu den aktuell ausgewählten Tokens ( $Q$ ) neu gewichtet. Dies filtert redundante Informationen heraus, die für die aktuelle Entscheidung irrelevant sind. Anschließend wird erneut A-MMR angewendet, um einen kompakten, aber informativen Speicherpool zu erstellen.
D. Aktionsvorhersage:
Die gefilterten Tokens werden durch einen Projektor und das LLM des VLA-Modells geleitet, um die Navigationsaktion vorherzusagen. Da keine Neukalibrierung des Modells erforderlich ist, fungiert dies als „Plug-and-Play"-Modul.

3. Hauptbeiträge

Neues Problemverständnis: Die Arbeit adressiert die Lücke beim Token-Pruning für VLA-Modelle unter Berücksichtigung der für VLN essenziellen räumlich-zeitlichen Informationen.
Trainingsfreies Framework: Ein neuartiger Ansatz, der räumliche Token-Auswahl (aktuell) und räumlich-zeitliche Speicherkompression (historisch) kombiniert, ohne die vortrainierten Modellparameter zu verändern.
A-MMR-Strategie: Eine Weiterentwicklung der MMR-Methode, die semantische Fülle und Diversität dynamisch balanciert, um Redundanz zu minimieren und kritische visuelle Merkmale zu erhalten.
Echtwelt-Validierung: Demonstration der Methode auf einem Unitree Go2 Vierbeiner-Roboter, was die praktische Anwendbarkeit unter realen Randbedingungen (Edge-Computing) beweist.

4. Ergebnisse

Die Methode wurde auf den Standard-VLN-Benchmarks Room-to-Room (R2R) und Room-Across-Room (RxR) evaluiert und mit aktuellen State-of-the-Art-Methoden (SparseVLM, DivPrune, VisPruner) verglichen.

Leistungssteigerung: Bei extremen Pruning-Raten (z. B. 90% der Tokens entfernt) übertrifft die vorgeschlagene Methode die bestehenden Ansätze signifikant. Auf dem R2R-Datensatz erreichte sie bei 90% Pruning eine 17,81% höhere SPL (Success weighted by Path Length) im Vergleich zu DivPrune und 7,09% besser als VisPruner.
Effizienz: Die Methode reduziert die CUDA-Inferenz-Latenz von 231,34 ms (unpruned) auf 213,40 ms bei 90% Pruning. Dies ist schneller als alle verglichenen Baselines.
Robustheit: Auch bei hohen Pruning-Raten bleibt die Navigationsgenauigkeit erhalten, was zeigt, dass die Methode kritische Informationen effektiv bewahrt.
Ablationsstudien: Die Studien belegen, dass sowohl Diversität als auch semantische Wichtigkeit notwendig sind. Das reine Zusammenführen (Merging) von Tokens (wie in anderen Vision-Methoden üblich) führte in VLN-Szenarien zu Leistungsabfällen, da feine räumliche Merkmale verwischt wurden.

5. Bedeutung und Fazit

Diese Arbeit schließt eine wichtige Lücke zwischen großen multimodalen Foundation-Modellen und der effizienten, Echtzeit-Einsatzfähigkeit in der Robotik. Durch die Berücksichtigung der zeitlichen Abhängigkeit in VLN-Aufgaben ermöglicht der vorgeschlagene Ansatz eine drastische Reduzierung der Rechenlast ohne Kompromisse bei der Navigationsleistung.

Die erfolgreiche Implementierung auf einem Unitree Go2-Roboter mit Onboard-Computing (NVIDIA Jetson Thor) unterstreicht die praktische Relevanz für den Einsatz in Umgebungen ohne Cloud-Anbindung. Die Methode stellt einen bedeutenden Schritt hin zu agilen, reaktionsschnellen embodied agents dar, die komplexe Sprachanweisungen in Echtzeit befolgen können.

History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient Vision-Language Navigation

1. Problemstellung

2. Methodik

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers