SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du fährst ein autonomes Auto. Dieses Auto hat nicht nur Augen (Kameras), sondern auch ein sehr intelligentes Gehirn, das aus einem großen Sprachmodell (einem "KI-Gehirn") besteht. Dieses Gehirn kann nicht nur die Straße sehen, sondern auch verstehen, wenn du ihm sagst: "Achtung, da vorne ist ein Hund!" oder "Fahre langsamer, es regnet."

Das Problem ist jedoch: Dieses KI-Gehirn ist extrem hungrig. Um die Straße zu verstehen, schaut es sich Tausende von kleinen Bildteilen an (genannt "Tokens"). Stell dir vor, du würdest versuchen, ein ganzes Buch zu lesen, indem du jeden einzelnen Buchstaben einzeln und langsam betrachtest. Das dauert ewig und braucht viel Energie. Für ein Auto, das in Echtzeit Entscheidungen treffen muss, ist das viel zu langsam und verbraucht zu viel Strom.

Bisherige Versuche, das Auto schneller zu machen, waren wie ein ungeschickter Scherenschritt: Man hat einfach viele Bildteile weggeworfen, um Platz zu schaffen. Das Ergebnis war oft, dass das Auto zwar schneller reagierte, aber wichtige Dinge übersehen hat – wie ein Fußgänger am Straßenrand.

Die Lösung: SToRM (Der "Wissens-Filter")

Die Forscher haben eine neue Methode namens SToRM entwickelt. Man kann sich das wie einen hochintelligenten Redakteur vorstellen, der vor dem eigentlichen Gehirn sitzt.

Hier ist, wie SToRM funktioniert, mit einfachen Vergleichen:

1. Der "Wissens-Filter" (Der Importance Predictor)

Stell dir vor, du hast einen Stapel von 3.000 Fotos, die das Auto in den letzten Sekunden gemacht hat. Ein normaler Computer würde sich alle 3.000 Fotos genau ansehen.
SToRM hat einen schnellen Assistenten (den "Importance Predictor"). Dieser Assistent schaut sich die Fotos nur kurz an und sagt: "Hey, dieser Teil hier (der Fußgänger) ist superwichtig! Dieser Teil hier (der Himmel) ist aber langweilig und nicht nötig."

Der Trick: Dieser Assistent lernt nicht durch Raten, sondern durch "Spionieren". Er schaut sich an, wie das große Gehirn eigentlich auf die Bilder reagiert, wenn es alle sieht, und merkt sich: "Aha, das Gehirn schaut immer auf die Ampel, also ist die Ampel wichtig." So lernt er, was wirklich zählt.

2. Der "Kleber" (Das ACM-Modul)

Sobald der Assistent weiß, was wichtig ist, kommt der zweite Teil: Der Kleber.

Anker (Anchors): Die wichtigen Dinge (Fußgänger, andere Autos, Straßenschilder) werden als "Anker" festgehalten. Sie bleiben unverändert.
Hintergrund (Context): Die unwichtigen Dinge (die Farbe des Himmels, Schatten auf dem Asphalt) werden nicht einfach weggeworfen. Stattdessen werden sie wie ein Puzzle in die wichtigsten Teile "eingeklebt".
Das Ergebnis: Statt 3.000 einzelne Bildteile hat das Gehirn jetzt nur noch 120. Aber diese 120 enthalten immer noch alle wichtigen Informationen, weil die unwichtigen Teile intelligent in die wichtigen integriert wurden. Es ist, als würdest du eine lange, langatmige Geschichte zusammenfassen, ohne den Kern der Handlung zu verlieren.

Warum ist das so genial?

Geschwindigkeit: Das Auto muss jetzt nicht mehr 3.000 Dinge prüfen, sondern nur noch 120. Das macht es 30-mal schneller und spart enorm viel Rechenleistung.
Sicherheit: Im Gegensatz zu früheren Methoden, die einfach Dinge wegwurfen, verliert SToRM keine wichtigen Details. Das Auto ist genauso sicher wie mit dem vollen Bild, aber viel schlauer im Umgang mit Ressourcen.
Echtzeit: Dank dieser Methode kann das Auto jetzt sogar auf einer normalen Grafikkarte (wie in einem Gaming-PC) in Echtzeit fahren, ohne zu überhitzen oder zu verzögern.

Zusammenfassend:
SToRM ist wie ein sehr effizienter Sekretär für das autonome Auto. Er liest den riesigen Bericht (die Sensordaten), hebt nur die wichtigsten Punkte hervor und fasst den Rest in kurzen, prägnanten Notizen zusammen, bevor er das große Gehirn (die KI) damit füttert. Das Gehirn kann so schneller und sicherer entscheiden, wohin es lenken muss, ohne sich in unnötigen Details zu verlieren.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving" auf Deutsch:

1. Problemstellung

End-to-End (E2E) autonome Fahrsysteme, die Sensordaten direkt in Steuerbefehle umwandeln, haben große Fortschritte gemacht. Für das Fahren in unvorhergesehenen Szenarien ist jedoch oft eine menschliche Intervention durch natürliche Sprachanweisungen erforderlich. Multi-modale Large Language Models (MLLMs) ermöglichen diese Mensch-Fahrzeug-Interaktion und verbessern die Leistung.

Das Hauptproblem liegt jedoch in der Rechenineffizienz:

MLLMs verarbeiten visuelle Tokens (aus Kameras und LiDAR) und Text-Tokens.
Visuelle Eingaben erzeugen eine enorme Anzahl von Tokens (oft mehrere Frames über die Zeit), was zu einer quadratischen Komplexität in den Attention-Layern des LLM führt.
Dies führt zu hohen Rechenkosten und Latenz, was für Echtzeit-Anwendungen in autonomen Fahrzeugen (die oft auf ressourcenbeschränkter Hardware laufen) inakzeptabel ist.
Bestehende Methoden zur Token-Reduktion (z. B. Q-Former, Token-Dropping) nutzen oft heuristische Signale (wie Ähnlichkeit) und führen zu einem signifikanten Leistungsabfall bei der Fahraufgabe im Vergleich zur Verwendung aller Tokens.

2. Methodik: Das SToRM-Framework

Die Autoren schlagen SToRM (Supervised Token Reduction for Multi-modal LLMs) vor, das erste überwachte Token-Reduktions-Framework für MLLMs im autonomen Fahren. Das Ziel ist es, die Rechenkosten drastisch zu senken, ohne die Fahrleistung zu beeinträchtigen.

Das Framework besteht aus drei Kernkomponenten:

A. Pseudo-Supervision (Hilfspfad)

Anstatt auf heuristische Kriterien zu setzen, nutzt SToRM Pseudo-Supervisionssignale:

Ein „Hilfspfad" führt alle visuellen Tokens (ohne Reduktion) durch das gefrorene LLM.
Die Attention-Scores aus dem letzten Decoder-Block des LLM werden extrahiert.
Diese Scores dienen als „Ground Truth" für die Wichtigkeit der Tokens: Tokens, die vom LLM stark beachtet werden, gelten als wichtig für die Fahrentscheidung.

B. Lightweight Importance Predictor

Ein neuartiger, leichter Vorhersager schätzt die Wichtigkeit der visuellen Tokens basierend auf den Pseudo-Signals.

Architektur: Basiert auf einem MLP-Mixer mit einem kurzfristigen gleitenden Zeitfenster (short-term sliding window).
Funktionsweise: Statt alle Tokens über die gesamte Sequenz zu betrachten (was teuer wäre), werden nur lokale räumlich-zeitliche Zusammenhänge innerhalb eines Fensters gemischt.
Vorteil: Dies reduziert die Komplexität von quadratisch ( $O((TN)^2)$ ) auf linear in Bezug auf die Sequenzlänge (abhängig von der Fenstergröße), erfasst aber dennoch kurzfristige zeitliche Abhängigkeiten und kanalübergreifende Abhängigkeiten innerhalb eines Tokens.

C. Anchor-Context Token Merging (ACM) Modul

Basierend auf den vorhergesagten Wichtigkeits-Scores werden die Tokens reduziert:

Kategorisierung: Tokens werden in „Anker" (Anchors) (die $K$ wichtigsten Tokens) und „Kontext" (Context) (die restlichen weniger wichtigen Tokens) unterteilt.
Merging: Jeder Kontext-Token wird einem einzigen, relevantesten Anker-Token zugeordnet (Hard Assignment).
Technik: Dies geschieht durch Cross-Attention, wobei ein Gumbel-Softmax-Operator verwendet wird, um eine differenzierbare, aber „harte" Zuweisung (One-Hot) zu ermöglichen. Die Kontext-Tokens werden dann in ihre Anker-Tokens integriert (gemischt), um Redundanz zu entfernen, während kritische Informationen erhalten bleiben.

Das gesamte System wird End-to-End trainiert mit zwei Verlustfunktionen:

$L_{score}$ : Minimiert den Unterschied zwischen den vorhergesagten Wichtigkeits-Scores und den Pseudo-Supervision-Scores.
$L_{wp}$ : Minimiert den Fehler bei der Vorhersage der Fahrwegepunkte (Waypoints).

3. Hauptbeiträge

Erstes überwaches Framework: SToRM ist das erste Framework, das Pseudo-Supervision nutzt, um token-spezifische Reduktion in MLLMs für das autonome Fahren zu steuern, anstatt auf heuristische Methoden zu setzen.
Effizienter Predictor: Entwicklung eines leichten MLP-Mixer-basierten Predictors, der kurzfristige räumlich-zeitliche Beziehungen modelliert und die quadratische Komplexität vermeidet.
ACM-Modul: Ein innovatives Merging-Verfahren, das redundante Tokens in informative Anker-Tokens integriert, anstatt sie einfach zu löschen (was Informationsverlust bedeuten würde).
Leistungsstärke: Demonstration, dass SToRM die Fahrleistung von All-Token-Modellen beibehält, während es die Rechenkosten massiv senkt.

4. Experimentelle Ergebnisse

Die Evaluation erfolgte auf dem LangAuto-Benchmark (CARLA-Simulator) mit verschiedenen LLM-Backbones (LLaVA 7B und TinyLLaVA 1.5B).

Fahrleistung: SToRM übertrifft den State-of-the-Art (SOTA) Ansatz (LMDrive mit Q-Former) bei gleicher Token-Budget (120 Tokens) deutlich.
- Auf dem LangAuto-Long-Datensatz erreicht SToRM mit dem kleinen LLM (TinyLLaVA) eine Fahrleistung (DS), die der des All-Token-Modells (3000 Tokens) entspricht, aber mit nur 120 Tokens.
- Im Vergleich zu LMDrive (Q-Former) verbessert SToRM den Driving Score (DS) von 36,2 auf 44,2 (bei TinyLLaVA).
Recheneffizienz:
- Reduktion der FLOPs um den Faktor 30x (bei großem LLM) bzw. 16,6x (bei kleinem LLM) im Vergleich zu All-Token-Modellen.
- Ermöglicht Echtzeit-Inferenz (>25 FPS) auf einer Standard-GPU (NVIDIA RTX 4090), was mit All-Token-Modellen (ca. 4 FPS) nicht möglich ist.
Vergleich mit anderen Reduktionsmethoden: SToRM schlägt andere SOTA-Methoden wie ToMe, VisionZip, HiCom und HiRED in allen Metriken (DS, RC, IS) klar, was die Überlegenheit der überwachsten, aufgabenrelevanten Reduktion gegenüber heuristischen Ansätzen beweist.

5. Bedeutung und Fazit

Das Paper adressiert eine kritische Lücke in der Anwendung von MLLMs im autonomen Fahren: die Unvereinbarkeit von hohem Rechenaufwand und Echtzeitanforderungen.

Paradigmenwechsel: Statt Tokens einfach zu löschen oder durch heuristische Ähnlichkeit zu komprimieren, nutzt SToRM die interne Aufmerksamkeit des LLM selbst, um zu lernen, welche Informationen für die Fahrentscheidung tatsächlich relevant sind.
Praktische Anwendbarkeit: Durch die drastische Reduktion der Rechenlast wird es erstmals möglich, komplexe MLLM-basierte E2E-Systeme mit Sprachinteraktion auf Standard-Hardware in Echtzeit zu betreiben, ohne Sicherheitskompromisse einzugehen.
Zukunftsausblick: SToRM legt den Grundstein für effiziente, ressourcenschonende KI-Systeme, die sowohl sensorische als auch sprachliche Eingaben in sicherheitskritischen Anwendungen verarbeiten können.

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

1. Der "Wissens-Filter" (Der Importance Predictor)

2. Der "Kleber" (Das ACM-Modul)

Warum ist das so genial?

1. Problemstellung

2. Methodik: Das SToRM-Framework

A. Pseudo-Supervision (Hilfspfad)

B. Lightweight Importance Predictor

C. Anchor-Context Token Merging (ACM) Modul

3. Hauptbeiträge

4. Experimentelle Ergebnisse

5. Bedeutung und Fazit

Mehr davon

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers