SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

Each language version is independently generated for its own context, not a direct translation.

SToRM: De Slimme "Hoofdlijnen"-Filter voor Zelfrijdende Auto's

Stel je voor dat een zelfrijdende auto niet alleen kijkt, maar ook luistert. Hij ziet de weg, de bomen, andere auto's en voetgangers (via camera's), maar hij kan ook praten met de passagier of een instructie krijgen: "Ga linksaf bij de volgende rotonde" of "Pas op, er loopt een hond over de weg".

Om dit te doen, gebruiken moderne auto's een enorm slim brein: een Multi-modale Large Language Model (MLLM). Dit is een soort supercomputer die tekst en beelden tegelijk begrijpt. Maar hier zit een groot probleem: dit brein is ontzettend traag en zwaar.

Het Probleem: Te Veel Ruis, Te Traag

Wanneer de auto de weg bekijkt, splitst de camera het beeld op in duizenden kleine stukjes (we noemen ze "tokens"). Stel je voor dat je een boek leest, maar in plaats van zinnen, krijg je elk lettertje apart op een kaartje. Als je 30 seconden aan video hebt, heb je duizenden kaartjes.

De supercomputer moet elk van die kaartjes lezen en vergelijken met de instructies. Dit kost zoveel rekenkracht dat de auto te langzaam wordt om veilig te rijden. Het is alsof je probeert te rennen terwijl je een rugzak vol stenen draagt.

Eerdere oplossingen probeerden gewoon willekeurig kaartjes weg te gooien of te samenvoegen. Maar dat werkte niet goed: de auto verloor belangrijke details (zoals een voetganger) en begon onzeker te rijden.

De Oplossing: SToRM (De Slimme Filter)

De auteurs van dit paper hebben SToRM bedacht. De naam staat voor Supervised Token Reduction. In het Nederlands kunnen we dit zien als een "Slimme Samenvatting".

Hier is hoe het werkt, met een paar simpele vergelijkingen:

1. De "Onderwijzer" (Pseudo-supervisie)

Stel je voor dat je een student wilt leren welke woorden in een lang verhaal belangrijk zijn. Je kunt niet zeggen: "Raad maar welk woord belangrijk is."
In plaats daarvan laten ze de student eerst het hele verhaal lezen met een zeer sterke leraar (de originele, trage computer). Die leraar kijkt naar welke woorden hij het meest aandacht geeft.

De analogie: De leraar wijst met een laserpointer op de belangrijkste woorden in het verhaal. Die laserpointer is het signaal voor de student. De student leert nu: "Ah, waar de leraar op wijst, dat is belangrijk!"
In de auto leert het systeem dus van de "volledige versie" welke beeldelementen (tokens) echt belangrijk zijn voor het sturen.

2. De "Snelheidslimiet" (De Lichtgewicht Voorspeller)

Nu de student weet wat belangrijk is, moet hij snel kunnen oordelen zonder de zware leraar te gebruiken.

De analogie: In plaats van het hele boek van 1000 pagina's te lezen, kijkt de student alleen naar de laatste 3 pagina's (een korte tijdspanne). Hij gebruikt een slimme truc (een "sliding window") om te zien wat er nu gebeurt, zonder zich zorgen te maken over wat er uren geleden was.
Dit maakt het systeem heel snel en licht, alsof je van een zware tankwagen overschakelt op een snelle sportfiets.

3. De "Anker- en Context"-Techniek (Samenvoegen)

Dit is het meest creatieve deel. Het systeem verdeelt de beeldelementen in twee groepen:

Ankers (De Helden): Dit zijn de superbelangrijke dingen. Een voetganger, een stopbord, een andere auto. Deze blijven staan.
Context (De Achtergrond): Dit zijn de minder belangrijke dingen. De textuur van de weg, de schaduwen van bomen, de kleur van de lucht.

In plaats van alle "achtergrond" kaartjes apart te houden, plakt het systeem ze vast op de dichtstbijzijnde "Held".

De analogie: Stel je een krant voor. In plaats van elke foto en elke krant te lezen, knip je de foto's van de voetganger en het bord uit en plakt je de rest van de pagina (de tekst en de achtergrond) eronder. Je hebt nu nog maar één plaatje, maar je mist niets belangrijks. De "achtergrond" is nu onderdeel van de "hoofdpersonage".

Waarom is dit geweldig?

Met SToRM kan de auto:

Veel sneller denken: Het rekent tot 30 keer minder dan voorheen.
Net zo goed rijden: Omdat ze alleen de "Helden" (Ankers) behouden en de rest slim samenvoegen, maakt de auto geen fouten. Hij ziet de voetganger nog steeds perfect.
Op een gewone computer rijden: Vroeger had je een dure supercomputer nodig. Nu kan dit zelfs op een standaard videokaart in een auto, waardoor het echt veilig en betaalbaar wordt.

Kortom: SToRM is als een slimme redacteur die een lang, saai verhaal omzet in een korte, krachtige krant. Hij gooit niets belangrijks weg, maar verwijdert wel alle ruis, zodat de zelfrijdende auto snel, veilig en efficiënt zijn weg kan vinden.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving" in het Nederlands.

Probleemstelling

End-to-end (E2E) autonome rijsystemen, die direct besturingscommando's voorspellen op basis van sensordata, hebben aanzienlijke vooruitgang geboekt. Voor veiligheid in onvoorziene scenario's is het echter cruciaal om menselijke interventies via natuurlijke taal (instructies) te integreren. Multi-modale Large Language Models (MLLMs) maken dit mogelijk, maar brengen aanzienlijke computationele uitdagingen met zich mee:

Hoge rekeneisen: MLLMs verwerken een groot aantal visuele tokens afkomstig van sensoren (camera's, LiDAR) over meerdere tijdsframes. Omdat de complexiteit van de attention-mechanismen in LLMs kwadratisch groeit met de invoerlengte, leidt dit tot trage inferentiesnelheden.
Beperkte hardware: Autonome voertuigen hebben beperkte rekenkracht en vereisen real-time verwerking.
Prestatieverlies bij compressie: Bestaande methoden om visuele tokens te reduceren (bijv. Q-Former, token-dropping) leiden vaak tot een merkbare daling in rijprestaties omdat ze geen taakspecifieke supervisie gebruiken en zich baseren op heuristieken zoals gelijkenis.

Methodologie: Het SToRM Framework

De auteurs stellen SToRM (Supervised Token Reduction for Multi-modal LLMs) voor, het eerste framework dat supervisie gebruikt om visuele tokens te reduceren zonder prestatieverlies. Het framework bestaat uit drie kerncomponenten:

1. Light-weight Importance Predictor (Belangvoorspeller)

In plaats van alle tokens te verwerken, voorspelt een lichtgewicht module de "belangrijkheidsscores" van visuele tokens.

Architectuur: Gebaseerd op een MLP-Mixer met korte-termijn schuifvensters (sliding windows).
Spatio-temporele mix: In plaats van alle tokens over alle frames te verwerken (wat duur is), concentreert de module zich op lokale vensters van tijd en ruimte. Dit vangt korte-termijn spatio-temporele relaties en cross-kanaal afhankelijkheden binnen tokens.
Efficiëntie: Deze aanpak verlaagt de computationele complexiteit van $O((TN)^2)$ naar een lineaire afhankelijkheid van de venstergrootte, wat essentieel is voor real-time toepassing.

2. Supervised Learning met Pseudo-Supervisie

Een uniek aspect van SToRM is hoe het de "belangrijkheid" leert voorspellen zonder menselijke labels.

Hulp-pad (Auxiliary Path): Tijdens het trainingstraject wordt een parallel pad gebruikt waarbij alle visuele tokens door de LLM worden gevoerd (zonder compressie).
Pseudo-labels: De attention-scores uit de laatste decoder-laag van deze "all-token" pass worden gebruikt als pseudo-supervisie-signalen. De aanname is dat tokens met een hoge attention-score in de LLM cruciaal zijn voor de taak.
Training: De lightweight predictor wordt getraind om deze attention-scores te benaderen, zodat hij later alleen de belangrijkste tokens kan selecteren.

3. Anchor-Context Token Merging (ACM) Module

Op basis van de voorspelde scores worden tokens ingedeeld in twee categorieën:

Anchors: De $K$ tokens met de hoogste scores (kritieke visuele informatie, zoals voetgangers of verkeersborden).
Context: De resterende tokens (minder cruciale informatie, zoals achtergrondtextuur).
Merging: Context-tokens worden niet zomaar verwijderd, maar gemerged met hun meest relevante "anchor" token via een cross-attention mechanisme. Dit gebeurt via een hard assignment (Gumbel-Softmax met Straight-Through Estimator), waarbij elke context-token aan precies één anchor wordt toegewezen. Dit behoudt de essentiële informatie terwijl de redundantie wordt verwijderd.

Kernbijdragen

Eerste Supervised Token Reduction: SToRM is het eerste framework dat pseudo-supervisie gebruikt om tokenreductie te sturen in E2E-autonoom rijden, in plaats van te vertrouwen op heuristieken.
Efficiënte Architectuur: Ontwikkeling van een lichtgewicht importance predictor die korte-termijn spatio-temporele relaties modelleert via schuifvensters, wat de rekentijd drastisch verlaagt.
ACM Module: Een nieuwe methode om tokens te reduceren door context-tokens te fuseren met anchors, wat informatiebehoud maximaliseert bij minimale token-aantallen.
End-to-End Training: Het hele systeem (voorspeller, merging, en LLM) wordt samen getraind om zowel waypoints te voorspellen als token-belang te schatten.

Resultaten

De methode is getest op het LangAuto-benchmark dataset (CARLA simulator) en vergeleken met state-of-the-art (SOTA) modellen zoals LMDrive en andere token-reductietechnieken.

Prestaties: SToRM behaalt rijprestaties (gemeten in Driving Score, Route Completion, Infraction Score) die vergelijkbaar zijn met of zelfs beter zijn dan het gebruik van alle tokens (all-token baseline), ondanks een drastische reductie in het aantal tokens.
Efficiëntie:
- Rekenkracht: Reductie van de computationele kosten (FLOPs) met tot wel 30x vergeleken met het gebruik van alle tokens.
- Snelheid: Real-time inferentie (>25 FPS) is mogelijk op een standaard GPU (NVIDIA RTX 4090), terwijl het gebruik van alle tokens vaak onder de 10 FPS blijft.
- Vergelijking met SOTA: SToRM presteert significant beter dan andere token-reductiemethoden (zoals Q-Former, ToMe, HiCom) onder dezelfde token-begroting. Bijvoorbeeld, met een kleine LLM (TinyLLaVA) overtreft SToRM het SOTA-model met 6.5x lagere FLOPs en 1.5x hogere FPS, terwijl de rijprestaties verbeteren.

Betekenis en Conclusie

SToRM lost een kritieke bottleneck op in de toepassing van MLLMs voor autonoom rijden: het compromis tussen rekenkracht en prestaties. Door pseudo-supervisie te gebruiken, leert het systeem welke visuele informatie echt belangrijk is voor de rijtaak, in plaats van willekeurig of op basis van simpele gelijkenis te filteren.

Dit maakt het mogelijk om krachtige, taalgestuurde E2E-rijsystemen in te zetten op voertuigen met beperkte hardware, wat een belangrijke stap is naar veiligere en robuustere autonome voertuigen die beter kunnen omgaan met onvoorziene situaties via menselijke instructies.