SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

Dit paper introduceert SToRM, een supervisie-gedreven raamwerk voor tokenreductie in multimodale LLM's dat de rekenefficiëntie van end-to-end autonoom rijden met tot 30x verbetert terwijl de prestaties van het gebruik van alle tokens behouden blijven.

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

SToRM: De Slimme "Hoofdlijnen"-Filter voor Zelfrijdende Auto's

Stel je voor dat een zelfrijdende auto niet alleen kijkt, maar ook luistert. Hij ziet de weg, de bomen, andere auto's en voetgangers (via camera's), maar hij kan ook praten met de passagier of een instructie krijgen: "Ga linksaf bij de volgende rotonde" of "Pas op, er loopt een hond over de weg".

Om dit te doen, gebruiken moderne auto's een enorm slim brein: een Multi-modale Large Language Model (MLLM). Dit is een soort supercomputer die tekst en beelden tegelijk begrijpt. Maar hier zit een groot probleem: dit brein is ontzettend traag en zwaar.

Het Probleem: Te Veel Ruis, Te Traag

Wanneer de auto de weg bekijkt, splitst de camera het beeld op in duizenden kleine stukjes (we noemen ze "tokens"). Stel je voor dat je een boek leest, maar in plaats van zinnen, krijg je elk lettertje apart op een kaartje. Als je 30 seconden aan video hebt, heb je duizenden kaartjes.

De supercomputer moet elk van die kaartjes lezen en vergelijken met de instructies. Dit kost zoveel rekenkracht dat de auto te langzaam wordt om veilig te rijden. Het is alsof je probeert te rennen terwijl je een rugzak vol stenen draagt.

Eerdere oplossingen probeerden gewoon willekeurig kaartjes weg te gooien of te samenvoegen. Maar dat werkte niet goed: de auto verloor belangrijke details (zoals een voetganger) en begon onzeker te rijden.

De Oplossing: SToRM (De Slimme Filter)

De auteurs van dit paper hebben SToRM bedacht. De naam staat voor Supervised Token Reduction. In het Nederlands kunnen we dit zien als een "Slimme Samenvatting".

Hier is hoe het werkt, met een paar simpele vergelijkingen:

1. De "Onderwijzer" (Pseudo-supervisie)

Stel je voor dat je een student wilt leren welke woorden in een lang verhaal belangrijk zijn. Je kunt niet zeggen: "Raad maar welk woord belangrijk is."
In plaats daarvan laten ze de student eerst het hele verhaal lezen met een zeer sterke leraar (de originele, trage computer). Die leraar kijkt naar welke woorden hij het meest aandacht geeft.

  • De analogie: De leraar wijst met een laserpointer op de belangrijkste woorden in het verhaal. Die laserpointer is het signaal voor de student. De student leert nu: "Ah, waar de leraar op wijst, dat is belangrijk!"
    In de auto leert het systeem dus van de "volledige versie" welke beeldelementen (tokens) echt belangrijk zijn voor het sturen.

2. De "Snelheidslimiet" (De Lichtgewicht Voorspeller)

Nu de student weet wat belangrijk is, moet hij snel kunnen oordelen zonder de zware leraar te gebruiken.

  • De analogie: In plaats van het hele boek van 1000 pagina's te lezen, kijkt de student alleen naar de laatste 3 pagina's (een korte tijdspanne). Hij gebruikt een slimme truc (een "sliding window") om te zien wat er nu gebeurt, zonder zich zorgen te maken over wat er uren geleden was.
    Dit maakt het systeem heel snel en licht, alsof je van een zware tankwagen overschakelt op een snelle sportfiets.

3. De "Anker- en Context"-Techniek (Samenvoegen)

Dit is het meest creatieve deel. Het systeem verdeelt de beeldelementen in twee groepen:

  • Ankers (De Helden): Dit zijn de superbelangrijke dingen. Een voetganger, een stopbord, een andere auto. Deze blijven staan.
  • Context (De Achtergrond): Dit zijn de minder belangrijke dingen. De textuur van de weg, de schaduwen van bomen, de kleur van de lucht.

In plaats van alle "achtergrond" kaartjes apart te houden, plakt het systeem ze vast op de dichtstbijzijnde "Held".

  • De analogie: Stel je een krant voor. In plaats van elke foto en elke krant te lezen, knip je de foto's van de voetganger en het bord uit en plakt je de rest van de pagina (de tekst en de achtergrond) eronder. Je hebt nu nog maar één plaatje, maar je mist niets belangrijks. De "achtergrond" is nu onderdeel van de "hoofdpersonage".

Waarom is dit geweldig?

Met SToRM kan de auto:

  1. Veel sneller denken: Het rekent tot 30 keer minder dan voorheen.
  2. Net zo goed rijden: Omdat ze alleen de "Helden" (Ankers) behouden en de rest slim samenvoegen, maakt de auto geen fouten. Hij ziet de voetganger nog steeds perfect.
  3. Op een gewone computer rijden: Vroeger had je een dure supercomputer nodig. Nu kan dit zelfs op een standaard videokaart in een auto, waardoor het echt veilig en betaalbaar wordt.

Kortom: SToRM is als een slimme redacteur die een lang, saai verhaal omzet in een korte, krachtige krant. Hij gooit niets belangrijks weg, maar verwijdert wel alle ruis, zodat de zelfrijdende auto snel, veilig en efficiënt zijn weg kan vinden.