SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

Die Arbeit stellt SToRM vor, ein neuartiges Framework zur überwachierten Token-Reduktion in multimodalen Large Language Models, das die Rechenkosten für end-zu-end autonomes Fahren um bis zu das 30-fache senkt, ohne dabei die Leistung im Vergleich zur Verarbeitung aller visuellen Token zu beeinträchtigen.

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun

Veröffentlicht 2026-03-10
📖 3 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du fährst ein autonomes Auto. Dieses Auto hat nicht nur Augen (Kameras), sondern auch ein sehr intelligentes Gehirn, das aus einem großen Sprachmodell (einem "KI-Gehirn") besteht. Dieses Gehirn kann nicht nur die Straße sehen, sondern auch verstehen, wenn du ihm sagst: "Achtung, da vorne ist ein Hund!" oder "Fahre langsamer, es regnet."

Das Problem ist jedoch: Dieses KI-Gehirn ist extrem hungrig. Um die Straße zu verstehen, schaut es sich Tausende von kleinen Bildteilen an (genannt "Tokens"). Stell dir vor, du würdest versuchen, ein ganzes Buch zu lesen, indem du jeden einzelnen Buchstaben einzeln und langsam betrachtest. Das dauert ewig und braucht viel Energie. Für ein Auto, das in Echtzeit Entscheidungen treffen muss, ist das viel zu langsam und verbraucht zu viel Strom.

Bisherige Versuche, das Auto schneller zu machen, waren wie ein ungeschickter Scherenschritt: Man hat einfach viele Bildteile weggeworfen, um Platz zu schaffen. Das Ergebnis war oft, dass das Auto zwar schneller reagierte, aber wichtige Dinge übersehen hat – wie ein Fußgänger am Straßenrand.

Die Lösung: SToRM (Der "Wissens-Filter")

Die Forscher haben eine neue Methode namens SToRM entwickelt. Man kann sich das wie einen hochintelligenten Redakteur vorstellen, der vor dem eigentlichen Gehirn sitzt.

Hier ist, wie SToRM funktioniert, mit einfachen Vergleichen:

1. Der "Wissens-Filter" (Der Importance Predictor)

Stell dir vor, du hast einen Stapel von 3.000 Fotos, die das Auto in den letzten Sekunden gemacht hat. Ein normaler Computer würde sich alle 3.000 Fotos genau ansehen.
SToRM hat einen schnellen Assistenten (den "Importance Predictor"). Dieser Assistent schaut sich die Fotos nur kurz an und sagt: "Hey, dieser Teil hier (der Fußgänger) ist superwichtig! Dieser Teil hier (der Himmel) ist aber langweilig und nicht nötig."

  • Der Trick: Dieser Assistent lernt nicht durch Raten, sondern durch "Spionieren". Er schaut sich an, wie das große Gehirn eigentlich auf die Bilder reagiert, wenn es alle sieht, und merkt sich: "Aha, das Gehirn schaut immer auf die Ampel, also ist die Ampel wichtig." So lernt er, was wirklich zählt.

2. Der "Kleber" (Das ACM-Modul)

Sobald der Assistent weiß, was wichtig ist, kommt der zweite Teil: Der Kleber.

  • Anker (Anchors): Die wichtigen Dinge (Fußgänger, andere Autos, Straßenschilder) werden als "Anker" festgehalten. Sie bleiben unverändert.
  • Hintergrund (Context): Die unwichtigen Dinge (die Farbe des Himmels, Schatten auf dem Asphalt) werden nicht einfach weggeworfen. Stattdessen werden sie wie ein Puzzle in die wichtigsten Teile "eingeklebt".
  • Das Ergebnis: Statt 3.000 einzelne Bildteile hat das Gehirn jetzt nur noch 120. Aber diese 120 enthalten immer noch alle wichtigen Informationen, weil die unwichtigen Teile intelligent in die wichtigen integriert wurden. Es ist, als würdest du eine lange, langatmige Geschichte zusammenfassen, ohne den Kern der Handlung zu verlieren.

Warum ist das so genial?

  • Geschwindigkeit: Das Auto muss jetzt nicht mehr 3.000 Dinge prüfen, sondern nur noch 120. Das macht es 30-mal schneller und spart enorm viel Rechenleistung.
  • Sicherheit: Im Gegensatz zu früheren Methoden, die einfach Dinge wegwurfen, verliert SToRM keine wichtigen Details. Das Auto ist genauso sicher wie mit dem vollen Bild, aber viel schlauer im Umgang mit Ressourcen.
  • Echtzeit: Dank dieser Methode kann das Auto jetzt sogar auf einer normalen Grafikkarte (wie in einem Gaming-PC) in Echtzeit fahren, ohne zu überhitzen oder zu verzögern.

Zusammenfassend:
SToRM ist wie ein sehr effizienter Sekretär für das autonome Auto. Er liest den riesigen Bericht (die Sensordaten), hebt nur die wichtigsten Punkte hervor und fasst den Rest in kurzen, prägnanten Notizen zusammen, bevor er das große Gehirn (die KI) damit füttert. Das Gehirn kann so schneller und sicherer entscheiden, wohin es lenken muss, ohne sich in unnötigen Details zu verlieren.