DriveMamba: Task-Centric Scalable State Space Model for Efficient End-to-End Autonomous Driving

DriveMamba introduceert een schaalbaar, taakgericht paradigma voor end-to-end autonoom rijden dat een lineaire-complexiteit Mamba-decoder gebruikt om efficiënt lange-termijn temporele fusie en dynamische taakrelaties te modelleren, waardoor de beperkingen van bestaande Transformer-gebaseerde systemen worden overwonnen.

Haisheng Su, Wei Wu, Feixiang Song, Junjie Zhang, Zhenjie Yang, Junchi Yan

Gepubliceerd 2026-02-25
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zelfrijdende auto bestuurt. In het verleden was dit als een fabrieksband met verschillende werknemers: de één keek uit het raam (perceptie), de ander dacht na over waar andere auto's heen gaan (voorspelling), en de derde stuurde het stuur (planning). Het probleem? Ze werkten in een rijtje. Als de eerste werknemer een foutje maakte, werd die fout doorgegeven aan de volgende, en zo ontstond er een kettingreactie van fouten. Ook was het allemaal erg traag en zwaar voor de computer, vooral als je veel informatie tegelijk moest verwerken.

Deze paper introduceert DriveMamba, een nieuwe manier om zelfrijdende auto's te laten denken. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Super-Regisseur" in plaats van een Fabrieksband

In plaats van werknemers in een rijtje, heeft DriveMamba één super-regisseur (de "Unified Mamba Decoder").

  • Het oude systeem: Een lineaire lijn. Eerst kijken, dan denken, dan sturen.
  • DriveMamba: Een dynamisch teamoverleg. De regisseur kijkt naar alles tegelijk: de beelden van de camera's, de positie van andere auto's, en de eigen routeplanning. Hij laat deze dingen direct met elkaar praten. Als er een gevaar is, ziet de "planning" dat direct, zonder eerst een gedetailleerde kaart te hoeven maken. Dit voorkomt dat informatie verloren gaat of dat fouten zich opstapelen.

2. Geen zware "3D-kaarten", maar slimme "Post-itjes"

Veel huidige systemen proberen eerst een enorme, dichte 3D-kaart van de hele wereld om de auto heen te tekenen (zoals een gedetailleerd Google Earth-model). Dit kost enorm veel rekenkracht en geheugen.

  • DriveMamba's truc: Het maakt geen zware kaart. In plaats daarvan plakt het slimme Post-itjes (tokens) op de dingen die belangrijk zijn.
    • Een Post-it op een voetganger.
    • Een Post-it op een stoplicht.
    • Een Post-it op de eigen auto.
    • Een Post-it op een stukje weg.
      De computer sorteert deze Post-itjes op basis van waar ze zijn en wat ze doen. Omdat het alleen om de belangrijke dingen gaat, is het veel lichter en sneller. Het is alsof je in plaats van een hele bibliotheek te lezen, alleen de samenvattingen van de hoofdstukken leest die relevant zijn voor je vraag.

3. De "Mamba": Een slimme, flexibele scanner

De naam "Mamba" komt van een slang die heel efficiënt en flexibel beweegt. In de computerwereld is dit een nieuw type brein dat veel sneller is dan de oude "Transformers" (die vaak worden gebruikt in AI).

  • De analogie: Stel je voor dat je een lange rij mensen moet controleren.
    • Een oude computer (Transformer) moet naar iedereen tegelijk kijken en elke persoon met elke andere persoon vergelijken. Dit wordt onmogelijk snel als de rij lang wordt (zoals bij een drukke snelweg).
    • DriveMamba (Mamba) loopt langs de rij, houdt de context bij en weet precies wat er belangrijk is, zonder iedereen met iedereen te hoeven vergelijken. Het is lineair: als de rij verdubbelt, verdubbelt de tijd ook, maar niet meer dan dat. Dit maakt het enorm snel en energiezuinig.

4. De "Rit-Gids": Kijken waar je naartoe gaat

Een van de slimste onderdelen is de "Trajectory-Guided Scan".

  • Het idee: Een menselijke bestuurder kijkt niet naar alles wat er is. Je kijkt eerst naar de weg die je gaat nemen, en dan pas naar de auto's die daar in de buurt zijn.
  • DriveMamba doet hetzelfde: Het systeem gebruikt een voorlopig routeplan (de "gids") om te beslissen welke Post-itjes het eerst moet lezen. Het scant de wereld niet willekeurig, maar volgt een logisch pad: "Eerst de weg voor me, dan de auto's links en rechts, en pas daarna de achtergrond." Dit zorgt ervoor dat de auto beter begrijpt wat er nu belangrijk is voor zijn eigen beweging.

Waarom is dit geweldig?

  • Snelheid: DriveMamba is tot wel 10 keer sneller dan de beste bestaande systemen. Het kan in één seconde bijna 18 keer nadenken (17.9 FPS), terwijl andere systemen maar een paar keer nadenken.
  • Veiligheid: Omdat het fouten niet doorgeeft in een kettingreactie, maakt het minder fouten bij het remmen of sturen.
  • Toekomstbestendig: Omdat het systeem zo efficiënt is, kan het makkelijk groeien. Je kunt er meer camera's of langere rijen data bijvoegen zonder dat de computer het laat afweten.

Kortom: DriveMamba is als het verschil tussen een trage, bureaucratische ambtenaar die stapels papier moet afhandelen, en een slimme, flexibele regisseur die direct ziet wat er gebeurt, snel de juiste beslissingen neemt en de auto veilig en soepel door het verkeer leidt. Het maakt zelfrijden niet alleen slimmer, maar ook veel sneller en goedkoper om te bouwen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →