DriveMamba: Task-Centric Scalable State Space Model for Efficient End-to-End Autonomous Driving

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zelfrijdende auto bestuurt. In het verleden was dit als een fabrieksband met verschillende werknemers: de één keek uit het raam (perceptie), de ander dacht na over waar andere auto's heen gaan (voorspelling), en de derde stuurde het stuur (planning). Het probleem? Ze werkten in een rijtje. Als de eerste werknemer een foutje maakte, werd die fout doorgegeven aan de volgende, en zo ontstond er een kettingreactie van fouten. Ook was het allemaal erg traag en zwaar voor de computer, vooral als je veel informatie tegelijk moest verwerken.

Deze paper introduceert DriveMamba, een nieuwe manier om zelfrijdende auto's te laten denken. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Super-Regisseur" in plaats van een Fabrieksband

In plaats van werknemers in een rijtje, heeft DriveMamba één super-regisseur (de "Unified Mamba Decoder").

Het oude systeem: Een lineaire lijn. Eerst kijken, dan denken, dan sturen.
DriveMamba: Een dynamisch teamoverleg. De regisseur kijkt naar alles tegelijk: de beelden van de camera's, de positie van andere auto's, en de eigen routeplanning. Hij laat deze dingen direct met elkaar praten. Als er een gevaar is, ziet de "planning" dat direct, zonder eerst een gedetailleerde kaart te hoeven maken. Dit voorkomt dat informatie verloren gaat of dat fouten zich opstapelen.

2. Geen zware "3D-kaarten", maar slimme "Post-itjes"

Veel huidige systemen proberen eerst een enorme, dichte 3D-kaart van de hele wereld om de auto heen te tekenen (zoals een gedetailleerd Google Earth-model). Dit kost enorm veel rekenkracht en geheugen.

DriveMamba's truc: Het maakt geen zware kaart. In plaats daarvan plakt het slimme Post-itjes (tokens) op de dingen die belangrijk zijn.
- Een Post-it op een voetganger.
- Een Post-it op een stoplicht.
- Een Post-it op de eigen auto.
- Een Post-it op een stukje weg.
  De computer sorteert deze Post-itjes op basis van waar ze zijn en wat ze doen. Omdat het alleen om de belangrijke dingen gaat, is het veel lichter en sneller. Het is alsof je in plaats van een hele bibliotheek te lezen, alleen de samenvattingen van de hoofdstukken leest die relevant zijn voor je vraag.

3. De "Mamba": Een slimme, flexibele scanner

De naam "Mamba" komt van een slang die heel efficiënt en flexibel beweegt. In de computerwereld is dit een nieuw type brein dat veel sneller is dan de oude "Transformers" (die vaak worden gebruikt in AI).

De analogie: Stel je voor dat je een lange rij mensen moet controleren.
- Een oude computer (Transformer) moet naar iedereen tegelijk kijken en elke persoon met elke andere persoon vergelijken. Dit wordt onmogelijk snel als de rij lang wordt (zoals bij een drukke snelweg).
- DriveMamba (Mamba) loopt langs de rij, houdt de context bij en weet precies wat er belangrijk is, zonder iedereen met iedereen te hoeven vergelijken. Het is lineair: als de rij verdubbelt, verdubbelt de tijd ook, maar niet meer dan dat. Dit maakt het enorm snel en energiezuinig.

4. De "Rit-Gids": Kijken waar je naartoe gaat

Een van de slimste onderdelen is de "Trajectory-Guided Scan".

Het idee: Een menselijke bestuurder kijkt niet naar alles wat er is. Je kijkt eerst naar de weg die je gaat nemen, en dan pas naar de auto's die daar in de buurt zijn.
DriveMamba doet hetzelfde: Het systeem gebruikt een voorlopig routeplan (de "gids") om te beslissen welke Post-itjes het eerst moet lezen. Het scant de wereld niet willekeurig, maar volgt een logisch pad: "Eerst de weg voor me, dan de auto's links en rechts, en pas daarna de achtergrond." Dit zorgt ervoor dat de auto beter begrijpt wat er nu belangrijk is voor zijn eigen beweging.

Waarom is dit geweldig?

Snelheid: DriveMamba is tot wel 10 keer sneller dan de beste bestaande systemen. Het kan in één seconde bijna 18 keer nadenken (17.9 FPS), terwijl andere systemen maar een paar keer nadenken.
Veiligheid: Omdat het fouten niet doorgeeft in een kettingreactie, maakt het minder fouten bij het remmen of sturen.
Toekomstbestendig: Omdat het systeem zo efficiënt is, kan het makkelijk groeien. Je kunt er meer camera's of langere rijen data bijvoegen zonder dat de computer het laat afweten.

Kortom: DriveMamba is als het verschil tussen een trage, bureaucratische ambtenaar die stapels papier moet afhandelen, en een slimme, flexibele regisseur die direct ziet wat er gebeurt, snel de juiste beslissingen neemt en de auto veilig en soepel door het verkeer leidt. Het maakt zelfrijden niet alleen slimmer, maar ook veel sneller en goedkoper om te bouwen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Bestaande End-to-End Autonomous Driving (E2E-AD) systemen, zoals UniAD en VAD, volgen vaak een sequentiële paradigma (perceptie → voorspelling → planning) gebaseerd op Transformer-decoders. Dit leidt tot verschillende fundamentele beperkingen:

Informatieverlies en cumulatieve fouten: De handmatige volgorde van modules zorgt ervoor dat fouten zich door de keten voortplanten en informatie verloren gaat tussen de stappen.
Beperkte relatie-modellering: De flexibiliteit om dynamische relaties tussen verschillende taken (bijv. hoe perceptie direct de planning beïnvloedt) en sensoren te modelleren, ontbreekt.
Schaalbaarheid en Efficiëntie: Bestaande methoden vertrouwen vaak op dichte BEV (Bird's Eye View) features, wat rekenkundig duur is, vooral voor lange reeksen. Bovendien hebben Transformer-architecturen een kwadratische complexiteit ( $O(N^2)$ ) voor de attention-mechanismen, wat de verwerking van lange spatiotemporale sequenties en hoge resolutie belemmert.
Onderschatting van de ego-perspectief: Veel modellen negeren de natuurlijke volgorde van interactie vanuit het perspectief van het voertuig (ego-vehicle), wat essentieel is voor veilige planning.

Methodologie: DriveMamba

DriveMamba introduceert een Task-Centric Schaalbaar Paradigma dat de beperkingen van Transformers overwint door gebruik te maken van State Space Models (SSM), specifiek de Mamba-architectuur.

Kerncomponenten:

Tokenisatie en Spatiotemporale Representatie:
- In plaats van dichte BEV-features te genereren, worden ruwe multi-view beelden en taak-specifieke queries (Agent, Map, Ego) omgezet in spare tokens.
- Tokens krijgen posities in 3D-ruimte toegewezen via dieptepredicatie en worden voorzien van positionele embedding (spatial, temporal en task embeddings).
Unified Mamba Decoder:
- DriveMamba gebruikt één enkele decoder om alle taken (perceptie, voorspelling, planning) parallel te verwerken.
- De decoder maakt gebruik van Bidirectional Mamba (B-Mamba) blokken. Dit zorgt voor lineaire complexiteit ( $O(N)$ ), wat veel efficiënter is dan Transformers voor lange sequenties.
- De decoder integreert drie functies in één architectuur:
  - View Correspondence Learning: Impliciete koppeling tussen sensor-tokens en taak-tokens zonder dichte BEV-transformatie.
  - Task Relation Modeling: Dynamische modellering van relaties tussen verschillende taken (bijv. hoe een agent de route beïnvloedt).
  - Long-term Temporal Fusion: Gebruik van een FIFO-geheugenqueue om historische taak-queries op te slaan voor langdurige context, in plaats van zware historische BEV-features.
Hybride Spatiotemporale Scan (Hybrid Scan):
- Om de ruimtelijke localiteit te behouden en de planning te optimaliseren, wordt een uniek scanpatroon ontworpen:
  - Trajectory-Guided "Local-to-Global" Scan: De volgorde van het verwerken van tokens wordt dynamisch aangepast op basis van de verwachte trajecten van het voertuig. Tokens die dichter bij de toekomstige weg liggen, krijgen hogere prioriteit. Dit bootst de menselijke aandacht na.
  - Bidirectionele Scanning: Er wordt zowel vooruit als achteruit gescand (Forward/Backward) om context te vangen.
  - De scanstrategie wisselt per decoderlaag af (bijv. Horizontaal-First, Verticaal-First) om zowel ruimtelijke als temporele relaties optimaal te benutten.
End-to-End Training:
- Het model wordt getraind in één stap met een gezamenlijke loss-functie voor detectie, mapping, bewegingsvoorspelling en planning, zonder handmatige tussenstappen.

Belangrijkste Bijdragen

Eerste Pure SSM voor E2E-AD: DriveMamba is een van de eerste werken dat een volledig SSM-gebaseerde decoder toepast voor visuele end-to-end autonoom rijden, in plaats van een hybride Transformer/SSM aanpak.
Task-Centric Architectuur: Het verschuift de focus van "BEV-centric" naar "Task-centric", waarbij dynamische taakrelaties en sensor-correspondentie gelijktijdig worden geleerd.
Efficiëntie en Schaalbaarheid: Door de lineaire complexiteit van Mamba kan het model veel langere tijdsreeksen en hogere resoluties verwerken met aanzienlijk minder geheugenverbruik dan Transformer-modellen.
Traject-geleide Scan: Een innovatieve scanmethode die de interactievolgorde vanuit het perspectief van het voertuig (ego-centric) respecteert, wat cruciaal is voor veilige planning.

Resultaten

DriveMamba is geëvalueerd op de nuScenes (open-loop) en Bench2Drive (closed-loop) datasets.

Efficiëntie: DriveMamba-Tiny bereikt 17.9 FPS (frames per seconde), wat aanzienlijk sneller is dan vergelijkbare Transformer-modellen (bijv. UniAD: 1.8 FPS, VAD: 4.5 FPS). Het verbruikt 68.8% minder GPU-geheugen en is 3.2x sneller bij het schalen van de invoerresolutie.
Planning Prestaties (nuScenes): DriveMamba-Base behaalt een gemiddelde L2-fout van 0.41m en een botsingsratio van 0.11%, wat beter is dan of vergelijkbaar is met de state-of-the-art methoden, maar met veel minder parameters en lagere latentie.
Closed-loop Prestaties (Bench2Drive): DriveMamba-Base behaalt een Driving Score van 65.50 en een Success Rate van 36.82%, wat de prestaties van DriveTransformer-Large (63.46 DS) overtreft, ondanks dat DriveMamba-Base lichter is dan DriveTransformer-Large.
Schaalbaarheid: Het model toont een duidelijke schaalwet: het verhogen van de decoder-lagen en de backbone (van ResNet naar ViT/VMamba) leidt tot consistente verbeteringen in zowel perceptie als planning.

Betekenis en Impact

DriveMamba markeert een paradigmaverschuiving in het veld van autonoom rijden. Het bewijst dat State Space Models een krachtig alternatief zijn voor Transformers, vooral voor taken die lange context en hoge efficiëntie vereisen.

Praktische Toepasbaarheid: Door de hoge snelheid en lage geheugeneisen is DriveMamba beter geschikt voor implementatie op embedded hardware in productieauto's dan zware Transformer-modellen.
Toekomstgericht: De architectuur biedt een schaalbare basis voor toekomstige modellen die grotere datasets en complexere scenario's moeten verwerken zonder dat de rekentijd exponentieel toeneemt.
Veiligheid: De verbeterde planning-prestaties en de focus op de ego-perspectief-interactie dragen direct bij aan de veiligheid en betrouwbaarheid van autonome systemen in complexe, interactieve omgevingen.

Kortom, DriveMamba lost het dilemma op tussen complexiteit en schaalbaarheid in end-to-end autonoom rijden door een uniek, task-gecentreerd Mamba-ontwerp te introduceren dat sneller, schaalbaarder en effectiever is dan de huidige state-of-the-art.

DriveMamba: Task-Centric Scalable State Space Model for Efficient End-to-End Autonomous Driving

1. De "Super-Regisseur" in plaats van een Fabrieksband

2. Geen zware "3D-kaarten", maar slimme "Post-itjes"

3. De "Mamba": Een slimme, flexibele scanner

4. De "Rit-Gids": Kijken waar je naartoe gaat

Waarom is dit geweldig?

Probleemstelling

Methodologie: DriveMamba

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation