DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie lernen Autofahren. Die meisten aktuellen KI-Systeme für autonomes Fahren funktionieren wie ein Schüler, der nur die Bewegungen des Fahrlehrers auswendig lernt: „Wenn der Fahrlehrer nach links lenkt, lenke ich auch nach links." Sie schauen auf die Spur und versuchen, genau das zu tun, was im Training passiert ist. Das funktioniert gut, solange die Situation genau wie im Training ist. Aber wenn sich die Umgebung plötzlich ändert (z. B. ein anderes Auto fährt plötzlich rüber), geraten diese Systeme oft ins Schleudern, weil sie nicht wirklich verstanden haben, was um sie herum passiert.

Die Forscher in diesem Papier haben einen neuen Ansatz entwickelt, den sie DAP nennen. Hier ist eine einfache Erklärung, wie das funktioniert, mit ein paar kreativen Vergleichen:

1. Der große Unterschied: Nicht nur „Lenken", sondern „Vorhersehen"

Stellen Sie sich DAP nicht als einen blinden Nachahmer vor, sondern als einen erfahrenen Schachspieler.

Die alten Modelle (Nicht-autoregressiv): Ein Schachspieler, der nur den nächsten Zug macht, ohne das Brett zu betrachten. Er sagt: „Ich ziehe die Figur hierhin, weil das in der Regel gut ist."
DAP (Das neue Modell): Ein Schachspieler, der erst das ganze Brett mental durchspielt. Er sagt: „Wenn ich hierhin ziehe, wird mein Gegner wahrscheinlich dorthin ziehen, und dann muss ich hier reagieren."

DAP macht genau das: Es sagt nicht nur voraus, wohin das eigene Auto fahren soll (Trajektorie), sondern es simuliert gleichzeitig, wie sich die ganze Umgebung in den nächsten Sekunden verändern wird (BEV-Semantik).

Die Analogie: Stellen Sie sich vor, Sie laufen durch einen belebten Park. Ein alter Planer würde nur auf seine Füße schauen und sagen: „Ich gehe geradeaus." Ein DAP-Planer schaut sich aber auch die anderen Spaziergänger, die sich bewegenden Hunde und den sich ändernden Wind an und sagt: „Aha, der Hund läuft bald auf meine Spur zu, also weiche ich jetzt schon leicht aus."

2. Die Sprache der KI: „Wörter" statt „Bilder"

Normalerweise verarbeiten KI-Modelle Bilder wie ein Mensch sie sieht (Millionen von Pixeln). Das ist sehr rechenintensiv und langsam.
DAP nutzt eine Technik, die man sich wie Lego-Steine vorstellen kann.

Das Modell wandelt die komplexe Welt (Straßen, Autos, Bäume) in eine Reihe von diskreten Symbolen (Tokens) um. Das ist wie das Übersetzen eines ganzen Films in eine kurze Geschichte aus Wörtern.
Anstatt ein riesiges Bild zu malen, „schreibt" DAP eine Geschichte: „Auto links, Fußgänger rechts, ich beschleunige."
Der Vorteil: Das ist viel schneller und effizienter. Es ist wie der Unterschied zwischen dem Zeichnen eines jeden einzelnen Blattes auf einem Baum (alt) und dem Schreiben des Wortes „Baum" (neu).

3. Der Lehrer und der Trainer: Lernen durch Nachahmung und Belohnung

Das Training von DAP läuft in zwei Phasen ab, ähnlich wie das Lernen eines Sportlers:

Phase 1: Der Kopierer (Imitation Learning):
Zuerst lernt das Modell, indem es einfach die Fahrten von menschlichen Fahrern nachahmt. Es schaut sich an, was die Experten getan haben, und versucht, das gleiche zu tun. Das ist wie ein junger Sportler, der die Bewegungen seines Trainers kopiert.
Phase 2: Der Trainer mit Belohnung (Reinforcement Learning):
Hier kommt der Clou. Wenn das Modell nur kopiert, lernt es nicht, warum etwas sicher ist. Deshalb wird es nun wie ein Sportler trainiert, der Punkte bekommt.
- Fährt es sicher und komfortabel? Punkte!
- Fährt es zu nah an einem anderen Auto vorbei oder macht ruckartige Bewegungen? Minuspunkte!
Das Modell lernt so, nicht nur die Bewegungen zu kopieren, sondern gute Entscheidungen zu treffen, auch wenn die Situation neu ist. Es entwickelt ein „Gefühl" für Sicherheit, das über bloßes Nachahmen hinausgeht.

4. Warum ist das so cool? (Die Ergebnisse)

Das Besondere an DAP ist, dass es klein und schlank ist.

Viele andere moderne KI-Modelle für autonomes Fahren sind riesige „Elefanten" mit Milliarden von Parametern (wie ein riesiger Supercomputer im Kofferraum).
DAP ist wie ein Fuchs: Es hat nur etwa 120 Millionen Parameter (viel kleiner), ist aber extrem schlau und schnell.

In Tests hat DAP gezeigt, dass es:

Sicherer ist (es vermeidet Kollisionen besser).
Komfortabler fährt (weniger Ruckeln).
Schneller reagiert (es muss nicht warten, bis es ein riesiges Bild berechnet hat).

Zusammenfassung

DAP ist wie ein neuer, super-schlauer Co-Pilot. Anstatt nur blind zu folgen, schaut er sich die Zukunft an, simuliert, wie sich die Welt um ihn herum verändert, und trifft Entscheidungen basierend auf Sicherheit und Komfort. Er nutzt eine effiziente „Sprache" aus Symbolen, um das alles schnell zu berechnen, und wird durch Belohnungssysteme noch besser, ohne riesige Computer zu benötigen.

Es ist der Beweis dafür, dass man für autonomes Fahren nicht unbedingt den größten, schwersten Computer braucht, sondern das richtige Denkmodell.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Autonomes Fahren steht vor der Herausforderung, skalierbare Leistungsverbesserungen durch mehr Daten und Rechenkapazität zu erzielen. Bisherige Ansätze lassen sich in zwei Kategorien unterteilen:

Nicht-autoregressive Modelle: Diese generieren die gesamte zukünftige Trajektorie in einem einzigen Vorwärtsdurchlauf (z. B. Diffusionsmodelle oder direkte Abbildungen). Sie leiden oft unter einer spärlichen Überwachung (sparse supervision), da sie nur die Endpunkte oder Wegpunkte lernen, ohne die Entwicklung der Umgebung explizit zu modellieren. Dies führt zu einer schwachen Kopplung zwischen Szenenverständnis und Fahrzeugbewegung.
Autoregressive (AR) Modelle: Diese dekodieren Aktionen schrittweise. Obwohl sie das Potenzial für effizientes Scaling bieten (ähnlich wie Large Language Models), wurden sie in der Planung oft nur auf die Vorhersage der Ego-Trajektorie beschränkt, was ebenfalls zu unzureichender Szenenmodellierung führt.

Das zentrale Problem ist also die Spärlichkeit der Überwachung und die mangelnde Fähigkeit, die Dynamik der Umgebung (Szene) direkt mit der Fahrzeugbewegung zu koppeln, was zu suboptimalen oder unsicheren Entscheidungen führen kann, insbesondere unter covariaten Verschiebungen (Out-of-Distribution-Szenarien).

2. Methodik: DAP (Discrete-token Autoregressive Planner)

DAP löst diese Probleme durch einen diskreten, autoregressiven Ansatz, der Szenenverständnis und Bewegungsplanung in einem einzigen Modell vereint.

A. Architektur und Tokenisierung

Diskrete Tokenisierung: Das Modell wandelt kontinuierliche Eingaben in diskrete Token um:
- BEV-Semantik: Historische und zukünftige Bird's-Eye-View (BEV)-Darstellungen der Umgebung werden mittels eines VQ-VAE (Vector Quantized Variational Autoencoder) in diskrete Umgebungstoken quantisiert.
- Ego-Aktionen: Die Fahrzeugbewegung wird nicht als direkte Koordinaten, sondern als Paare aus Krümmung ( $\kappa$ ) und Beschleunigung ( $a$ ) kodiert und ebenfalls diskretisiert.
- Befehle: Routing-Befehle werden als kategorische Token behandelt.
Decoder-only Transformer mit MoE: Das Herzstück ist ein Decoder-only Transformer mit Sparse Mixture-of-Experts (MoE) Schichten. Dies ermöglicht eine hohe Kapazität und Spezialisierung auf verschiedene Verkehrsszenarien bei effizienter Inferenz.
Gemeinsame Vorhersage (Joint Forecasting): Anstatt nur die Trajektorie vorherzusagen, generiert das Modell interleaved (verschachtelt) Sequenzen aus:
1. Semantischen BEV-Token (Vorhersage der Szenenentwicklung).
2. $\kappa$ - $a$ Trajektorien-Token (Vorhersage der Fahrzeugbewegung).
  Dies erzwingt eine dichte, räumlich-zeitlich ausgerichtete Überwachung. Das Fahrzeug lernt, seine Bewegung basierend auf der vorhergesagten Entwicklung der Umgebung zu planen.

B. Attention-Mechanismus

Ein innovatives Detail ist die bidirektionale Attention innerhalb eines Zeitschritts:

Während die Vorhersage über die Zeit hinweg kausal ist (Zukunft hängt von der Vergangenheit ab), können alle BEV-Token innerhalb desselben Zeitschritts parallel und bidirektional aufeinander achten.
Dies beschleunigt die Inferenz erheblich, da nicht jedes einzelne BEV-Token sequenziell generiert werden muss, bevor die Aktion folgt.

C. Zwei-Phasen-Training (IL + RL)

Um die Schwächen reinen Imitationslernens (IL) zu überwinden, nutzt DAP ein zweistufiges Training:

Phase I (Behavior Cloning - BC): Das Modell wird mit Cross-Entropy-Verlusten auf diskreten Token trainiert, um eine starke Priori für das Verhalten zu lernen.
Phase II (SAC-BC Fine-Tuning): Um die Sicherheit und Robustheit zu erhöhen, wird Soft Actor-Critic (SAC) mit Behavior Cloning kombiniert.
- Ein Critic-Modell lernt Belohnungsfunktionen für Sicherheit (Abstand zu Hindernissen, Spurmitte) und Komfort (Beschleunigungsänderungen).
- Der Actor wird so optimiert, dass er Belohnungen maximiert, während er gleichzeitig durch den BC-Verlust (KL-Divergenz) nahe am Expertenverhalten bleibt.
- Dies bricht die Symmetrie von Verlustfunktionen auf: Das Modell lernt, riskante Pfade (die im IL-Verlust ähnlich aussehen könnten) zu vermeiden, wenn sie zu Kollisionen führen.

D. Post-Tuning

Ein leichter, regelbasierter Nachbearbeitungsschritt glättet die diskrete Trajektorie, um Ruckeln (Jitter) zu reduzieren und die Fahrkomfort-Anforderungen zu erfüllen, ohne die diskrete Schnittstelle des Planers zu ändern.

3. Hauptbeiträge

Diskrete Token-Autoregression mit MoE: DAP ist ein reiner Decoder-only-Autoregressions-Planer, der diskrete Szenen- und Trajektorien-Token generiert. Dies bietet eine einfache Schnittstelle und effizientes Scaling.
Gemeinsame Umwelt-Trajektorie-Vorhersage: Durch die parallele Vorhersage von BEV-Semantik und Fahrzeugbewegung wird eine dichte Überwachung erreicht, die Szenenverständnis und Bewegung eng koppelt.
SAC-BC Fine-Tuning: Die Kombination aus Imitationslernen und Reinforcement Learning (RL) verbessert die geschlossene Schleife (Closed-Loop) erheblich, indem sie Belohnungssignale für Sicherheit nutzt, ohne die Architektur zu verkomplizieren.
Kompakte Leistung: Trotz eines sehr kleinen Parameterbudgets von nur 120 Millionen Parametern erreicht das Modell State-of-the-Art-Ergebnisse.

4. Ergebnisse

DAP wurde auf mehreren Benchmarks evaluiert:

Open-Loop (nuScenes & NuPlan):
- Auf nuScenes erreicht DAP den besten $L_2$ -Max-Wert und einen der besten Durchschnittswerte ( $L_2$ -Avg), was auf eine überlegene Kontrolle in Worst-Case-Szenarien hindeutet.
- Auf NuPlan (Val4k, Test4k, Val14) setzt DAP neue State-of-the-Art-Standards bei der 8-Sekunden-Average-Displacement-Error (ADE) und der Off-Route-Percentage (OLS), wobei es die Zuverlässigkeit und Verteilungsgenauigkeit verbessert.
Closed-Loop (NAVSIM v1 & v2):
- Auf NAVSIM v1 (Predictive Driver Model Score - PDMS) erzielt DAP einen Score von 90.0. Dies ist vergleichbar mit oder besser als viele aktuelle Methoden, die oft viel größere Modelle (Milliarden von Parametern, z. B. DriveVLA-W0) oder zusätzliche Sensoren (LiDAR) nutzen. DAP erreicht dabei perfekte Komfortwerte (C=100.0).
- Auf dem strengen NAVSIM v2 Benchmark erreicht DAP einen Extended PDMS (EPDMS) von 85.6, was eine deutliche Verbesserung gegenüber der Basislinie ist und mit den besten lernbasierten Planern konkurriert.
Effizienz: DAP ist deutlich parametereffizienter als viele konkurrierende Modelle (z. B. DriveVLA, das auf großen Vision-Language-Modellen basiert), bleibt aber in der Leistung konkurrenzfähig.

5. Bedeutung und Fazit

Die Arbeit zeigt, dass diskrete Token-Autoregression ein vielversprechendes und skalierbares Paradigma für die Bewegungsplanung im autonomen Fahren ist.

Skalierbarkeit: DAP nutzt die bewährten Scaling-Gesetze von Transformer-Modellen (ähnlich wie LLMs), indem es Planung als Sequenzvorhersage behandelt.
Robustheit durch Weltmodellierung: Die Integration einer Weltmodellierungs-Strategie (Vorhersage der Umgebungszustände) löst das Problem der spärlichen Überwachung und führt zu sichereren Entscheidungen.
Praktische Anwendbarkeit: Der Ansatz ist nicht nur theoretisch, sondern in der Praxis einsetzbar, da er mit einem kompakten Modell (120M Parameter) funktioniert und eine niedrige Latenz durch parallele Token-Generierung bietet.

Zusammenfassend beweist DAP, dass man durch die Kombination von diskreter Tokenisierung, autoregressiver Weltmodellierung und RL-basiertem Fine-Tuning hochleistungsfähige autonome Planungssysteme mit vergleichsweise geringen Ressourcen aufbauen kann.