DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover insegnare a un robot a guidare un'auto. Fino a poco tempo fa, i metodi migliori erano come dare al robot una lista di istruzioni rigide o fargli guardare un video di un pilota umano e chiedergli di copiarlo esattamente. Il problema? Se la strada cambia un po' o succede qualcosa di inaspettato, il robot va in tilt perché non capisce perché il pilota ha fatto quella mossa, ma solo cosa ha fatto.

DAP (Discrete-token Autoregressive Planner) è come un nuovo tipo di "istinto" che diamo a questo robot. Ecco come funziona, usando delle metafore quotidiane:

1. Il "Gioco dei Dadi" invece del "Disegno a Mano Libera"

Immagina che guidare sia come scrivere una storia.

I vecchi metodi: Erano come chiedere a un artista di disegnare l'intera scena futura in un solo colpo d'occhio. Se sbagliava un dettaglio, tutto il disegno era sbagliato.
DAP: Funziona come un gioco di parole a turni (come il "Gioco del Telefono" o un chatbot). Invece di disegnare tutto subito, il robot pensa: "Ok, ora succede questo, quindi dopo succederà quello, e poi quest'altro".
- Usa dei "mattoncini" (chiamati token discreti). Immagina che ogni possibile movimento dell'auto o ogni possibile stato della strada sia un mattoncino di un Lego. Il robot non costruisce l'auto da zero ogni volta, ma seleziona i mattoncini giusti uno alla volta, come se stesse componendo una frase.

2. Il "Cristallo Magico" (Prevedere il Futuro)

Qui sta il vero trucco di DAP.
Mentre la maggior parte dei robot guarda solo la strada e decide dove sterzare, DAP ha un cristallo magico.

Come funziona: Prima di decidere "sterzo a sinistra", DAP immagina mentalmente come sarà la strada tra un secondo. Si chiede: "Se sterzo a sinistra, cosa vedrò? Vedrò un'auto che mi sorpassa? Vedrò un semaforo?".
L'analogia: È come un giocatore di scacchi. Un principiante pensa solo alla sua mossa. Un maestro pensa: "Se faccio questa mossa, l'avversario farà quella, e poi io farò quest'altra".
DAP fa due cose contemporaneamente:
1. Prevede la scena: Immagina come cambierà il mondo (dove andranno le altre auto, come cambierà la strada).
2. Prende una decisione: Sceglie la sua mossa basandosi su quella previsione.
  Questo crea un legame fortissimo: il robot non guida "alla cieca", ma guida sapendo esattamente cosa sta per succedere.

3. L'Allenatore Sportivo (Reinforcement Learning)

All'inizio, il robot impara guardando i video dei piloti umani (Imitazione). Ma a volte, copiare l'umano non basta: l'umano potrebbe aver fatto una mossa rischiosa che il robot non dovrebbe ripetere.

La soluzione: Dopo aver imparato le basi, diamo al robot un allenatore virtuale (Reinforcement Learning).
Come funziona: L'allenatore non dice "fai come l'umano". Dice: "Bravo se mantieni la distanza di sicurezza! Peccato se sei troppo nervoso o se ti avvicini troppo agli ostacoli".
Il robot impara a bilanciare: deve essere fluido e sicuro, non solo un perfetto imitatore. È come passare dal copiare la firma di un maestro a imparare a scrivere con la propria personalità, ma sempre rispettando le regole della grammatica.

4. Perché è così speciale? (Piccolo ma Potente)

Spesso, per essere intelligenti, le intelligenze artificiali devono essere enormi, come un elefante che occupa un'intera stanza.

DAP è come un gatto ninja: È molto piccolo (occupa poco spazio nella memoria del computer), ma è velocissimo e molto intelligente.
Grazie al suo metodo "a mattoncini" e alla capacità di prevedere la scena, riesce a guidare meglio di sistemi molto più grandi e complessi, rendendo la guida autonoma più economica e veloce da implementare nelle auto reali.

In sintesi

DAP è un sistema di guida autonoma che:

Non guarda solo la strada, ma immagina il futuro (come un giocatore di scacchi).
Costruisce le sue decisioni mattoncino per mattoncino, passo dopo passo.
Si allena con un allenatore virtuale per essere sicuro e comodo, non solo per copiare gli umani.
È piccolo ed efficiente, dimostrando che non serve essere giganti per essere i migliori.

È un passo avanti verso auto che non solo "vedono" la strada, ma la "capiscono" e la "sognano" prima di muoversi.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

L'articolo affronta la sfida di ottenere miglioramenti sostenibili delle prestazioni nel pianificazione per la guida autonoma attraverso la scalabilità di dati e budget computazionale. Sebbene i modelli autoregressivi (AR) abbiano mostrato un'efficienza promettente nella scalabilità dei dati, i metodi esistenti che prevedono solo la traiettoria dell'ego-veicolo soffrono di due problemi principali:

Supervisione sparsa: La previsione della sola traiettoria fornisce segnali di apprendimento deboli, limitando la capacità del modello di comprendere come l'evoluzione della scena influenzi il movimento.
Mancanza di modellazione del mondo: I modelli non riescono a catturare appieno la dinamica dell'ambiente circostante, portando a una scarsa assegnazione del credito (credit assignment) su più passi temporali e a una minore robustezza in scenari complessi (out-of-distribution).

Inoltre, l'apprendimento per imitazione (Imitation Learning - IL) puro tende a sovrapporsi ai dati di addestramento e non gestisce bene le ambiguità quando più traiettorie hanno un errore simile rispetto all'esperto, ma profili di rischio molto diversi (es. una traiettoria sicura vs. una collisione).

2. Metodologia: DAP

Gli autori propongono DAP (Discrete-token Autoregressive Planner), un pianificatore basato su un'architettura Decoder-only Transformer che opera su token discreti. L'approccio si articola in tre componenti principali:

A. Modellazione Autoregressiva con Token Discreti

DAP riformula la pianificazione come un compito di modellazione di sequenze discrete. Invece di mappare direttamente i dati sensoriali a una traiettoria continua, il modello:

Tokenizza gli input:
- BEV (Bird's Eye View): Le rappresentazioni semantiche dell'ambiente vengono quantizzate utilizzando un VQ-VAE (Vector Quantized Variational Autoencoder) per generare token discreti che rappresentano lo stato della scena.
- Traiettoria: I movimenti dell'auto (curvatura $\kappa$ e accelerazione $a$ ) vengono discretizzati in coppie di indici.
- Comandi: I comandi di routing sono trattati come variabili categoriali.
Architettura: Utilizza un Transformer autoregressivo con strati MoE (Mixture of Experts) sparsi. Questo permette di scalare la capacità del modello senza un costo computazionale proibitivo.
Generazione Interleaved: A ogni passo temporale futuro, il modello genera in parallelo (tramite attenzione bidirezionale intra-step) i token BEV che descrivono l'evoluzione della scena e i token di azione che governano il movimento dell'auto. Questo accoppia la previsione della scena con la generazione del movimento sotto una supervisione densa e spaziotemporalmente allineata.

B. Ottimizzazione con Reinforcement Learning (SAC-BC)

Per superare i limiti dell'apprendimento per imitazione puro, DAP incorpora una fase di fine-tuning basata su SAC-BC (Soft Actor-Critic + Behavior Cloning):

Obiettivo: Mantenere i prior dell'apprendimento per imitazione (per stabilità) mentre si introducono segnali di reward per migliorare la sicurezza e il comfort.
Reward: Vengono definiti reward basati sulla geometria (distanza dalla linea centrale, distanza dagli ostacoli) e sul comfort (variazione di accelerazione e accelerazione angolare).
Meccanismo: L'algoritmo rompe la simmetria della funzione di perdita: anche se due traiettorie hanno un errore di imitazione simile, quella più sicura riceve un reward più alto, guidando il modello a evitare modalità rischiose (es. collisioni) che l'IL puro potrebbe selezionare.

C. Post-tuning della Traiettoria

Un modulo leggero di post-elaborazione applica vincoli basati su regole per attenuare il "jitter" laterale e migliorare la fluidità del movimento, utilizzando le evidenze delle corsie BEV, senza modificare l'interfaccia discreta del pianificatore.

3. Contributi Chiave

Pianificatore Autoregressivo Decoder-only con Token Discreti: DAP è un pianificatore che genera sequentemente token di scena e di traiettoria, offrendo un'interfaccia semplice e un'efficienza di decodifica superiore.
Previsione Congiunta Ambiente-Traiettoria: Prevedendo simultaneamente i token BEV semantici e i token di azione, il modello riceve una supervisione densa che accoppia strettamente la comprensione della scena con la generazione del movimento, migliorando l'assegnazione del credito su più passi.
Fine-tuning SAC-BC: L'integrazione di RL con BC supera le limitazioni dell'IL puro, rafforzando l'accoppiamento tra lo stato dell'ambiente previsto e la traiettoria generata, garantendo scelte più sicure.
Efficienza e Prestazioni: Nonostante un budget di parametri molto contenuto (120M parametri), il modello raggiunge prestazioni all'avanguardia, dimostrando che la scalabilità dei dati e un'architettura ben progettata possono compensare la mancanza di modelli enormi (miliardi di parametri).

4. Risultati Sperimentali

Il modello è stato valutato su benchmark aperti (open-loop) e chiusi (closed-loop):

Open-Loop (nuScenes e NuPlan):
- Su nuScenes, DAP ottiene il miglior risultato per $L2_{max}$ (errore massimo) e un errore medio ( $L2_{avg}$ ) competitivo con lo stato dell'arte, dimostrando un controllo robusto anche nei casi peggiori.
- Su NuPlan, DAP stabilisce un nuovo stato dell'arte (SOTA) per l'ADE (Average Displacement Error) a 8 secondi e l'OLS (Offline Lane Score) su tutte le divisioni di test, superando modelli molto più grandi come PlanTF e STR2-CKS.
Closed-Loop (NAVSIM v1 e v2):
- Su NAVSIM v1, DAP raggiunge un punteggio PDMS di 90.0, superando o eguagliando la maggior parte dei metodi basati solo su camera, inclusi approcci che utilizzano backbone VLM (Vision-Language Models) con miliardi di parametri. Ottiene un punteggio di comfort perfetto (100.0).
- Su NAVSIM v2 (più rigoroso), ottiene un EPDMS di 85.6, mostrando il miglior punteggio di progresso (EP) e comfort storico (HC) tra i pianificatori basati su apprendimento.
Ablation Study: Le analisi confermano che la supervisione congiunta BEV+Traiettoria è essenziale, che il fine-tuning SAC-BC migliora costantemente le prestazioni rispetto al solo BC, e che la scalabilità dei dati e una tokenizzazione BEV più fine (codebook più grande) sono cruciali per le prestazioni finali.

5. Significato e Impatto

Il lavoro di DAP è significativo perché dimostra che l'approccio autoregressivo basato su token discreti è un paradigma scalabile ed efficiente per la pianificazione nella guida autonoma.

Efficienza: Dimostra che non è necessario ricorrere a modelli massicci (miliardi di parametri) per ottenere prestazioni SOTA; un modello compatto di 120M parametri, ben addestrato con supervisione densa e RL, può competere con sistemi molto più complessi.
Robustezza: L'accoppiamento tra previsione della scena e pianificazione del movimento risolve il problema della supervisione sparsa, rendendo il sistema più robusto agli shift di covariate e alle situazioni impreviste.
Scalabilità: La struttura si allinea con le leggi di scala (scaling laws) dei modelli linguistici, suggerendo che l'aumento dei dati di addestramento porterà a miglioramenti prevedibili e continui, offrendo una roadmap chiara per lo sviluppo futuro di sistemi di guida autonoma.