DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um carro autônomo a dirigir. A maneira tradicional de fazer isso é como dar uma foto do trânsito atual e pedir ao carro: "Adivinhe onde você estará daqui a 5 segundos". O carro tenta adivinhar o caminho, mas muitas vezes ele ignora o que está acontecendo ao redor (como um pedestre cruzando ou um carro freando) e foca apenas no seu próprio movimento.

O DAP (Planejador Autoregressivo de Tokens Discretos) é uma nova abordagem que muda completamente essa lógica. Pense nele não como um adivinhador, mas como um contador de histórias em tempo real.

Aqui está como o DAP funciona, usando analogias do dia a dia:

1. A Grande Ideia: "Ver o Futuro para Dirigir o Presente"

A maioria dos carros autônomos atuais olha para o passado e tenta desenhar uma linha reta para o futuro. O DAP faz algo diferente: ele simula o futuro antes de decidir o que fazer.

A Analogia do Cinema: Imagine que o carro é um diretor de cinema. Em vez de apenas filmar o ator (o carro) andando, o diretor primeiro projeta no telão como a cena vai se desenrolar: "Daqui a 2 segundos, aquele caminhão vai virar à esquerda; daqui a 3 segundos, a luz vai ficar vermelha".
O DAP faz exatamente isso: Ele gera duas coisas ao mesmo tempo, passo a passo:
1. O Cenário (BEV): Uma imagem mental de como a rua vai parecer no futuro (onde estão os carros, pedestres, faixas).
2. A Ação (Trajetória): O que o carro deve fazer (virar, acelerar, frear).

Ao prever o cenário antes de decidir a ação, o carro entende que, se o cenário muda (ex: um carro entra na frente), a ação dele também precisa mudar. Isso cria uma conexão muito mais forte e segura.

2. A Linguagem: "Palavras" em vez de Números

O DAP não trabalha com números complexos e contínuos (como "virar 12,45 graus"). Ele transforma tudo em palavras (tokens discretos), como se estivesse escrevendo um livro.

A Analogia do Lego: Imagine que você não pode construir uma casa com areia solta (números contínuos), mas precisa usar blocos de Lego específicos.
- Um bloco significa "Acelerar um pouco".
- Outro bloco significa "Virar à esquerda".
- Outro bloco significa "O carro vermelho vai parar".
Por que isso é bom? Assim como os modelos de IA que escrevem textos (como o ChatGPT) são muito eficientes porque usam "palavras", o DAP usa "blocos de Lego" para entender o mundo. Isso torna o sistema mais leve, mais rápido e mais fácil de treinar, permitindo que ele aprenda com menos dados do que os sistemas gigantes atuais.

3. O Treinamento: "Aula Teórica" + "Aula Prática com Recompensas"

O papel descreve um treinamento em duas etapas, que é como aprender a dirigir de verdade:

Etapa 1: Imitação (Aula Teórica): O carro assiste a milhares de horas de vídeos de motoristas humanos perfeitos e tenta copiar o que eles fazem. Ele aprende a "falar a língua" da estrada.
Etapa 2: Reforço (Aula Prática com Recompensas): Aqui entra a mágica. Apenas copiar o humano não é suficiente, porque às vezes o humano comete erros sutis ou o carro precisa ser mais cauteloso.
- O DAP usa um sistema de recompensas (como um videogame). Se o carro prevê que vai bater, ele perde pontos. Se ele mantém uma distância segura e o passeio é suave, ganha pontos.
- Isso ensina o carro a não apenas "imitar", mas a tomar decisões inteligentes para evitar acidentes, mesmo que o motorista humano no vídeo não tenha feito isso.

4. O Resultado: Um Carro Pequeno, mas Inteligente

O mais impressionante é que, apesar de ser tão inteligente, o DAP é pequeno e eficiente.

A Analogia do Gênio de Bolso: Existem outros sistemas que são como supercomputadores gigantes (com bilhões de parâmetros) para dirigir. O DAP é como um gênio com apenas 120 milhões de parâmetros (muito menor).
O Desempenho: Mesmo sendo "menor", ele bateu os recordes em testes de segurança e precisão. Ele consegue prever o futuro com tanta clareza que, em testes de simulação, ele dirige tão bem quanto os melhores sistemas do mundo, mas usando muito menos energia e poder de computação.

Resumo Final

O DAP é como um motorista que não apenas olha para a frente, mas imagina o filme do trânsito dos próximos segundos. Ele transforma o caos da estrada em uma história organizada de "palavras" (blocos de Lego), aprende copiando humanos e depois se aperfeiçoa com base em recompensas de segurança. O resultado é um carro autônomo que é mais seguro, mais eficiente e capaz de entender o mundo ao seu redor de forma muito mais natural.

Each language version is independently generated for its own context, not a direct translation.

Título: DAP: Um Planejador Autoregressivo de Tokens Discretos para Direção Autônoma

1. O Problema

O avanço da direção autônoma enfrenta um desafio pivotal: como obter melhorias de desempenho sustentáveis através da escalabilidade de dados e orçamento de modelos.

Limitações dos Modelos Atuais:
- Abordagens Não-Autoregressivas: Métodos que geram trajetórias inteiras em uma única passagem (como difusão ou mapeamento direto) muitas vezes sofrem com supervisão esparsa. Eles preveem apenas a trajetória do veículo (ego), sem modelar explicitamente como o ambiente evolui, o que enfraquece a ligação entre a dinâmica da cena e o movimento do veículo.
- Escalabilidade: Embora modelos autoregressivos (AR) tenham mostrado eficiência na escalabilidade de dados em tarefas de linguagem (LLMs), sua aplicação em planejamento de direção muitas vezes carece de modelagem de mundo explícita.
- Viés de Imitação: O aprendizado por imitação (IL) puro tende a superajustar às demonstrações de especialistas, falhando em lidar com situações fora da distribuição (OOD) ou em escolher modos de ação mais seguros quando múltiplas trajetórias têm erros de imitação semelhantes.

2. Metodologia (DAP)

O DAP (Discrete-token Autoregressive Planner) propõe uma mudança de paradigma: tratar o planejamento de movimento e a previsão do ambiente como uma tarefa de modelagem de sequência de tokens discretos, utilizando uma arquitetura Decoder-only Transformer.

Componentes Principais:

Tokenização Discreta:
- Cena (BEV): As representações de Visão de Pássaro (Bird's-Eye View) semânticas são discretizadas usando um VQ-VAE (Vector Quantized Variational Autoencoder), gerando tokens de ambiente discretos.
- Ação (Trajetória): A trajetória do veículo é representada por pares de curvatura e aceleração ( $\kappa-a$ ), que também são quantizados em tokens discretos.
- Comando: Comandos de roteamento são tratados como variáveis categóricas.
Arquitetura Autoregressiva com MoE:
- O modelo utiliza um Transformer com Decoder-only e camadas MoE (Mixture of Experts) esparsas para aumentar a capacidade sem aumentar excessivamente o custo de inferência.
- Previsão Conjunta: Em cada passo de tempo, o modelo prevê simultaneamente:
  1. Tokens BEV Semânticos: Evolução futura da cena (ambiente).
  2. Tokens de Ação ( $\kappa-a$ ): Movimento do veículo.
- Mecanismo de Atenção Híbrido: Para acelerar a geração, os tokens BEV dentro do mesmo passo de tempo são gerados em paralelo usando atenção bidirecional (intra-passo), enquanto os tokens de ação são gerados causalmente condicionados aos tokens BEV recém-gerados. Isso garante que o movimento seja condicionado à previsão da cena.
Treinamento em Duas Etapas (IL + RL):
- Etapa 1 (Imitação): Pré-treinamento supervisionado (Behavior Cloning - BC) para aprender a distribuição de dados e alinhar a percepção com o planejamento.
- Etapa 2 (Ajuste Fino com RL): Utilização de SAC-BC (Soft Actor-Critic + Behavior Cloning).
  - O SAC introduz sinais de recompensa explícitos para segurança (distância a obstáculos, centro da faixa) e conforto (suavidade de aceleração).
  - O termo BC atua como regularizador, preservando o prior de imitação para evitar desvios catastróficos.
  - Isso quebra a simetria de perda de imitação, permitindo que o modelo aprenda a escolher trajetórias mais seguras mesmo quando a trajetória de referência não é perfeita.
Pós-Processamento Leve:
- Um módulo de ajuste fino baseado em regras suaviza a trajetória gerada (reduzindo jitter lateral e jerk) sem modificar a interface discreta do planejador.

3. Contribuições Chave

Planejador Autoregressivo de Tokens Discretos: Propõe o DAP, uma arquitetura Decoder-only com MoE que gera tokens de cena e trajetória de forma autoregressiva, oferecendo uma interface simples e eficiente.
Previsão Conjunta de Ambiente e Trajetória: Ao prever tokens BEV e de trajetória juntos, o modelo fornece supervisão densa e alinhada espaço-temporalmente, acoplando fortemente a compreensão da cena com a geração de movimento.
Ajuste Fino SAC-BC: Supera o aprendizado por imitação puro ao incorporar sinais de recompensa (RL) para segurança e conforto, mantendo a simplicidade arquitetural e a consistência com o comportamento do especialista.
Alta Eficiência e Desempenho: O modelo é compacto (120M parâmetros), mas alcança resultados de ponta (SOTA) em métricas open-loop e competitivos em closed-loop, demonstrando que a escalabilidade de dados é eficaz mesmo com modelos menores.

4. Resultados Experimentais

O DAP foi avaliado em benchmarks padrão da indústria:

Open-Loop (nuScenes e NuPlan):
- No nuScenes, alcançou o melhor erro máximo ( $L2_{max}$ ) e erro médio ( $L2_{avg}$ ) entre os métodos comparados, superando modelos maiores como UniAD e OpenDriveVLA.
- No NuPlan, estabeleceu novo estado da arte em precisão de distribuição (8s ADE) e taxa de sucesso de trajetória (OLS) em múltiplos conjuntos de validação, superando métodos como PlanTF e STR2-CKS.
Closed-Loop (NavSim v1 e v2):
- NavSim v1 (PDMS): Alcançou uma pontuação de 90.0, superando a maioria dos métodos baseados apenas em câmeras e competindo com modelos que utilizam LiDAR ou backbones de VLM (Vision-Language Models) com bilhões de parâmetros. Destacou-se em conforto (100.0) e segurança.
- NavSim v2 (EPDMS): Alcançou 85.6, superando significativamente a linha de base e mostrando forte desempenho em conformidade com direção e conforto histórico.
Eficiência: O modelo gera trajetórias de 8 passos e tokens BEV em aproximadamente 100ms por amostra, atendendo aos requisitos de latência para implantação prática.

5. Significado e Conclusão

O trabalho DAP demonstra que a modelagem autoregressiva de tokens discretos é um paradigma promissor e escalável para o planejamento de direção autônoma.

Superação da Supervisão Esparsa: Ao integrar a previsão do mundo (BEV) com a ação, o modelo aprende uma representação latente mais rica, onde a evolução da cena condiciona diretamente o movimento.
Eficiência de Recursos: O sucesso com apenas 120M parâmetros desafia a noção de que apenas modelos massivos (VLMs com bilhões de parâmetros) podem atingir alto desempenho em direção autônoma.
Futuro: A abordagem sugere que a combinação de modelagem de mundo discreta, arquiteturas Transformer eficientes (MoE) e ajuste fino com RL (SAC-BC) é um caminho viável para sistemas de direção autônoma robustos, seguros e escaláveis.

Em resumo, o DAP oferece um equilíbrio superior entre desempenho, eficiência computacional e robustez em cenários de direção complexos, validando a eficácia de modelos autoregressivos compactos quando combinados com supervisão densa e objetivos de recompensa.

DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

1. A Grande Ideia: "Ver o Futuro para Dirigir o Presente"

2. A Linguagem: "Palavras" em vez de Números

3. O Treinamento: "Aula Teórica" + "Aula Prática com Recompensas"

4. O Resultado: Um Carro Pequeno, mas Inteligente

Resumo Final

Título: DAP: Um Planejador Autoregressivo de Tokens Discretos para Direção Autônoma

1. O Problema

2. Metodologia (DAP)

3. Contribuições Chave

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics