DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DAP 的新系统，它是自动驾驶汽车的大脑，专门负责“规划”——也就是决定车接下来该怎么开。

为了让你更容易理解，我们可以把自动驾驶想象成一个正在玩“你画我猜”或者“接龙游戏”的超级玩家，而 DAP 就是那个不仅会猜字，还能同时预测“画布上会发生什么”和“自己该怎么动”的天才玩家。

以下是用通俗语言和比喻对这篇论文核心内容的解读：

1. 核心痛点：以前的车为什么“笨”？

以前的自动驾驶规划模型（非自回归模型），有点像一次性把整条路画完。

比喻：就像你让一个画家在纸上画未来 10 秒的车流，他必须一次性把整张图都画好，中间不能修改。
问题：这种方法很难处理突发情况。如果画家画到第 5 秒发现前面有辆车突然变道，他很难回头去修改第 6 秒的画，因为他是“一次性生成”的。而且，他往往只关注“车该怎么走”，忽略了“周围的环境会怎么变”，导致车开得很死板。

2. DAP 的解决方案：像“讲故事”一样开车

DAP 采用了**“离散 Token 自回归”**（Discrete-token Autoregressive）的方法。

比喻：想象 DAP 不是在画画，而是在写小说或者接龙。
- 它不是一次性写完结局，而是一步一步地写。
- 它先写“下一帧画面里，那辆车在哪里”（环境预测），紧接着写“下一帧我的车该往哪转”（动作预测）。
- 然后它再基于刚才写的，继续写“再下一帧画面”和“再下一帧动作”。
优势：这种“边写边看”的方式，让车能实时感知环境的变化。如果它预测到前面有障碍物，它立刻就能在写“下一步动作”时调整方向，而不是死板地执行之前的计划。

3. 两大创新点：如何让它更聪明？

A. “眼观六路”与“身随心动”同步进行（联合预测）

以前的模型可能只盯着“车怎么动”，DAP 则是同时预测“世界怎么变”和“车怎么动”。

比喻：
- 旧模型：像一个闭着眼睛的司机，只凭感觉踩油门，不管前面是不是有坑。
- DAP：像一个经验丰富的老司机。他一边看后视镜和前方（预测未来的鸟瞰图 BEV，即环境语义），一边同时决定方向盘怎么打（预测轨迹）。
- 效果：因为“看”和“动”是绑定的，所以车能更敏锐地理解环境。比如，它预测到旁边车道有车要插队（环境变化），它立刻就会减速（动作调整），这种配合非常紧密。

B. 从“死记硬背”到“举一反三”（强化学习微调）

论文提到，光靠模仿人类司机（模仿学习）是不够的，因为人类司机有时候也会犯错，或者在某些危险情况下反应不够快。

比喻：
- 模仿学习 (IL)：就像学生死记硬背老师的解题步骤。如果考试题目稍微变一下（比如遇到没见过的路况），学生就懵了。
- 强化学习 (RL)：就像老师给学生发小红花和扣分。
  - 如果你开得稳、不撞车、不让人晕车，就给你加分（奖励）。
  - 如果你差点撞车或者急刹车，就扣分。
- DAP 的做法：它先死记硬背（模仿学习）打好基础，然后进入“特训营”（强化学习微调）。在这个阶段，它不再只是模仿，而是根据“安全”和“舒适”的奖励信号，学会在危险时刻做出更优的决策（比如主动避让而不是硬挤）。

4. 为什么它很厉害？（小身材，大能量）

参数少：很多现在的自动驾驶大模型像“巨无霸”，有几十亿甚至上百亿个参数，需要超级计算机才能跑。
DAP 很轻：它只有 1.2 亿 个参数（相当于一个小型的模型）。
比喻：就像 DAP 是一个精干的特种兵，而不是一个穿着厚重铠甲的巨人。虽然它个头小，但因为训练方法好（像讲故事一样一步步推演，加上奖励机制），它的反应速度和决策质量反而比那些笨重的“巨人”还要好，甚至在某些测试中超过了那些大模型。

5. 总结：DAP 到底做了什么？

简单来说，DAP 给自动驾驶汽车装上了一个**“会思考、会预测、会自我修正”的大脑**：

像写小说一样开车：一步一步地预测未来，而不是死板地一次性规划。
眼手合一：同时预测路况变化和车辆动作，让两者互相配合。
有奖有罚：通过“奖励机制”学会在危险时保护自己，而不仅仅是模仿人类。
小巧玲珑：用很小的算力就能达到顶尖的驾驶水平，让未来的自动驾驶汽车更容易普及。

这篇论文的核心思想就是：自动驾驶的未来不在于把模型做得无限大，而在于让模型学会像人类一样，通过“观察 - 预测 - 行动”的循环，灵活、安全地应对复杂的路况。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

在自动驾驶规划领域，随着数据量和模型预算的增加，如何获得可持续的性能提升是一个核心挑战。现有的规划方法主要分为两类：

非自回归（Non-AR）方法：如端到端预测或基于扩散模型（Diffusion）的方法，通常一次性生成整个轨迹。虽然研究广泛，但在扩展性（Scaling）上存在局限。
自回归（AR）方法：逐步解码动作。虽然大语言模型（LLM）证明了基于离散 Token 的自回归模型在数据扩展上具有优越的“缩放定律（Scaling Laws）”，但现有的自动驾驶自回归规划器存在以下关键问题：
1. 监督稀疏（Sparse Supervision）：仅预测自车轨迹（Ego Trajectory）缺乏对场景演变的显式约束，导致模型难以理解场景动态如何影响自身运动。
2. 场景与运动解耦：缺乏世界模型（World Model）能力，导致场景预测与轨迹生成之间的耦合较弱。
3. 纯模仿学习的局限性：仅靠模仿学习（Imitation Learning, IL）容易过拟合专家数据，在面对分布外（OOD）场景或协变量偏移时，容易产生累积误差和碰撞风险，且缺乏对安全边界的显式优化。

2. 方法论 (Methodology)

作者提出了 DAP (Discrete-token Autoregressive Planner)，一种基于离散 Token 的自回归规划器。其核心思想是将运动预测和规划建模为离散 Token 序列生成任务，利用 Decoder-only Transformer 架构，同时预测环境语义和自车轨迹。

2.1 核心架构：离散 Token 自回归 Transformer

输入离散化：
- BEV 特征：利用 VQ-VAE 将多视角相机融合后的鸟瞰图（BEV）语义特征量化为离散的 环境 Token。
- 自车状态：将位置和航向角转换为曲率（ $\kappa$ ）和加速度（ $a$ ）对，并离散化为 动作 Token。
- 指令：路由指令被编码为分类 Token。
联合预测机制：
- 模型采用 Decoder-only Transformer，并引入稀疏 MoE (Mixture of Experts) 层以增强对不同交通模式的泛化能力。
- 联合生成：在每个时间步，模型并行生成未来的 BEV 语义 Token（捕捉场景演变）和动作 Token（控制自车运动）。
- 注意力机制创新：为了加速推理，作者在同一时间步内的 BEV Token 生成中引入了双向注意力（Bidirectional Intra-step Attention），允许同一时刻的 BEV Token 相互关注并并行生成，而跨时间步仍保持因果掩码。这显著降低了自回归的迭代次数。
训练目标：
- 通过最大化似然估计，联合优化 BEV 预测和轨迹预测的交叉熵损失。这种密集的空间 - 时间对齐监督迫使模型学习场景演变与自车运动之间的内在联系。

2.2 强化学习微调 (SAC-BC Fine-tuning)

为了解决纯模仿学习在安全决策上的模糊性（例如，两条轨迹损失函数相似，但一条有碰撞风险），作者引入了 SAC-BC (Soft Actor-Critic + Behavior Cloning) 两阶段训练策略：

阶段 I (IL)：监督预训练，学习专家轨迹和场景表示。
阶段 II (RL)：离线强化学习微调。
- 奖励函数：设计包含车道保持距离、障碍物距离（安全）以及加减速平滑度（舒适性）的奖励信号。
- 机制：利用 SAC 算法优化显式奖励，同时通过 BC 损失（带有价值感知的权重）正则化策略，防止偏离专家分布过远。这使得模型能够学会在损失函数相似的情况下，选择更安全、更舒适的轨迹（例如，在图 4 中避免碰撞的轨迹）。

2.3 轨迹后处理 (Post-tuning)

由于离散 Token 可能导致轨迹出现微小的抖动或突变，作者设计了一个轻量级的后处理模块。利用 BEV 车道线证据和有限差分正则化，对预测轨迹进行平滑处理，消除横向抖动并提高乘坐舒适性，而不改变规划器的核心接口。

3. 主要贡献 (Key Contributions)

基于离散 Token 的 Decoder-only 自回归规划器：提出了 DAP，利用稀疏 MoE 和离散 Token 方案，实现了简单且高效的解码接口，充分利用了 Transformer 的扩展定律。
环境与轨迹的联合预测：通过同时预测未来 BEV 语义和 $\kappa-a$ 轨迹 Token，提供了密集的空间 - 时间监督，将场景理解与运动生成紧密耦合，解决了监督稀疏问题。
超越纯模仿学习的 SAC-BC 微调：在保持架构简洁的同时，引入强化学习信号打破损失函数的对称性，显著增强了模型对安全边界和舒适性的感知能力。
高效的双向注意力机制：在 BEV Token 生成步骤中引入双向注意力，实现了并行生成，大幅提升了推理速度。
小参数下的高性能：仅使用 1.2 亿 (120M) 参数，就在开环和闭环指标上达到了 SOTA 水平，证明了该范式在参数效率上的巨大优势。

4. 实验结果 (Results)

4.1 开环评估 (Open-loop Evaluation)

nuScenes 数据集：DAP 在 $L2_{max}$ （最大误差）上达到 SOTA（0.21m），在 $L2_{avg}$ 上与顶尖模型持平，证明了其在最坏情况下的控制能力。
NuPlan 数据集：在 Val4k, Test4k, Val14 三个划分上，DAP 在 8 秒 ADE（平均位移误差）和 OLS（操作成功率）上均刷新了 SOTA。例如在 Val4k 上，ADE 为 1.202m，OLS 达到 91.68%。

4.2 闭环评估 (Closed-loop Evaluation)

NavSim v1 (PDMS)：在仅使用相机输入的情况下，DAP 取得了 90.0 的 PDMS 分数，与参数量大得多的多模态大模型（如 DriveVLA-W0）相当，且在舒适性（C=100.0）和进度（EP=86.8）上表现优异。
NavSim v2 (EPDMS)：在更严格的 v2 协议下，DAP 取得了 85.6 的 EPDMS 分数，显著优于基线，并在进度（EP）和历史舒适性（HC）上达到最佳。

4.3 消融实验

联合监督的必要性：移除 BEV 预测头仅训练轨迹，PDMS 从 84.6 降至 82.8，证明场景理解对鲁棒规划至关重要。
RL 微调的效果：引入 SAC-BC 后，PDMS 进一步提升至 85.4。
扩展性：随着训练数据量从 20k 增加到 80k，以及 BEV Token 码本大小的增加，性能呈现单调上升趋势，验证了该架构良好的扩展性。

5. 意义与结论 (Significance)

DAP 论文提出了一种紧凑、可扩展且高效的自动驾驶规划新范式。

范式转变：它证明了将自动驾驶规划视为“离散 Token 序列生成”任务，并结合“世界模型”思想（联合预测环境与动作），可以有效解决传统规划方法的监督稀疏和扩展性瓶颈。
效率与性能的平衡：在仅使用 1.2 亿参数的情况下，DAP 实现了与数十亿参数大模型相当甚至更优的性能，极大地降低了自动驾驶系统的部署成本和算力需求。
鲁棒性提升：通过联合预测和 RL 微调，模型不仅学会了“像专家一样开车”，还学会了“在复杂环境中安全地开车”，显著提升了闭环驾驶的安全性和舒适性。

综上所述，DAP 为自动驾驶规划提供了一个基于 Transformer 的、数据驱动且具备世界模型能力的强大基线，展示了自回归离散 Token 方法在自动驾驶领域的巨大潜力。