DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

本文提出了 DAP,一种基于离散 Token 的自回归自动驾驶规划器,通过联合预测鸟瞰图语义与自车轨迹并结合强化学习微调,在仅 1.6 亿参数量的紧凑预算下实现了开放环与封闭环测试中的领先性能。

Bowen Ye, Bin Zhang, Hang Zhao

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DAP 的新系统,它是自动驾驶汽车的大脑,专门负责“规划”——也就是决定车接下来该怎么开。

为了让你更容易理解,我们可以把自动驾驶想象成一个正在玩“你画我猜”或者“接龙游戏”的超级玩家,而 DAP 就是那个不仅会猜字,还能同时预测“画布上会发生什么”和“自己该怎么动”的天才玩家。

以下是用通俗语言和比喻对这篇论文核心内容的解读:

1. 核心痛点:以前的车为什么“笨”?

以前的自动驾驶规划模型(非自回归模型),有点像一次性把整条路画完

  • 比喻:就像你让一个画家在纸上画未来 10 秒的车流,他必须一次性把整张图都画好,中间不能修改。
  • 问题:这种方法很难处理突发情况。如果画家画到第 5 秒发现前面有辆车突然变道,他很难回头去修改第 6 秒的画,因为他是“一次性生成”的。而且,他往往只关注“车该怎么走”,忽略了“周围的环境会怎么变”,导致车开得很死板。

2. DAP 的解决方案:像“讲故事”一样开车

DAP 采用了**“离散 Token 自回归”**(Discrete-token Autoregressive)的方法。

  • 比喻:想象 DAP 不是在画画,而是在写小说或者接龙
    • 它不是一次性写完结局,而是一步一步地写
    • 它先写“下一帧画面里,那辆车在哪里”(环境预测),紧接着写“下一帧我的车该往哪转”(动作预测)。
    • 然后它再基于刚才写的,继续写“再下一帧画面”和“再下一帧动作”。
  • 优势:这种“边写边看”的方式,让车能实时感知环境的变化。如果它预测到前面有障碍物,它立刻就能在写“下一步动作”时调整方向,而不是死板地执行之前的计划。

3. 两大创新点:如何让它更聪明?

A. “眼观六路”与“身随心动”同步进行(联合预测)

以前的模型可能只盯着“车怎么动”,DAP 则是同时预测“世界怎么变”和“车怎么动”

  • 比喻
    • 旧模型:像一个闭着眼睛的司机,只凭感觉踩油门,不管前面是不是有坑。
    • DAP:像一个经验丰富的老司机。他一边看后视镜和前方(预测未来的鸟瞰图 BEV,即环境语义),一边同时决定方向盘怎么打(预测轨迹)。
    • 效果:因为“看”和“动”是绑定的,所以车能更敏锐地理解环境。比如,它预测到旁边车道有车要插队(环境变化),它立刻就会减速(动作调整),这种配合非常紧密。

B. 从“死记硬背”到“举一反三”(强化学习微调)

论文提到,光靠模仿人类司机(模仿学习)是不够的,因为人类司机有时候也会犯错,或者在某些危险情况下反应不够快。

  • 比喻
    • 模仿学习 (IL):就像学生死记硬背老师的解题步骤。如果考试题目稍微变一下(比如遇到没见过的路况),学生就懵了。
    • 强化学习 (RL):就像老师给学生发小红花和扣分
      • 如果你开得稳、不撞车、不让人晕车,就给你加分(奖励)。
      • 如果你差点撞车或者急刹车,就扣分。
    • DAP 的做法:它先死记硬背(模仿学习)打好基础,然后进入“特训营”(强化学习微调)。在这个阶段,它不再只是模仿,而是根据“安全”和“舒适”的奖励信号,学会在危险时刻做出更优的决策(比如主动避让而不是硬挤)。

4. 为什么它很厉害?(小身材,大能量)

  • 参数少:很多现在的自动驾驶大模型像“巨无霸”,有几十亿甚至上百亿个参数,需要超级计算机才能跑。
  • DAP 很轻:它只有 1.2 亿 个参数(相当于一个小型的模型)。
  • 比喻:就像 DAP 是一个精干的特种兵,而不是一个穿着厚重铠甲的巨人。虽然它个头小,但因为训练方法好(像讲故事一样一步步推演,加上奖励机制),它的反应速度和决策质量反而比那些笨重的“巨人”还要好,甚至在某些测试中超过了那些大模型。

5. 总结:DAP 到底做了什么?

简单来说,DAP 给自动驾驶汽车装上了一个**“会思考、会预测、会自我修正”的大脑**:

  1. 像写小说一样开车:一步一步地预测未来,而不是死板地一次性规划。
  2. 眼手合一:同时预测路况变化和车辆动作,让两者互相配合。
  3. 有奖有罚:通过“奖励机制”学会在危险时保护自己,而不仅仅是模仿人类。
  4. 小巧玲珑:用很小的算力就能达到顶尖的驾驶水平,让未来的自动驾驶汽车更容易普及。

这篇论文的核心思想就是:自动驾驶的未来不在于把模型做得无限大,而在于让模型学会像人类一样,通过“观察 - 预测 - 行动”的循环,灵活、安全地应对复杂的路况。