LAP: Fast LAtent Diffusion Planner for Autonomous Driving

本文提出了 LAtent Planner (LAP),一种通过 VAE 潜在空间解耦高层意图与底层运动学、引入中间特征对齐机制并实现单步去噪生成的自动驾驶规划框架,在 nuPlan 基准测试中不仅取得了学习类规划方法的最优闭环性能,还将推理速度提升了至少 10 倍。

Jinhao Zhang, Wenlong Xia, Zhexuan Zhou, Haoming Song, Youmin Gong, Jie Mei

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 LAP (LAtent Planner) 的新系统,它的目标是让自动驾驶汽车开得更聪明、更快,而且更像人类。

为了让你轻松理解,我们可以把自动驾驶的“规划”过程想象成一位老司机在脑海里规划路线

1. 以前的难题:既要算细节,又要做决策,太累了!

以前的自动驾驶规划模型(比如基于“扩散模型”的旧方法)就像是一个刚拿到驾照的新手,或者一个过度纠结细节的会计

  • 问题一:算得太慢(延迟高)。
    以前的模型在生成路线时,需要像画画一样,一笔一笔地“去噪”(从模糊变清晰)。这就像让你从一张全是噪点的黑白照片里,一步步把人脸画清楚,需要反复修改很多次才能定稿。这导致汽车反应很慢,等它想好怎么开,可能早就撞上了。
  • 问题二:抓不住重点(语义不清)。
    以前的模型直接盯着具体的“坐标点”(比如:第 1 秒在 (x,y),第 2 秒在 (x,y))。这就像让司机只关注“脚踩油门多深、方向盘转几度”,而忽略了“我要超车”或“我要变道”这种高层意图。模型把大量精力浪费在计算物理细节(比如速度连续性)上,反而忘了思考“我到底该往哪走”。

2. LAP 的解决方案:给大脑装个“压缩包”

LAP 的核心思想是:不要直接画路,先在脑子里想个“概念”,再把它变成路。

它引入了一个**“潜空间”(Latent Space),我们可以把它想象成司机的“直觉”或“草稿本”**。

第一步:学会“压缩” (VAE 编码器)

LAP 先训练了一个**“翻译官”**(VAE 编码器)。

  • 以前: 司机看到 100 个具体的坐标点,记了满满一页纸。
  • 现在: 翻译官把这些坐标点压缩成一个**“核心概念”**。
    • 比喻: 就像把“向左转 30 度,加速到 40,保持 5 秒”这一长串指令,压缩成大脑里的一个词:“超车”
    • 这个“概念”不仅包含了动作,还包含了多种可能性(比如:是激进超车还是温和超车?)。

第二步:在“概念”里做决策 (潜空间扩散)

真正的规划(扩散模型)不再在复杂的坐标点上打转,而是在这个**“概念空间”**里进行。

  • 比喻: 司机不再纠结脚踩多深,而是在脑海里快速模拟几种“超车”的意图
  • 优势: 因为空间变小了,而且只关注“意图”,所以计算速度极快。就像在草稿纸上画个圈代表“超车”,比在地图上画出具体的轮胎轨迹要快得多。

第三步:一键生成 (单步去噪)

这是 LAP 最厉害的地方。以前的模型需要像剥洋葱一样,剥 10 层、20 层才能看到结果。

  • LAP 的做法: 因为是在“概念”层面操作,它发现只需要“剥”一层(甚至一步),就能把“超车”这个概念,瞬间还原成完美的、符合物理规律的行车轨迹。
  • 结果: 速度提升了 10 倍!就像你以前需要写 10 遍草稿才能定稿,现在脑子里闪一下,直接就能写出完美的文章。

3. 关键黑科技:如何把“概念”和“现实”对齐?

这里有个大坑:司机的“概念”(我要超车)和现实世界的“地图数据”(车道线、旁边的车)是两种完全不同的语言。如果直接硬拼,容易出错。

  • LAP 的妙招:细粒度特征对齐 (Feature Alignment)
    • 比喻: 想象有一个**“老教练”**(教师模型),他能在复杂的现实路况中看得很准。LAP 在训练时,让“新手司机”(LAP 模型)在思考“概念”时,偷偷看一眼“老教练”是怎么理解现实路况的。
    • 作用: 这就像给新手司机戴上了一副**“透视眼镜”**,让他虽然是在脑子里想“概念”,但能时刻感知到现实中的车道线和障碍物,确保他的“概念”不会变成“撞墙”的幻觉。
    • 注意: 这个“老教练”只在训练时帮忙,真正开车(推理)时,LAP 自己就能搞定,不需要额外算力。

4. 总结:LAP 到底强在哪?

  1. 快如闪电: 以前需要反复计算几十次,现在一步到位。就像从“手工作坊”升级到了“工业流水线”。
  2. 更像人类: 它不再死板地计算坐标,而是理解“意图”。它能像人类一样,在“激进变道”和“保守跟车”之间灵活切换,而不是算出一个不伦不类的中间路线。
  3. 更稳更安全: 通过“老教练”的辅助,它既保留了高层决策的灵活性,又没丢掉对现实路况的精准把控。

一句话总结:
LAP 就像给自动驾驶装了一个**“直觉大脑”**,它不再死磕细节,而是先想清楚“我要干嘛”,然后瞬间把意图变成完美的行动路线,既快又稳,还能像老司机一样灵活应变。