Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

该论文针对自动驾驶 VLA 模型中因模仿学习导致探索不足的问题,提出了名为 Curious-VLA 的两阶段框架,通过可行轨迹扩展策略和自适应多样性采样等创新方法有效平衡了利用与探索,从而在 Navsim 基准测试中取得了当前最优的性能表现。

Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文解决了一个自动驾驶领域非常核心但容易被忽视的问题:“自动驾驶 AI 太‘听话’,反而不会开车了”

为了让你轻松理解,我们可以把自动驾驶模型想象成一个正在考驾照的“超级学霸”学生,而这篇论文就是他的特训教练

1. 核心问题:为什么“学霸”也会翻车?(Narrow Policy / 狭隘策略)

现在的自动驾驶 AI(VLA 模型)通常分两步学习:

  1. 模仿学习(IL):像学生看教科书一样,死记硬背人类司机的操作(比如:看到红灯就停,看到弯道就减速)。
  2. 强化学习(RL):像学生上路实习,通过试错来优化自己的驾驶技术。

问题出在哪?
在“模仿学习”阶段,AI 太依赖那本“标准答案”(人类司机的轨迹)了。

  • 比喻:这就好比一个学生,老师只教他“遇到红灯必须停在斑马线前 1 米处”。他背得滚瓜烂熟,但一旦遇到红灯坏了、或者前面有障碍物需要稍微绕一下,他就懵了。
  • 后果:因为只学过这一种“标准答案”,AI 在后续“上路实习”(强化学习)时,不敢尝试其他路线。它以为只有那一条路是对的,导致它的思维非常狭隘(Narrow Policy)。
  • 灾难:当它真的遇到复杂路况(比如有人突然变道),它要么死板地撞上去,要么因为不敢变道而卡死。它失去了探索新解决方案的能力。

2. 解决方案:Curious-VLA(好奇的自动驾驶)

作者提出了一个叫 Curious-VLA 的新框架,专门治这个“死板病”。它的核心思想是:不仅要学标准答案,还要学会“发散思维”

第一阶段:模仿学习时的“脑洞大开” (Feasible Trajectory Expansion)

  • 传统做法:只给 AI 看人类司机开的那一条线。
  • Curious-VLA 的做法
    • 制造“平行宇宙”:AI 不仅看人类怎么开,教练还故意给它生成10 种不同的合法开法
      • 比喻:面对一个路口,人类司机可能走中间。教练就告诉 AI:“你看,走左边也是合法的,走右边也是合法的,甚至稍微慢一点也是合法的。”
    • 标准化训练:把这些不同的路都整理好,让 AI 明白:原来开车不止一种姿势!
    • 效果:AI 的脑子里不再只有一条死胡同,而是一张四通八达的地图

第二阶段:强化学习时的“优中选优” (Adaptive Diversity-Aware Sampling & Spanning Driving Reward)

  • 传统做法:AI 上路实习时,如果它开得太稳(大家都一样),或者开得太乱(全是错的),教练就不知道该怎么教了。
  • Curious-VLA 的做法
    • 只挑“有挑战”的题:教练会专门挑那些AI 容易犹豫、或者有多种解法的场景让它练。如果 AI 每次开出来的路线都一模一样,教练就把它“拉黑”,不练这种题了(因为练了也没用)。
    • 放大奖励差异:给 AI 打分时,不仅看“没撞车”,还要看“开得漂不漂亮”。
      • 比喻:以前只要不撞车就得 60 分。现在,如果你能优雅地绕过障碍物,直接给 95 分;如果你只是勉强没撞车,只给 60 分。这样 AI 就会为了拿高分,主动去探索更优、更灵活的驾驶方式。

3. 最终成果:从“书呆子”变“老司机”

经过这套特训,Curious-VLA 在测试中表现惊人:

  • 多样性:它能开出多种不同的路线,不再死板。
  • 安全性:虽然路线多,但每一条都是安全的。
  • 成绩:在著名的 Navsim 自动驾驶测试中,它拿到了**世界第一(SOTA)**的成绩。

总结

这篇论文告诉我们一个深刻的道理:在自动驾驶里,太“听话”(只模仿人类)反而是一种限制。

真正的智能,不是死记硬背标准答案,而是像好奇的探险家一样,在规则允许的范围内,大胆尝试各种可能性,从而在遇到突发状况时,能灵活地找到最佳解决方案。

一句话概括
以前的 AI 是只会背书的优等生,遇到新题就挂科;现在的 Curious-VLA 是懂得变通的老司机,路再难也能开出花来。