EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

本文提出了 EvoDriveVLA,一种通过自锚点感知蒸馏和神谕引导轨迹蒸馏实现感知与规划协同优化的新型视觉 - 语言 - 动作模型,有效解决了自动驾驶中视觉编码器解冻后的感知退化及长期规划累积不稳定问题,并在开环和闭环评估中取得了最先进性能。

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang Zhang

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 EvoDriveVLA 的新系统,它的目标是让自动驾驶汽车变得更聪明、更安全。

为了让你更容易理解,我们可以把自动驾驶系统想象成一个正在学开车的“新手司机”

🚗 核心问题:新手司机遇到了什么麻烦?

目前的自动驾驶 AI(也就是这个“新手司机”)虽然很厉害,能看懂路牌、听懂指令,但在实际训练中存在两个大毛病:

  1. “忘本”了(视觉退化): 为了让它更适应复杂的驾驶场景,我们通常会重新训练它的“眼睛”(视觉编码器)。但这就像让一个经验丰富的老画家突然去学画抽象派,结果他反而忘了怎么画好基础的线条,看东西变得模糊了。
  2. “想太远”容易晕(规划不稳定): 当它尝试预测未来几秒甚至更久的路线时,容易因为一点点小错误,导致后面的路线越算越偏,最后开进沟里。

💡 解决方案:EvoDriveVLA 的“师徒特训”

为了解决这些问题,作者设计了一套**“双管齐下”的师徒特训法**,就像给新手司机配了一位超级教练

1. 视觉特训:给眼睛加个“定海神针” (Self-Anchored Visual Distillation)

  • 比喻: 想象新手司机的眼睛在重新学习时容易“走火入魔”。为了防止它忘记原本学会的识别能力,教练(Self-Anchor Teacher)手里拿着一张**“标准参考图”**。
  • 怎么做: 在训练过程中,教练会时刻提醒新手:“你看,这个红绿灯的位置、这条线的形状,应该保持我原本教你的样子,不要乱改。”
  • 效果: 这样既能让新手学会适应新路况,又不会让它丢掉原本识别物体的基本功。这就叫**“自我锚定”**,就像在狂风中给船抛下一个锚,稳住船身。

2. 路线特训:请一位“全知全能的预言家” (Oracle-Guided Trajectory Distillation)

  • 比喻: 普通教练只能看眼前,但这位“预言家教练”(Oracle Teacher)拥有**“上帝视角”。它不仅能看到现在的路,还能提前看到未来几秒会发生什么**(比如前方马上要变红灯,或者旁边有车要变道)。
  • 怎么做:
    • 粗调 + 精调 (Coarse-to-Fine): 预言家先画一个大概的路线(粗),然后像修图一样,把路线修得平滑、完美(精)。
    • 蒙眼试错 (MC-Dropout): 为了不让新手只死记硬背一条路,预言家会故意“蒙上眼睛”(随机屏蔽一部分信息),试画出 10 条不同的路线,然后从中挑出最完美、最安全的那一条教给新手。
  • 效果: 新手司机学到的不是死板的路线,而是**“在各种突发情况下,如何选出最佳路线”的直觉**。

🏆 最终成果:青出于蓝而胜于蓝

通过这种“稳住视觉” + “全知规划”的联合特训,EvoDriveVLA 取得了惊人的成绩:

  • 在模拟考试(Open-loop)中: 它的表现超过了所有现有的顶尖方法,误差更小,撞车率更低。
  • 在真实路考(Closed-loop)中: 即使是只有 30 亿参数的小模型(相当于一个普通大学生),经过特训后,表现竟然超过了那些拥有 80 亿参数的大模型(相当于博士)。

📝 一句话总结

EvoDriveVLA 就像给自动驾驶新手请了一位“既懂基础又预知未来”的超级教练,通过“稳住基本功”和“模拟完美路线”的双重训练,让小车开得既稳又准,甚至能打败那些更笨重的大模型。