ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving

本文提出了 ColaVLA 框架,通过构建认知潜在推理器将文本推理压缩至统一潜在空间,并结合分层并行轨迹解码器,在保留大语言模型泛化与可解释性优势的同时,有效解决了现有视觉 - 语言规划器在连续控制匹配、推理延迟及实时性方面的挑战,在 nuScenes 基准测试中实现了最先进的开环与闭环性能。

Qihang Peng, Xuesong Chen, Chenye Yang, Shaoshuai Shi, Hongsheng Li

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 ColaVLA 的新系统,它的目标是让自动驾驶汽车开得更聪明、更安全,而且反应更快。

为了让你更容易理解,我们可以把现在的自动驾驶技术比作**“开车”,而 ColaVLA 则像是一位“超级老司机”**。

1. 以前的自动驾驶:像是一个“啰嗦的实习生”

以前的自动驾驶系统(特别是那些结合了大语言模型的)虽然很聪明,能看懂路牌、理解交通规则,但它们有一个大毛病:太爱“碎碎念”了

  • 场景:想象一个实习生司机,看到前面有个人,他必须先在大脑里写一段文字:“前面有人,我要减速,然后向左打方向盘……"
  • 问题
    1. :他必须一个字一个字地写(这叫“自回归生成”),写完这句话才能做下一个动作。这就像开车时,每走一步都要停下来写日记,等写完了再走,当然会迟到。
    2. 不匹配:文字是离散的(一个个字),但开车是连续的(方向盘转多少度、踩多深油门)。把“文字”强行变成“动作”,就像试图用乐高积木去拼出一张光滑的照片,总会有棱角,不够顺滑。

2. ColaVLA 的解决方案:像是一位“直觉流大师”

ColaVLA 抛弃了“写日记”的模式,它把思考过程直接转化为了**“潜意识的直觉”**。

核心创新一:认知潜空间推理(Cognitive Latent Reasoning)

  • 比喻:想象这位“超级老司机”不需要把想法变成文字。当他看到路况时,大脑里直接浮现出一种**“感觉”“意图”**(比如“这里很危险,要急刹”)。
  • 怎么做
    1. 快速扫描:它先看一眼周围(理解场景)。
    2. 自动过滤:它像戴了“智能墨镜”,自动忽略路边无关的树和广告牌,只盯着关键信息(比如前面的行人、红绿灯)。
    3. 直觉决策:它不需要写出来,直接在“潜空间”(一种压缩的、高密度的数据空间)里把复杂的场景压缩成一个**“核心指令包”**。
  • 好处:省去了“打字”的时间,反应速度极快,而且这个指令包直接就是为控制汽车设计的,没有“文字转动作”的误差。

核心创新二:分层并行规划(Hierarchical Parallel Planner)

  • 比喻:以前的规划是“先想大方向,再想细节,一步步来”。ColaVLA 则是**“一眼看穿全局”**。
  • 怎么做
    • 它像是一个**“多面手”,在一次**思考中,同时规划出:
      • 粗线条:未来 3 秒大概往哪走(大方向)。
      • 细线条:未来 1 秒的具体轨迹(微调)。
      • 多种可能:如果左边堵了怎么办?如果右边有人怎么办?它同时算好几条路。
    • 它使用一种特殊的“因果面具”,确保它不会“穿越时空”(比如不能先知道下一秒的情况再决定这一秒的动作),保证逻辑严密。
  • 好处:以前需要算好几次的步骤,现在一次算完。既快又稳,而且能同时应对多种突发情况。

3. 它厉害在哪里?(实验结果)

研究人员在著名的 nuScenes 自动驾驶数据集上测试了 ColaVLA:

  • 开得准:它的轨迹预测误差非常小,几乎完美贴合真实路况。
  • 开得稳:在模拟的复杂城市路况中(闭环测试),它的碰撞率极低,比之前的顶尖模型安全得多。
  • 反应快:它的推理速度比那些“爱碎碎念”的文字模型快了 5 倍以上。这意味着在高速公路上遇到紧急情况,它能比对手更快做出反应。

总结

ColaVLA 就像是给自动驾驶汽车装上了一个**“直觉大脑”**。

它不再通过“写文章”来思考,而是直接通过**“感觉”(潜空间推理)来理解世界,并像“全能教练”**一样,一次性规划出从宏观到微观的所有驾驶动作。这让自动驾驶既拥有了大模型的聪明(懂规则、会推理),又拥有了传统控制系统的速度和精准(反应快、不卡顿)。

简单来说:以前是“想好了再动”,现在是“边想边动,且一次想透”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →