DriveMamba: Task-Centric Scalable State Space Model for Efficient End-to-End Autonomous Driving

本文提出了 DriveMamba,一种基于任务中心可扩展状态空间模型(Mamba)的单阶段端到端自动驾驶框架,它通过线性复杂度的序列建模和双向轨迹引导扫描机制,有效解决了现有 Transformer 方法在信息损失、累积误差及计算效率方面的局限,并在 nuScenes 和 Bench2Drive 数据集上展现了优越的性能与泛化能力。

Haisheng Su, Wei Wu, Feixiang Song, Junjie Zhang, Zhenjie Yang, Junchi Yan

发布于 2026-02-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DriveMamba 的新系统,它是为了让自动驾驶汽车变得更聪明、更快速、更省电而设计的。

想象一下,以前的自动驾驶系统像是一个分工明确的流水线工厂,而 DriveMamba 则像是一个全能的超级大脑

下面我用几个生活中的比喻来给你讲讲它是怎么工作的,以及它为什么厉害。

1. 以前的痛点:流水线工厂的“传话游戏”

以前的自动驾驶系统(比如 UniAD)通常是这样工作的:

  • 第一步(感知): 先让一个专门的“眼睛”看路,把看到的画成一张详细的地图(这叫 BEV 特征)。
  • 第二步(预测): 把地图交给“预测员”,让他猜别的车会怎么动。
  • 第三步(规划): 最后交给“司机”,让他决定怎么开。

问题出在哪?
这就像玩“传话游戏”。信息从“眼睛”传到“预测员”再传到“司机”,每传一次,信息就会丢失一点,或者被误解一点(累积误差)。而且,如果“眼睛”看错了,后面全错。更糟糕的是,这种流水线太慢了,因为每个环节都要把数据整理得整整齐齐(生成密集的地图),非常消耗电脑算力,就像为了送一杯水,非要先把水倒进一个巨大的游泳池里再舀出来一样。

2. DriveMamba 的解决方案:全能超级大脑

DriveMamba 打破了这种流水线,它把“看”、“猜”、“开”全部整合进了一个统一的超级大脑里。

核心魔法一:把“大海”变成“珍珠” (稀疏表示)

以前的系统喜欢把整个视野里的所有像素都处理一遍,就像在沙滩上把每一粒沙子都捡起来数一遍,太累了。
DriveMamba 很聪明,它只捡重要的珍珠(比如:前面的车、路边的线、自己车的轨迹)。它把图像直接变成一个个“任务令牌”(Token),只关注关键信息。

  • 比喻: 就像你找东西,以前是把整个房间翻个底朝天;现在你只盯着手里那张“寻宝图”,直接去拿宝藏,速度快多了。

核心魔法二:Mamba 引擎 (线性复杂度)

这是论文最牛的地方。以前的系统用的是 Transformer(像 Transformer 模型),处理长序列信息时,计算量是平方级增长的(数据多一倍,计算量翻四倍)。这就像你每多认识一个人,就要和所有认识的人重新握手一次,人多了就累瘫了。
DriveMamba 用的是 Mamba(一种新的状态空间模型)。

  • 比喻: Mamba 就像是一个高效的记忆管家。它不需要每次都重新和所有人握手,而是把重要的信息记在脑子里,随着新信息的到来,只更新最关键的部分。它的计算量是线性的(数据多一倍,计算量只多一倍)。
  • 结果: 处理同样的路况,DriveMamba 比以前的系统快 3.2 倍,而且省了 68.8% 的内存。

核心魔法三:双向扫描与“轨迹引导” (怎么读信息)

Mamba 原本是用来处理文字(一维)的,怎么用来处理图像(二维)和自动驾驶(三维 + 时间)呢?
作者设计了一种混合扫描法

  1. 局部到全局 (Local-to-Global): 就像开车时,你首先关注车头正前方的路(局部),然后慢慢把视线扩展到整个路口(全局)。
  2. 轨迹引导 (Trajectory-Guided): 系统会根据你打算怎么开(比如要变道还是直行),动态调整它“看”的顺序。
  • 比喻: 以前的系统是死板地按顺序读报纸(从头读到尾);DriveMamba 是根据你要找什么新闻,直接跳到那一版去读。如果你要变道,它就优先扫描旁边的车道,而不是死板地扫描整个天空。

3. 它有多强?(实验结果)

作者在两个著名的自动驾驶测试场(nuScenes 和 Bench2Drive)上做了测试:

  • 更稳: 撞车率极低(在 Bench2Drive 上只有 0.13% 的碰撞率)。
  • 更准: 规划路线非常平滑,像老司机一样。
  • 更快: 即使是小版本的 DriveMamba,也能达到 17.9 FPS(每秒处理 17.9 帧),这意味着它反应极快,能在普通的车载芯片上流畅运行。
  • 更省: 它的“小身材”(Tiny 版本)性能甚至超过了别人巨大的“大模型”(Large 版本)。

总结

DriveMamba 就像是给自动驾驶汽车换装了一个既聪明又省油的“新引擎”
它不再笨拙地把所有数据都过一遍,而是学会了抓重点(稀疏表示),用高效的方法(Mamba)处理信息,并且懂得根据驾驶意图(轨迹引导)来调整注意力。

这让自动驾驶不仅开得更安全、更流畅,而且让原本需要昂贵超级计算机才能跑动的系统,现在也能在普通的汽车芯片上跑得飞快。这对于未来让自动驾驶汽车真正走进千家万户,是一个巨大的进步。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →