SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

本文提出了 SToRM 框架,通过重要性预测、辅助路径监督训练及锚点 - 上下文合并模块,在显著降低多模态大模型计算成本的同时,实现了端到端自动驾驶任务中视觉 Token 的高效缩减且保持全 Token 性能。

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 SToRM(监督令牌缩减)的新方法,旨在让自动驾驶汽车变得更聪明、更快速,同时又不需要昂贵的超级计算机。

为了让你轻松理解,我们可以把自动驾驶系统想象成一位正在开车的“超级司机”,而这篇论文就是给这位司机配了一位**“高效副驾驶”**。

1. 背景:为什么需要“副驾驶”?

现在的自动驾驶(端到端系统)就像一位司机,直接看着摄像头拍到的画面(传感器数据),然后决定怎么打方向盘、踩油门。

  • 痛点:为了更安全,科学家给这位司机加上了一个**“多模态大语言模型(MLLM)”。这就像给司机配了一个博学的“导航员”**,不仅能看懂路,还能听懂人话(比如乘客说:“前面有行人,慢点”)。
  • 问题:这个“导航员”非常聪明,但也非常**“贪吃”**。它需要处理海量的视觉信息(比如把每一帧画面切成几百个小块,每个块都是一个“令牌”)。
    • 想象一下,司机每秒钟要处理几千个“视觉碎片”。
    • 大语言模型处理这些信息时,就像要在一个巨大的图书馆里找书,信息越多,找书的时间就越长(计算量呈平方级增长)。
    • 后果:车还没反应过来,可能已经撞上了。现有的方法为了提速,会直接扔掉一部分“视觉碎片”,但这就像司机闭上一只眼睛开车,虽然快了,但容易出事故。

2. 核心方案:SToRM 是怎么工作的?

SToRM 就像给这位“导航员”配了一位**“精明的图书管理员”**,它的工作流程分为三步:

第一步:给“导航员”当“影子教练”(伪监督信号)

  • 传统做法:以前的方法靠“猜”哪些信息重要(比如看哪个画面块长得像车)。这就像盲人摸象,容易出错。
  • SToRM 的做法
    1. 先让“导航员”在训练时全神贯注地看完所有信息(不删减),看看它最后把注意力集中在哪里。
    2. 记录下这些“注意力分数”,这就好比**“影子教练”**在背后给“图书管理员”打分:“看,刚才那个行人,导航员看得最仔细,所以这个信息最重要!”
    3. 用这些分数来训练“图书管理员”,让它学会**“看人下菜碟”**。

第二步:轻量级“侦察兵”(重要性预测器)

  • 训练好的“图书管理员”非常轻便(轻量级模型)。
  • 它不像以前的模型那样要通读整本书(所有历史画面),而是像**“滑动的放大镜”**一样,只关注最近几秒内的画面变化。
  • 它能迅速判断出:哪些是**“关键人物”(比如行人、红绿灯、前车),哪些是“背景路人”**(比如路边的树、天空的云)。

第三步:智能“合并同类项”(锚点 - 上下文合并模块)

这是最精彩的一步。SToRM 把视觉信息分成两类:

  • 锚点(Anchors):那些“关键人物”(高重要性)。
  • 上下文(Context):那些“背景路人”(低重要性)。

SToRM 的魔法在于“合并”:
它不会直接把“背景路人”扔掉(那样会丢失信息),而是把它们**“打包”**,合并到最近的“关键人物”身上。

  • 比喻:想象你在整理行李。
    • 旧方法:为了省空间,直接把衣服(背景)扔了,只带鞋子(关键信息)。结果你到了目的地没衣服穿。
    • SToRM 方法:把衣服(背景)折叠好,塞进鞋盒(关键信息)里。你只带了一个鞋盒,但里面既有鞋子也有衣服。
    • 效果:行李(数据量)大大减少了,但内容(关键信息)一点没丢。

3. 成果:快如闪电,稳如泰山

通过这种方法,SToRM 取得了惊人的效果:

  • 速度提升:计算量减少了 30 倍!这意味着原本需要超级计算机才能跑动的模型,现在在普通的显卡上也能实时运行(每秒处理 25 帧以上),就像给车装上了涡轮增压。
  • 性能不减:虽然处理的数据变少了,但司机的驾驶水平(安全性、通过率)和“全量数据”版本一模一样,甚至更好。
  • 省钱:不需要昂贵的硬件,普通的车载电脑就能跑。

总结

SToRM 就像是一个**“懂取舍的超级管家”**。它不再让自动驾驶系统“眉毛胡子一把抓”,而是教会系统:

  1. 谁最重要?(通过影子教练学习)
  2. 怎么高效处理?(只关注最近的变化)
  3. 怎么节省空间?(把次要信息打包进重要信息里)

最终,它让自动驾驶汽车在保持**“眼观六路、耳听八方”的同时,拥有了“反应神速”**的大脑,让真正的自动驾驶早日走进我们的生活。