Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 SToRM（监督令牌缩减）的新方法，旨在让自动驾驶汽车变得更聪明、更快速，同时又不需要昂贵的超级计算机。

为了让你轻松理解，我们可以把自动驾驶系统想象成一位正在开车的“超级司机”，而这篇论文就是给这位司机配了一位**“高效副驾驶”**。

1. 背景：为什么需要“副驾驶”？

现在的自动驾驶（端到端系统）就像一位司机，直接看着摄像头拍到的画面（传感器数据），然后决定怎么打方向盘、踩油门。

痛点：为了更安全，科学家给这位司机加上了一个**“多模态大语言模型（MLLM）”。这就像给司机配了一个博学的“导航员”**，不仅能看懂路，还能听懂人话（比如乘客说：“前面有行人，慢点”）。
问题：这个“导航员”非常聪明，但也非常**“贪吃”**。它需要处理海量的视觉信息（比如把每一帧画面切成几百个小块，每个块都是一个“令牌”）。
- 想象一下，司机每秒钟要处理几千个“视觉碎片”。
- 大语言模型处理这些信息时，就像要在一个巨大的图书馆里找书，信息越多，找书的时间就越长（计算量呈平方级增长）。
- 后果：车还没反应过来，可能已经撞上了。现有的方法为了提速，会直接扔掉一部分“视觉碎片”，但这就像司机闭上一只眼睛开车，虽然快了，但容易出事故。

2. 核心方案：SToRM 是怎么工作的？

SToRM 就像给这位“导航员”配了一位**“精明的图书管理员”**，它的工作流程分为三步：

第一步：给“导航员”当“影子教练”（伪监督信号）

传统做法：以前的方法靠“猜”哪些信息重要（比如看哪个画面块长得像车）。这就像盲人摸象，容易出错。
SToRM 的做法：
1. 先让“导航员”在训练时全神贯注地看完所有信息（不删减），看看它最后把注意力集中在哪里。
2. 记录下这些“注意力分数”，这就好比**“影子教练”**在背后给“图书管理员”打分：“看，刚才那个行人，导航员看得最仔细，所以这个信息最重要！”
3. 用这些分数来训练“图书管理员”，让它学会**“看人下菜碟”**。

第二步：轻量级“侦察兵”（重要性预测器）

训练好的“图书管理员”非常轻便（轻量级模型）。
它不像以前的模型那样要通读整本书（所有历史画面），而是像**“滑动的放大镜”**一样，只关注最近几秒内的画面变化。
它能迅速判断出：哪些是**“关键人物”（比如行人、红绿灯、前车），哪些是“背景路人”**（比如路边的树、天空的云）。

第三步：智能“合并同类项”（锚点 - 上下文合并模块）

这是最精彩的一步。SToRM 把视觉信息分成两类：

锚点（Anchors）：那些“关键人物”（高重要性）。
上下文（Context）：那些“背景路人”（低重要性）。

SToRM 的魔法在于“合并”：
它不会直接把“背景路人”扔掉（那样会丢失信息），而是把它们**“打包”**，合并到最近的“关键人物”身上。

比喻：想象你在整理行李。
- 旧方法：为了省空间，直接把衣服（背景）扔了，只带鞋子（关键信息）。结果你到了目的地没衣服穿。
- SToRM 方法：把衣服（背景）折叠好，塞进鞋盒（关键信息）里。你只带了一个鞋盒，但里面既有鞋子也有衣服。
- 效果：行李（数据量）大大减少了，但内容（关键信息）一点没丢。

3. 成果：快如闪电，稳如泰山

通过这种方法，SToRM 取得了惊人的效果：

速度提升：计算量减少了 30 倍！这意味着原本需要超级计算机才能跑动的模型，现在在普通的显卡上也能实时运行（每秒处理 25 帧以上），就像给车装上了涡轮增压。
性能不减：虽然处理的数据变少了，但司机的驾驶水平（安全性、通过率）和“全量数据”版本一模一样，甚至更好。
省钱：不需要昂贵的硬件，普通的车载电脑就能跑。

总结

SToRM 就像是一个**“懂取舍的超级管家”**。它不再让自动驾驶系统“眉毛胡子一把抓”，而是教会系统：

谁最重要？（通过影子教练学习）
怎么高效处理？（只关注最近的变化）
怎么节省空间？（把次要信息打包进重要信息里）

最终，它让自动驾驶汽车在保持**“眼观六路、耳听八方”的同时，拥有了“反应神速”**的大脑，让真正的自动驾驶早日走进我们的生活。

Each language version is independently generated for its own context, not a direct translation.

SToRM：面向多模态大语言模型的高效监督式 Token 缩减框架（技术总结）

1. 研究背景与问题 (Problem)

背景：
端到端（End-to-End, E2E）自动驾驶系统通过直接从传感器数据预测控制指令，取得了显著进展。为了应对意外场景并提高安全性，引入人类自然语言指令（如驾驶员干预）与多模态大语言模型（MLLM）相结合成为趋势。MLLM 能够整合视觉、文本等多模态信息，增强系统的推理能力。

核心挑战：
尽管 MLLM 潜力巨大，但将其应用于自动驾驶面临严重的计算资源瓶颈：

Token 数量庞大：传感器输入（如多帧视频、激光雷达点云）经过视觉编码器后会产生海量的视觉 Token。
计算复杂度：LLM 的注意力机制计算复杂度随输入长度呈二次方增长。处理大量视觉 Token 会导致推理速度大幅下降，难以满足自动驾驶对实时性（Real-time）的严苛要求。
现有方法的局限性：现有的 Token 缩减方法（如 Q-Former、Token Dropping 等）通常基于启发式规则（如相似度、分类 Token 注意力），缺乏任务特定的监督信号，往往在降低计算成本的同时导致 E2E 驾驶性能显著下降。

目标：
在保持与使用全量 Token 相当的驾驶性能前提下，大幅降低计算成本，实现资源受限车辆上的实时 E2E 自动驾驶。

2. 方法论 (Methodology)

论文提出了 SToRM (Supervised Token Reduction for Multi-modal LLMs)，这是首个针对 E2E 自动驾驶 MLLM 的监督式 Token 缩减框架。其核心思想是利用 MLLM 中间层的注意力分数作为“伪监督信号”（Pseudo-supervision signals），指导视觉 Token 的重要性预测与缩减。

SToRM 框架包含三个关键组件：

2.1 轻量级重要性预测器 (Lightweight Importance Predictor)

功能：预测每个视觉 Token 的重要性分数，计算开销极低。
架构创新：
- 基于 MLP-Mixer 架构，而非传统的 Transformer。
- 短时空滑动窗口机制 (Short-term Spatio-temporal Sliding Windows)：不处理整个序列，而是利用滑动窗口捕捉局部时空关系。这避免了全序列处理的二次方复杂度，显著降低了显存和计算量。
- 通道混合 (Channel Mixing)：在 Token 内部建模跨通道依赖关系，丰富特征表示。
优势：相比全序列处理，计算复杂度从 $O((TN)^2)$ 降低到与窗口大小相关的线性复杂度，同时保留了关键的时空上下文。

2.2 锚点 - 上下文 Token 合并模块 (Anchor-Context Merging, ACM)

功能：根据预测的重要性分数，将 Token 分为“锚点 (Anchors)"和“上下文 (Context)"，并合并后者以减少冗余。
工作流程：
1. 分类：根据重要性分数，将每帧中 Top-K 的 Token 选为“锚点”（关键视觉证据，如行人、车道线），其余为“上下文”（背景、纹理等）。
2. 合并：利用交叉注意力机制，将每个“上下文”Token 分配给最相关的“锚点”Token。
3. 硬分配 (Hard Assignment)：采用 Gumbel-Softmax 和 直通估计 (Straight-Through Estimation, STE) 技术，实现可微分的硬分配（即每个上下文 Token 仅合并到一个锚点），避免软合并带来的信息平滑（Over-smoothing）问题。
结果：在保留关键信息的同时，大幅减少输入 LLM 的 Token 数量。

2.3 辅助训练路径 (Auxiliary Path for Training)

机制：为了训练重要性预测器，设计了一条不使用 Token 缩减的辅助路径。
伪监督信号：将全量 Token 输入冻结的 LLM，提取最后一层解码器的注意力分数 (Attention Scores)。
训练目标：假设 LLM 中接收高注意力的 Token 对任务更重要。利用这些注意力分数的均值作为“伪重要性分数”，通过 $L_{score}$ 损失函数监督轻量级预测器的训练。
端到端训练：结合路径预测损失 ( $L_{wp}$ ) 和分数预测损失 ( $L_{score}$ )，实现整个系统的端到端优化。

3. 主要贡献 (Key Contributions)

首个监督式 Token 缩减框架：提出了 SToRM，利用 MLLM 内部的注意力机制作为伪监督信号，解决了无监督缩减方法在特定任务（自动驾驶）上性能下降的问题。
高效的轻量级预测器：设计了基于滑动窗口的 MLP-Mixer 架构，专门捕捉短时空依赖，避免了长序列处理的计算瓶颈。
创新的合并策略：提出了 ACM 模块，通过“硬分配”机制将非关键 Token 合并到关键锚点，在减少 Token 数量的同时最小化信息损失。
性能与效率的双重突破：在 LangAuto 基准测试中，SToRM 在大幅降低计算成本的同时，保持了与全量 Token 模型相当甚至更优的驾驶性能。

4. 实验结果 (Experimental Results)

实验基于 LangAuto 基准数据集（包含多种驾驶场景和自然语言指令），对比了 SToRM 与 SOTA 方法（如 LMDrive, Q-Former, ToMe 等）。

驾驶性能 (Driving Performance)：
- 在 LangAuto-Long 数据集上，使用 7B 参数量的 LLaVA 模型时，SToRM 的驾驶分数 (DS) 达到 44.2，与使用全量 3000 个 Token 的 LMDrive (44.0) 持平，且显著优于使用 120 个 Token 的 SOTA LMDrive (36.2)。
- 在 1.5B 参数量的 TinyLLaVA 模型上，SToRM (DS=40.8) 同样远超 SOTA LMDrive (DS=30.9)。
- 在 LangAuto-Short 和 Tiny 数据集上，SToRM 在所有指标（DS, RC, IS）上均优于所有对比的 Token 缩减方法。
计算效率 (Inference Efficiency)：
- 计算量 (FLOPs)：相比全量 Token 模型，SToRM 减少了约 30 倍 (7B 模型) 和 16.6 倍 (1.5B 模型) 的计算量。
- 推理速度 (FPS)：在单张 NVIDIA RTX 4090 GPU 上，SToRM 实现了 25-36 FPS 的实时推理，而全量 Token 模型仅为 4-6 FPS。
- 显存占用：显著降低，使得在标准消费级 GPU 上运行 E2E 自动驾驶成为可能。
消融实验：
- 证明了滑动窗口机制在保持性能的同时大幅降低了计算量。
- 证明了“硬合并”策略优于“软合并”和仅保留 Top-K 的策略。

5. 意义与影响 (Significance)

推动 MLLM 在自动驾驶的落地：SToRM 解决了 MLLM 在自动驾驶中“计算太重、无法实时”的核心痛点，使得在资源受限的车载设备上部署复杂的语言 - 视觉联合推理模型成为可能。
提升安全性与泛化性：通过保留关键视觉信息并有效利用语言指令，SToRM 在意外场景下的表现优于传统方法，提升了自动驾驶系统的安全性和鲁棒性。
方法论的通用性：提出的“利用中间层注意力作为伪监督信号”以及“滑动窗口 MLP-Mixer"设计思路，不仅适用于自动驾驶，也为其他需要处理长序列多模态数据的实时应用（如机器人控制、视频监控）提供了新的技术范式。
实时性突破：实现了在标准 GPU 上的实时 E2E 驾驶，为未来 L4/L5 级自动驾驶系统的商业化部署扫清了硬件算力障碍。

总结：SToRM 通过创新的监督式 Token 缩减策略，成功在“性能”与“效率”之间找到了最佳平衡点，是迈向高效、安全、可解释的自动驾驶大模型系统的重要一步。

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving