Stateful Token Reduction for Long-Video Hybrid VLMs

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个大问题：当人工智能（AI）看很长的视频时，它为什么会“累”得那么快，以及我们如何让它既看得快、又看得准。

想象一下，你让一个超级聪明的 AI 助手看一部 2 小时的电影，然后问它：“主角最后穿什么颜色的衣服？”

1. 核心难题：信息过载的“图书馆”

现在的 AI 看视频，不是像人眼一样“扫一眼”，而是把视频切成成千上万个微小的“碎片”（论文里叫Token）。

现状：一部长视频可能产生 10,000 多个碎片。AI 的大脑（模型）需要逐个处理这些碎片。
问题：这就像让你在一秒钟内读完 10,000 页的百科全书，然后回答一个问题。这不仅慢，而且容易因为信息太多而“死机”（显存爆炸）或答非所问。

以前的方法是**“粗暴删减”**：在视频刚开始时，就随便扔掉一半的碎片，只留一半。

比喻：这就像在电影刚开始时，就扔掉了前 30 分钟的所有画面，只保留后面的。结果 AI 可能根本不知道剧情是怎么发展的，导致回答错误。

2. 新发现：AI 的“大脑结构”变了

这篇论文研究的是一种新型 AI 架构（混合架构，Hybrid VLM），它把两种不同的“大脑”结合在了一起：

传统 Transformer：像是一个**“瞬间记忆”**，每次只看当前画面，看完就忘，没有长期记忆。
Mamba（状态空间模型）：像是一个**“记事本”**，它能一边看视频，一边在记事本上记笔记，把之前的信息压缩起来，带着继续往后看。

论文的关键发现：

传统 AI：如果你早期扔掉了关键画面，它就永远失去了那部分信息，因为它没有“记事本”来补救。
新型混合 AI：即使你早期扔掉了一些画面，它的“记事本”（Mamba 状态）里已经记录了那些画面的精华摘要。所以，它比传统 AI 更能容忍“删减”。

3. 解决方案：聪明的“渐进式剪辑”

基于这个发现，作者提出了一套**“由少到多，层层递进”**的剪辑策略，而不是“一刀切”。

比喻：像剥洋葱或看侦探小说

想象你在看一部侦探片，寻找线索：

早期（洋葱外层/小说开头）：线索很乱，你不确定哪个画面重要。
- 旧方法：直接扔掉一半。结果可能扔掉了关键线索。
- 新方法：先别扔！ 让 AI 先把所有画面都过一遍，让它的“记事本”把信息记下来。这时候保留大部分画面。
中期（洋葱中层/小说中段）：随着剧情推进，AI 的“记事本”越来越厚，它开始知道哪些画面是废话，哪些是关键。
- 新方法：开始慢慢扔掉那些不重要的画面。
后期（洋葱核心/小说结局）：AI 已经非常清楚重点在哪了。
- 新方法：大胆扔掉剩下的废话，只保留最核心的几个画面。

核心技术点：

统一评分：无论是“瞬间记忆”还是“记事本”，作者都发明了一种方法，让 AI 能根据用户的问题（比如“主角穿什么”）来给每个画面打分。
渐进式删除：不是一开始就删，而是随着 AI 思考的深入，逐步减少画面数量。

4. 效果：快如闪电，准如神探

实验结果非常惊人：

速度：在保留 25% 画面（即删掉 75% 的废话）的情况下，AI 处理长视频的速度提升了 3.8 到 4.2 倍！
准确度：
- 对于传统 AI：删多了，准确率就崩了。
- 对于新型混合 AI：即使删掉 75% 的画面，它的回答准确率几乎和看完整视频一样！甚至经过一点点“复习”（微调训练）后，比看完整视频还准。
长视频能力：以前看 512 帧的视频就会“内存溢出”（死机），现在用这个方法，可以流畅处理更长的视频。

总结

这篇论文就像给 AI 配备了一个**“智能剪辑师”。
以前的剪辑师是“盲目砍掉”，导致故事不完整；
现在的剪辑师是“边看边记，慢慢精简”**。它利用新型 AI 架构的“记事本”能力，在视频刚开始时多保留信息，等 AI 理解了上下文后，再大胆地扔掉冗余信息。

最终结果：AI 看长视频不再需要“死记硬背”每一帧，而是**“抓重点、记摘要”**，既快又准，让长视频理解变得像看短视频一样轻松。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

随着视觉语言模型（VLM）向长视频理解任务发展，处理长视频会产生海量的视觉 Token，导致推理成本极高，尤其是在**预填充（Prefilling）**阶段。

现有方法的局限性：现有的 Token 缩减（剪枝或合并）方法主要基于纯 Transformer 架构设计。它们通常假设 Token 的重要性在深层网络中是稳定的，或者仅在注意力（Attention）层进行缩减。
混合架构的挑战：新兴的混合架构（如 Mamba-Transformer）在层间交替使用注意力块和线性时间状态空间块（State-Space Models, SSM，如 Mamba）。
- 在纯 Transformer 中，Token 剪枝类似于“丢弃（Dropping）”，一旦移除，信息永久丢失。
- 在混合架构中，Mamba 块维护一个循环隐状态（Recurrent Latent State），能够随时间累积信息。这意味着即使移除了某些 Token，其信息仍可能保留在状态中（类似于“压缩”）。
核心痛点：现有的缩减策略未针对混合架构的特性（如状态累积效应、跨层重要性分布变化）进行优化，导致在混合模型上直接应用激进剪枝会破坏性能，或者无法充分利用 Mamba 的压缩潜力。

2. 核心方法论 (Methodology)

作者提出了一种**状态化 Token 缩减（Stateful Token Reduction）**框架，包含三个关键组成部分：

2.1 查询条件化的 Token 重要性评分 (Query-Conditioned Token Importance)

为了在混合架构中统一评估 Token 的重要性，作者提出了一种针对注意力层和 Mamba 层的统一评分机制：

注意力层 (Attention Layers)：使用标准的文本到视觉注意力权重（Text-to-Vision Attention）来计算重要性。
Mamba 层 (State-Space Layers)：由于 Mamba 没有显式的注意力矩阵，作者从选择性扫描（Selective Scan）的展开更新中推导出了隐式注意力代理（Implicit-Attention Proxy）。
- 通过展开 Mamba 的状态更新公式 $S_t = \bar{A}_t S_{t-1} + x_t \bar{b}_t^\top$ ，发现输出可以表示为输入 Token 的加权和。
- 作者定义了一个评分公式 $s_i^{(l, ssm)}$ ，利用 Mamba 中的 $b$ （输入投影，类似 Key）和 $c$ （输出投影，类似 Query）的匹配程度来衡量视觉 Token 与文本查询的相关性，同时忽略衰减项以保留远距离 Token 的潜在贡献。

2.2 稀疏性与重要性稳定性分析 (Sparsity & Stability Analysis)

通过对混合模型（Nemotron-Nano-V2）和纯 Transformer 模型（Qwen3-VL）的深入分析，发现了两个关键特性：

层内稀疏性 (Layerwise Sparsity)：在每一层中，只有少数 Token 承载了大部分查询相关信息（稀疏性高），理论上支持缩减。
跨层稳定性低 (Low Cross-Layer Stability)：
- 发现：在不同层中，重要的 Token 集合会发生显著变化（跨层相关性低）。
- 推论：如果在网络浅层（Early Layers）进行激进的剪枝，由于重要性排名不稳定，可能会错误地丢弃后续层需要的关键信息。
- 架构差异：纯 Transformer 对早期剪枝非常敏感（信息永久丢失）；而混合模型由于 Mamba 的状态累积机制，对早期信息丢失具有更强的鲁棒性（信息被压缩在状态中）。

2.3 渐进式缩减调度 (Progressive Reduction Schedule)

基于上述分析，作者提出了一种**“由低到高”（Low-to-High）**的渐进式缩减策略：

早期层：保留更多 Token（低缩减率），因为此时重要性评分不稳定，且状态累积尚未完成。
深层：随着网络深度增加，状态已累积了足够的信息，且重要性分布趋于稳定，此时进行更激进的 Token 剪枝。
统一执行：该策略同时应用于 Attention 层和 Mamba 层，利用 Mamba 的状态机制来弥补剪枝带来的信息损失。

3. 关键贡献 (Key Contributions)

理论洞察：首次系统分析了混合架构（Mamba-Transformer）中 Token 缩减的行为，揭示了“跨层重要性不稳定性”与"Mamba 状态记忆效应”之间的权衡关系。
统一评分机制：提出了一种针对 Mamba 块的隐式注意力代理方法，使得在非线性状态空间块中也能进行查询条件化的 Token 评分。
渐进式调度策略：设计了适应混合架构深度的渐进式缩减方案，解决了早期剪枝不可靠的问题，实现了全层 Token 缩减。
性能突破：证明了在混合模型上，激进压缩（保留 25% Token）不仅能大幅加速，甚至通过微调能超越未压缩的基线性能。

4. 实验结果 (Results)

实验基于 Nemotron-Nano-V2 VL 12B（混合模型）和 Qwen3-VL 8B（纯 Transformer 模型），在 VideoMME、LongVideoBench 和 LVBench 等长视频基准上进行评估。

推理速度提升：
- 在保留 25% 视觉 Token 的激进压缩设置下，混合模型的预填充（Prefilling）速度提升了 3.8–4.2 倍。
- 端到端延迟显著降低，且随着视频帧数增加，速度优势进一步扩大（解决了长视频 OOM 问题）。
精度表现：
- 测试时缩减 (Test-Time Reduction)：在混合模型上，即使不微调，精度也几乎与基线持平（平均下降 < 0.3%）。
- 训练时缩减 (Train-Time Reduction)：配合轻量级微调，混合模型在保留 25% Token 的情况下，平均精度反而提升了 1.37%（例如 VideoMME 从 69.22 提升至 69.70）。
- 对比纯 Transformer：纯 Transformer 模型在同等激进压缩下精度大幅下降（平均下降 3-4 分），证明了混合架构对 Token 缩减的优越适应性。
消融实验：
- 证明了“渐进式”调度优于“早期一次性”剪枝。
- 证明了在 Mamba 层使用隐式注意力评分优于简单的平均池化（Average Pooling）。

5. 意义与影响 (Significance)

架构感知优化：该工作打破了 Token 缩减仅适用于 Transformer 的局限，为新兴的混合架构（Hybrid Architectures）提供了专门的优化范式。
长视频理解的实际落地：通过大幅降低显存占用和推理延迟，使得在消费级或单卡 GPU 上处理超长视频（如 1 小时以上）成为可能。
效率与性能的双赢：挑战了传统的“速度 - 精度”权衡（Speed-Accuracy Trade-off），证明了在混合模型中，合理的 Token 缩减不仅能加速，还能通过状态压缩机制提升模型对长上下文的理解能力。

总结：这篇论文通过深入分析混合架构的内在机制，提出了一种利用 Mamba 状态记忆特性来补偿 Token 剪枝损失的策略，实现了长视频 VLM 的高效推理，是混合模型领域在效率优化方面的重要进展。