Sparsity Forcing: Reinforcing Token Sparsity of MLLMs

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为**“强制稀疏化”（Sparsity Forcing）的新方法，旨在让多模态大语言模型（MLLMs，即能看懂图、视频并回答问题的 AI）变得更快、更省内存**，同时不牺牲智商。

为了让你轻松理解，我们可以把整个 AI 模型想象成一个正在备考的超级学霸，而它处理图片/视频的过程，就是阅读一本厚厚的参考书。

1. 痛点：学霸读得太“啰嗦”了

现在的 AI 模型在处理高清图片或长视频时，就像让学霸去读一本几十万字的书。

现状：为了回答问题，它会把书里的每一个字、每一张图都仔细读一遍，甚至把无关紧要的标点符号也记在脑子里。
后果：这导致它读得太慢（推理延迟高），而且记性负担太重（显存占用大），稍微长一点的视频它就“记不住”了，甚至直接崩溃。
旧方法：以前的方法像是让学霸“凭感觉”跳过一些字。比如：“我觉得第 50 页不重要，跳过”。但这只是利用了它天生的“偷懒”属性，一旦要求它跳过 80% 的内容，它就开始胡言乱语，因为很多看似不起眼的字其实是关键线索。

2. 核心创意：给学霸上“强化训练课”

这篇论文提出的**“强制稀疏化”，不是简单地告诉学霸“少读点”，而是通过一种强化学习（RL）的“特训营”，教它如何聪明地做减法**。

我们可以把这个过程想象成**“极限生存挑战”**：

场景设置：
考官（训练框架）给学霸出了一道题（比如“车里有多少人？”），并设定了一个**“阅读预算”**。
- 第一轮：允许读 90% 的内容。
- 第二轮：只允许读 50% 的内容。
- 第三轮：只允许读 20% 的内容。
训练过程（多轮次试错）：
学霸在每一轮里，都要尝试只读那被允许的一小部分，然后给出答案。
- 如果它读得少（省了时间），而且答对了 $\rightarrow$ 奖励！（奖励它既聪明又高效）。
- 如果它读得少，但答错了 $\rightarrow$ 惩罚！（告诉它：你删掉的内容里有关键信息，下次别删那么狠）。
- 如果它读得多，虽然答对了，但太慢了 $\rightarrow$ 小惩罚（告诉它：下次试着删掉更多废话）。
关键创新：
以前的方法只是让学霸“尽量”删减，而这种方法是通过对比，逼着学霸自己摸索出：“到底哪些字是必须看的？哪些是完全可以扔掉的？” 它不再依赖固定的规则，而是学会了动态判断。

3. 具体怎么做？（技术比喻）

注意力机制 = 聚光灯：
AI 看图片时，有一个“聚光灯”照亮它关注的地方。以前的聚光灯是自动亮的，哪里亮哪里。
现在的“强制稀疏化”是给聚光灯装了个智能开关。在训练时，它不断尝试把聚光灯调暗（只照亮最重要的部分），看看能不能看清答案。
奖励函数 = 考试评分表：
考官的评分表有两个维度：
1. 准确率（答对了吗？）
2. 效率分（你读了多少页？读得越少分越高）
  只有**“答对且读得少”**的组合才能获得最高分。
动态调整：
就像学霸发现“看视频时，前 10 秒很重要，中间 5 分钟全是废话，最后 10 秒又有反转”。训练让模型学会了这种**“分层级、动态”**的删减策略，而不是死板地删掉固定比例。

4. 成果：发生了什么变化？

经过这种“特训”后，AI 发生了惊人的变化：

阅读速度暴增：它现在只需要看原来25% 甚至更少的内容，就能做出和原来一样准确的判断。
- 比喻：以前读一本 1000 页的书要 1 小时，现在只读 250 页，10 分钟就搞定，而且答案一模一样。
内存占用大减：因为它不需要把整本书都记在脑子里，显存占用减少了 3 倍。
- 比喻：以前需要一个大仓库来存资料，现在一个小抽屉就够了。
长视频也能扛：以前看长视频会“断片”，现在能流畅处理长达数小时的视频内容。

5. 总结

这篇论文的核心思想就是：不要指望 AI 天生就会偷懒，我们要通过“奖励机制”教会它如何“聪明地偷懒”。

通过这种**“强制稀疏化”的训练，我们让 AI 学会了“抓重点”。它不再是一个只会死记硬背的机器，而变成了一个懂得在有限资源下，精准提取关键信息的高效专家**。这让 AI 在普通电脑甚至手机上运行长视频分析、高清图像理解成为了可能。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心痛点：
多模态大语言模型（MLLMs）在处理高分辨率图像或长视频时，视觉编码器会产生海量的视觉 Token，导致计算开销巨大、显存占用高且推理延迟长。

现有方法的局限性：

被动利用稀疏性： 现有的稀疏注意力机制（如 FastV, ZipVL 等）主要利用模型固有的稀疏性来剪枝冗余 Token。这类方法通常在中等预算下（约 50% Token 保留率）有效，但难以进一步将预算降低到极低水平（如 20% 或 10%），否则会导致精度显著下降。
刚性模式与代理目标：
- 基于可训练稀疏注意力的方法（如 MOBA, NSA）通常预设固定的稀疏模式，忽略了输入、层级和训练阶段的动态变化，且往往需要从头训练，难以在预训练模型上进行微调。
- 基于正则化的方法（如锐化注意力损失）优化的是代理目标（如注意力分布的尖锐度），并不能直接控制 Token 预算，且往往无法转化为端到端的 Token 节省。
训练与推理不一致： 大多数现有方法在监督微调（SFT）阶段使用 Teacher Forcing（基于 Ground Truth），而推理阶段是基于生成 Token 的，这种不匹配限制了实际部署时的效率提升。

目标：
在保持模型精度几乎不下降的前提下，主动地、端到端地强化 MLLM 的 Token 稀疏性，实现极低的 Token 预算（高压缩比）和显著的推理加速。

2. 方法论 (Methodology)

作者提出了一种名为 Sparsity Forcing 的基于强化学习（RL）的微调框架，核心思想是将“效率（Token 减少）”与“性能（答案正确性）”直接转化为联合奖励，通过 组相对策略优化 (GRPO) 进行训练。

2.1 核心架构

策略模型 (Policy Model, $\pi_\theta$ )： 带有稀疏注意力机制（如 ZipVL）的 MLLM。
参考模型 (Reference Model, $\pi_{ref}$ )： 参数冻结、使用标准因果注意力的原始 MLLM（用于限制 KL 散度，防止模型偏离原始能力）。
动态稀疏机制： 采用 Top-p (Nucleus) 稀疏注意力。根据注意力分数的累积分布，动态保留累积分数超过阈值 $p$ 的最小 Token 集合。

2.2 训练流程：多预算 Rollout

对于每一个视觉 - 语言查询 $x$ ：

多轮采样 (Multi-budget Rollouts)： 策略模型进行 $N$ 次独立推理。每次推理使用不同的随机阈值 $p_n \sim U(0, 1)$ ，从而生成不同 Token 预算下的答案 $\{o_1, ..., o_N\}$ 及其对应的 Token 保留率 $\{\tau_1, ..., \tau_N\}$ 。
渐进式测试： 通过改变 $p$ ，动态测试在多少 Token 预算下仍能保持答案正确，从而探索“最小必要预算”。

2.3 奖励函数设计 (Reward Function)

为了平衡效率与准确性，设计了联合奖励 $r_i$ ：

性能奖励 ( $r_{per}$ )： 如果答案正确得 1 分，否则 0 分。
效率奖励 ( $r_{eff}$ )： 定义为 Token 减少率 $(1 - \tau_i)$ 。
关键创新 - 组级指示器： 为了避免在组内所有答案都错误时模型过度追求效率（导致奖励坍缩），引入指示器 $C$ 。只有当组内至少有一个正确答案时，才奖励效率项。
$r_i = r_{per, i} + C \cdot r_{eff, i}$
优势计算 (Advantage)： 在组内对奖励进行归一化。既正确又更高效的 Rollout 获得正优势，效率低或错误的获得负优势。

2.4 优化目标

使用 GRPO 更新策略，目标函数包含：

截断策略梯度： 最大化加权优势。
KL 散度惩罚： 限制策略模型与参考模型的分布差异，确保任务忠实度。

3. 关键贡献 (Key Contributions)

提出 Sparsity Forcing 框架： 首个通过 RL 后训练显式强化 MLLM Token 稀疏性的方法，将效率 - 性能权衡转化为端到端优化目标。
部署对齐的稀疏性： 不需要改变模型架构或从头训练。训练时的 Token 剪枝策略和 KV Cache 管理与推理时完全一致，实现了真正的端到端加速。
动态预算探索： 通过多预算 Rollout 和 GRPO，模型能自适应地学习不同输入和层级下的最小必要 Token 数量，避免了人工设计的固定剪枝模式。
显著的性能提升： 在 13 个图像和视频基准测试中，证明了该方法能在极低 Token 预算下保持高精度。

4. 实验结果 (Results)

实验基于 Qwen2-VL / Qwen2.5-VL 和 LLaVA-Video 系列模型，在 13 个基准（7 个图像，6 个视频）上进行评估。

Token 压缩率突破：
- 将 Qwen2/2.5-VL 的 Token 保留率从现有的约 20%（即 80% 压缩）进一步提升至 75% 的压缩率（即仅保留约 25% 的 Token）。
- 例如，Qwen2.5-VL-7B 在保留率仅为 24.1% 时，平均性能仍达到 73.6（接近全量 Token 的 73.8）。
对比基线：
- 相比训练免费的方法（如 ZipVL, FastV, VisionZip），Sparsity Forcing 在更低的 Token 预算下（~25% vs ~50%）实现了相当甚至更高的精度。
- 相比其他后训练方法（如 MOBA, 锐化损失），在 25% 预算下，Sparsity Forcing 的平均得分（72.8）显著优于 MOBA（66.6）和锐化损失（67.6）。
推理效率提升：
- 显存占用： 长上下文（200k tokens）推理显存减少高达 3 倍。
- 推理速度： 解码速度提升高达 3.3 倍。
鲁棒性： 在 HallusionBench（幻觉检测）上，即使在极低 Token 预算下，模型也未出现明显的幻觉增加，表明关键证据被有效保留。
可扩展性： 随着序列长度增加（从 4k 到 20k），模型能自动进一步降低 Token 保留率，同时保持精度稳定，显示出对长上下文的良好适应性。

5. 意义与总结 (Significance)

Sparsity Forcing 解决了当前 MLLM 稀疏化方法在“低预算”下失效的瓶颈问题。

理论意义： 它证明了通过强化学习将“效率”直接作为优化目标，比传统的代理损失（如注意力锐化）或固定架构修改更有效。
工程价值： 该方法无需修改模型结构，即可在现有强大的 MLLM 上实现显著的推理加速和显存节省，极大地降低了 MLLM 在资源受限设备或长视频处理场景下的部署成本。
未来方向： 为硬件感知（延迟/能耗）、多轮对话及工具调用预算的优化提供了新的范式。

简而言之，该论文通过一种巧妙的“多预算对比学习”策略，教会了模型在“少用 Token"和“答对问题”之间找到最佳平衡点，实现了 MLLM 推理效率的质的飞跃。

Sparsity Forcing: Reinforcing Token Sparsity of MLLMs

1. 痛点：学霸读得太“啰嗦”了

2. 核心创意：给学霸上“强化训练课”

3. 具体怎么做？（技术比喻）

4. 成果：发生了什么变化？

5. 总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 核心架构

2.2 训练流程：多预算 Rollout

2.3 奖励函数设计 (Reward Function)

2.4 优化目标

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与总结 (Significance)

类似论文

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank