HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 HiDrop 的新方法，旨在让“多模态大语言模型”（MLLMs，即能同时看懂图片和文字的人工智能）变得更聪明、更快速、更省钱。

为了让你轻松理解，我们可以把训练和使用这些 AI 模型的过程，想象成组织一场大型的国际会议。

1. 核心问题：会议太拥挤，效率太低

现在的 AI 模型在看一张图片时，会把图片切成很多小块（比如 576 块），每一块都变成一个“代表”（Token）进入会议室。

现状：图片代表太多，文字代表太少。会议室（计算资源）是按人头收费的，人越多，开会时间越长，电费（算力成本）越贵。
旧方法：以前的做法是“一刀切”。比如规定：“前 10 分钟大家必须都在，10 分钟后每 5 分钟砍掉一半人，直到最后只剩几个人。”
- 缺点：这种“死板”的砍人方式很不科学。有时候刚砍掉的人其实很重要，有时候剩下的人其实早就在发呆，留着也是浪费。

2. HiDrop 的三大创新策略

HiDrop 就像一位高明的会议组织者，它根据会议不同阶段的真实需求，动态调整参会人数。它提出了三个核心策略：

策略一：晚点入场 (Late Injection) —— “别急着让翻译官进场”

旧观念：认为图片代表一开始就得进场，和文字代表一起讨论。
HiDrop 的发现：会议刚开始的前几轮（浅层网络），文字代表们其实只是在“热身”和“互相打招呼”，图片代表进来也插不上话，甚至会被忽略。
比喻：就像一场辩论赛，刚开始是双方各自整理思路。这时候把“图片翻译官”叫进来，他们只能坐在旁边干瞪眼，什么也帮不上，还占座位。
做法：HiDrop 决定，前几轮会议图片代表完全不用来！等大家真正开始需要结合图片进行深度讨论时（融合阶段），再把所有图片代表一次性叫进来。
效果：省去了前几轮无意义的“空座”时间。

策略二：凹形金字塔修剪 (Concave Pyramid Pruning) —— “先快后慢，精准淘汰”

旧观念：像削苹果一样，每轮都均匀地削掉一点（比如每轮砍掉 10%）。
HiDrop 的发现：在会议的中期（融合阶段），大家发现大部分图片代表其实是在“划水”（冗余信息），只有少数几个关键代表在提供核心信息。这时候应该猛砍！到了会议后期，剩下的代表已经形成了共识，再砍就危险了，应该慢点砍或者不砍。
比喻：想象你在筛选简历。
- 初期：刚收到 576 份简历，大部分是凑数的。这时候你可以大刀阔斧，直接淘汰掉 80% 的无关人员（因为大家还没开始深度交流，冗余度极高）。
- 中期：剩下的人开始深入讨论，这时候要小心谨慎，只淘汰那些明显跑题的，保留核心骨干。
- 做法：HiDrop 使用一种“凹形”的淘汰曲线：刚开始淘汰速度极快，中间变慢，最后稳住。它还能通过一种“可微分的 Top-K"技术（一种聪明的数学工具），让模型自己学会“谁该走，谁该留”，而不是靠死板的规则。

策略三：提前退场 (Early Exit) —— “任务完成，散会！”

旧观念：图片代表必须陪大家开完全场，直到最后得出结论。
HiDrop 的发现：当会议进行到后期，大家已经根据图片形成了完整的观点，接下来的工作主要是“写总结报告”（纯语言推理）。这时候，图片代表已经没用了，继续留着只会增加噪音和成本。
比喻：就像装修房子，水电工（图片代表）把线路铺好后，就可以提前下班了。后面的刷墙、软装（语言推理）不需要他们盯着，他们继续在场只会碍手碍脚。
做法：一旦确认融合完成，HiDrop 就让所有图片代表立刻离场，剩下的会议只由文字代表完成。

3. 技术细节的“魔法”

为了让这套流程跑得顺畅，HiDrop 还用了几个小魔法：

持久座位号：虽然人进进出出，但每个人的“座位号”（位置编码）是固定的，不会因为有人走了就乱套，保证大家不会坐错位置。
并行处理：在图片代表还没进场之前，系统可以一边处理文字，一边在后台悄悄准备好图片数据，等一喊“入场”就能无缝衔接，不耽误时间。

4. 最终成果：又快又好

实验结果显示，HiDrop 非常成功：

砍掉人数：它能把图片代表的数量减少 90%（从 576 个砍到只剩 60 个左右）。
保持水平：虽然人少了这么多，但 AI 的答题准确率几乎没有下降（保留了 98% 以上的能力）。
速度提升：训练速度提升了 1.72 倍，推理（使用）速度也大大加快。

总结

HiDrop 的核心思想就是：不要盲目地、均匀地减少信息，而是要根据 AI 大脑思考的“节奏”来动态调整。

刚开始：图片别来，省资源。
中间：图片来了，但大部分是凑数的，赶紧把没用的砍掉，只留精华。
最后：精华已经消化完了，图片代表可以走了，让文字代表专心写报告。

这就好比一个高效的团队，知道什么时候该全员上阵，什么时候该精简人员，从而用最少的人力（算力）办成最大的事。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于多模态大语言模型（MLLMs）高效训练的论文，标题为 HiDrop: 通过延迟注入、凹金字塔剪枝和早期退出实现分层视觉 Token 减少。该论文已被 ICLR 2026 录用。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

多模态大语言模型（MLLMs）在处理视觉信息时面临巨大的计算挑战。

二次方计算成本：视觉编码器生成的 Token 数量远多于文本 Token（通常 $N_v \gg N_t$ ），且自注意力机制的计算复杂度与 Token 数量的平方成正比，导致训练和推理成本极高。
现有方法的局限性：
1. 对浅层功能的误解：现有渐进式剪枝方法（如 FastV, PDrop）认为浅层对多模态融合至关重要，因此保留所有 Token。然而，作者分析发现，浅层实际上只是视觉信息的“被动传播者”，并未进行实质性的跨模态融合。
2. 剪枝策略僵化：现有方法通常采用固定的、均匀的剪枝比例（如线性或凸函数衰减），未能利用视觉信息流在不同层级中的非均匀性（中间层冗余度高，深层融合已完成）。

2. 核心洞察 (Key Insights)

作者通过对 LLaVA-v1.5 等模型内部动态的深入分析，发现了 MLLM 处理视觉信息的三个分层特征：

浅层 (Shallow Layers)：作为传播者 (Propagators)。视觉 Token 在此阶段几乎不发生变换，跨模态影响可忽略不计。
中层 (Middle Layers)：作为稀疏融合枢纽 (Sparse Fusion Hubs)。这是跨模态融合发生的核心区域，但具有极高的冗余性。少量的关键视觉 Token 即可支撑文本表示，大部分视觉 Token 是冗余的。
深层 (Deep Layers)：作为语言主导推理 (Language-Dominant Reasoning)。一旦融合完成，深层主要进行基于语言的推理，视觉 Token 的直接输入变得不再必要。

3. 方法论：HiDrop 框架 (Methodology)

基于上述洞察，HiDrop 提出了一种分层视觉 Token 丢弃框架，包含三个核心创新：

A. 延迟注入 (Late Injection)

策略：既然浅层只是被动传播，HiDrop 完全绕过前 $L_{inj}-1$ 层处理视觉 Token。
实现：仅在主动融合阶段开始时（通过层间相似度曲线局部最小值确定，如第 9 层），才将完整的视觉 Token 注入到文本流中。
优势：避免了在浅层进行无意义的视觉计算，显著减少了前向传播的开销。

B. 凹金字塔剪枝与早期退出 (Concave Pyramid Pruning & Early Exit)

凹金字塔剪枝：在中间的融合窗口期内，采用非均匀的剪枝策略。在融合初期快速剪枝（去除大量冗余），随后减缓剪枝速度以保留关键信息。
早期退出 (Early Exit)：在融合完成后的深层（如第 25 层之后），直接丢弃所有剩余的视觉 Token，后续层仅处理文本流。
筛选层识别 (ILVAS)：引入层间视觉注意力相似度 (Inter-Layer Visual Attention Similarity, ILVAS) 指标，用于自动识别模型对 Token 重要性评估稳定的“过滤层”，在这些层执行剪枝。
可微 Top-K 选择 (Differentiable Top-K)：使用可微的 Top-K 算子（DTop-K）替代传统的硬 Top-K 选择，通过软掩码机制实现端到端的优化，更精准地保留高信息量 Token。

C. 工程优化 (Implementation Optimizations)

为了确保理论效率转化为实际加速，HiDrop 还解决了以下工程问题：

持久位置编码 (Persistent Position Encoding)：由于 Token 动态增减，传统的重索引会导致位置编码错位。HiDrop 为每个视觉 Token 分配固定的持久位置 ID，即使 Token 被跳过或丢弃，其位置 ID 保持不变，确保 RoPE 旋转的一致性。
FlashAttention 兼容：将 Token 选择逻辑与主注意力计算解耦，通过轻量级的辅助注意力流进行选择，保持主计算流与 FlashAttention 等高效内核兼容。
并行解耦：利用延迟注入，在注入层之前并行运行视觉编码器和投影器，将视觉 KV 缓存起来，消除预填充（Prefill）阶段的瓶颈。

4. 实验结果 (Results)

在 LLaVA-1.5 (7B, 13B) 及 MobileLLaMA-2.7B 等模型上进行了广泛实验：

性能保持：HiDrop 在压缩约 90% 的视觉 Token（从 576 个减少到约 64 个）的情况下，在 11 个主流基准测试（如 MME, MMBench, GQA 等）上保持了与原始模型几乎一致的性能（平均保留 98.3% 的性能）。
训练加速：训练时间减少了 40.7%（LLaVA-7B 从 159.3 小时降至 94.4 小时），加速比达到 1.72 倍。
推理效率：视觉部分的 FLOPs 减少了 88.9%（从 3.82T 降至 0.42T），预填充延迟降低了约 50%。
对比 SOTA：相比现有的渐进式剪枝方法（如 PDrop），HiDrop 在更激进的剪枝比例下（89% vs 46.9%）实现了更高的精度和效率。

5. 主要贡献与意义 (Contributions & Significance)

理论突破：纠正了关于 MLLM 浅层功能的传统误解，揭示了视觉信息处理的真实分层动态，为高效剪枝提供了理论依据。
方法创新：提出了 HiDrop 框架，结合了延迟注入、凹金字塔剪枝、早期退出及可微选择机制，实现了精度与效率的最佳平衡。
工程落地：通过持久位置编码和并行解耦设计，解决了动态 Token 管理带来的隐藏开销，使得理论上的加速在实际硬件上得以实现。
开源贡献：代码已开源，为构建更高效、可扩展的多模态架构提供了新的范式。

总结：HiDrop 通过重新审视 MLLM 的内部工作机制，证明了可以通过“延迟注入”跳过无效计算，通过“凹金字塔剪枝”在中层高效去重，并通过“早期退出”在深层完全移除视觉计算。这种方法不仅大幅降低了计算成本，还保持了模型的高性能，是多模态大模型高效化训练的重要进展。