Each language version is independently generated for its own context, not a direct translation.
这篇论文介绍了一种名为 HiDrop 的新方法,旨在让“多模态大语言模型”(MLLMs,即能同时看懂图片和文字的人工智能)变得更聪明、更快速、更省钱。
为了让你轻松理解,我们可以把训练和使用这些 AI 模型的过程,想象成组织一场大型的国际会议。
1. 核心问题:会议太拥挤,效率太低
现在的 AI 模型在看一张图片时,会把图片切成很多小块(比如 576 块),每一块都变成一个“代表”(Token)进入会议室。
- 现状:图片代表太多,文字代表太少。会议室(计算资源)是按人头收费的,人越多,开会时间越长,电费(算力成本)越贵。
- 旧方法:以前的做法是“一刀切”。比如规定:“前 10 分钟大家必须都在,10 分钟后每 5 分钟砍掉一半人,直到最后只剩几个人。”
- 缺点:这种“死板”的砍人方式很不科学。有时候刚砍掉的人其实很重要,有时候剩下的人其实早就在发呆,留着也是浪费。
2. HiDrop 的三大创新策略
HiDrop 就像一位高明的会议组织者,它根据会议不同阶段的真实需求,动态调整参会人数。它提出了三个核心策略:
策略一:晚点入场 (Late Injection) —— “别急着让翻译官进场”
- 旧观念:认为图片代表一开始就得进场,和文字代表一起讨论。
- HiDrop 的发现:会议刚开始的前几轮(浅层网络),文字代表们其实只是在“热身”和“互相打招呼”,图片代表进来也插不上话,甚至会被忽略。
- 比喻:就像一场辩论赛,刚开始是双方各自整理思路。这时候把“图片翻译官”叫进来,他们只能坐在旁边干瞪眼,什么也帮不上,还占座位。
- 做法:HiDrop 决定,前几轮会议图片代表完全不用来!等大家真正开始需要结合图片进行深度讨论时(融合阶段),再把所有图片代表一次性叫进来。
- 效果:省去了前几轮无意义的“空座”时间。
策略二:凹形金字塔修剪 (Concave Pyramid Pruning) —— “先快后慢,精准淘汰”
- 旧观念:像削苹果一样,每轮都均匀地削掉一点(比如每轮砍掉 10%)。
- HiDrop 的发现:在会议的中期(融合阶段),大家发现大部分图片代表其实是在“划水”(冗余信息),只有少数几个关键代表在提供核心信息。这时候应该猛砍!到了会议后期,剩下的代表已经形成了共识,再砍就危险了,应该慢点砍或者不砍。
- 比喻:想象你在筛选简历。
- 初期:刚收到 576 份简历,大部分是凑数的。这时候你可以大刀阔斧,直接淘汰掉 80% 的无关人员(因为大家还没开始深度交流,冗余度极高)。
- 中期:剩下的人开始深入讨论,这时候要小心谨慎,只淘汰那些明显跑题的,保留核心骨干。
- 做法:HiDrop 使用一种“凹形”的淘汰曲线:刚开始淘汰速度极快,中间变慢,最后稳住。它还能通过一种“可微分的 Top-K"技术(一种聪明的数学工具),让模型自己学会“谁该走,谁该留”,而不是靠死板的规则。
策略三:提前退场 (Early Exit) —— “任务完成,散会!”
- 旧观念:图片代表必须陪大家开完全场,直到最后得出结论。
- HiDrop 的发现:当会议进行到后期,大家已经根据图片形成了完整的观点,接下来的工作主要是“写总结报告”(纯语言推理)。这时候,图片代表已经没用了,继续留着只会增加噪音和成本。
- 比喻:就像装修房子,水电工(图片代表)把线路铺好后,就可以提前下班了。后面的刷墙、软装(语言推理)不需要他们盯着,他们继续在场只会碍手碍脚。
- 做法:一旦确认融合完成,HiDrop 就让所有图片代表立刻离场,剩下的会议只由文字代表完成。
3. 技术细节的“魔法”
为了让这套流程跑得顺畅,HiDrop 还用了几个小魔法:
- 持久座位号:虽然人进进出出,但每个人的“座位号”(位置编码)是固定的,不会因为有人走了就乱套,保证大家不会坐错位置。
- 并行处理:在图片代表还没进场之前,系统可以一边处理文字,一边在后台悄悄准备好图片数据,等一喊“入场”就能无缝衔接,不耽误时间。
4. 最终成果:又快又好
实验结果显示,HiDrop 非常成功:
- 砍掉人数:它能把图片代表的数量减少 90%(从 576 个砍到只剩 60 个左右)。
- 保持水平:虽然人少了这么多,但 AI 的答题准确率几乎没有下降(保留了 98% 以上的能力)。
- 速度提升:训练速度提升了 1.72 倍,推理(使用)速度也大大加快。
总结
HiDrop 的核心思想就是:不要盲目地、均匀地减少信息,而是要根据 AI 大脑思考的“节奏”来动态调整。
- 刚开始:图片别来,省资源。
- 中间:图片来了,但大部分是凑数的,赶紧把没用的砍掉,只留精华。
- 最后:精华已经消化完了,图片代表可以走了,让文字代表专心写报告。
这就好比一个高效的团队,知道什么时候该全员上阵,什么时候该精简人员,从而用最少的人力(算力)办成最大的事。
Each language version is independently generated for its own context, not a direct translation.
这是一篇关于多模态大语言模型(MLLMs)高效训练的论文,标题为 HiDrop: 通过延迟注入、凹金字塔剪枝和早期退出实现分层视觉 Token 减少。该论文已被 ICLR 2026 录用。
以下是对该论文的详细技术总结:
1. 研究背景与问题 (Problem)
多模态大语言模型(MLLMs)在处理视觉信息时面临巨大的计算挑战。
- 二次方计算成本:视觉编码器生成的 Token 数量远多于文本 Token(通常 Nv≫Nt),且自注意力机制的计算复杂度与 Token 数量的平方成正比,导致训练和推理成本极高。
- 现有方法的局限性:
- 对浅层功能的误解:现有渐进式剪枝方法(如 FastV, PDrop)认为浅层对多模态融合至关重要,因此保留所有 Token。然而,作者分析发现,浅层实际上只是视觉信息的“被动传播者”,并未进行实质性的跨模态融合。
- 剪枝策略僵化:现有方法通常采用固定的、均匀的剪枝比例(如线性或凸函数衰减),未能利用视觉信息流在不同层级中的非均匀性(中间层冗余度高,深层融合已完成)。
2. 核心洞察 (Key Insights)
作者通过对 LLaVA-v1.5 等模型内部动态的深入分析,发现了 MLLM 处理视觉信息的三个分层特征:
- 浅层 (Shallow Layers):作为传播者 (Propagators)。视觉 Token 在此阶段几乎不发生变换,跨模态影响可忽略不计。
- 中层 (Middle Layers):作为稀疏融合枢纽 (Sparse Fusion Hubs)。这是跨模态融合发生的核心区域,但具有极高的冗余性。少量的关键视觉 Token 即可支撑文本表示,大部分视觉 Token 是冗余的。
- 深层 (Deep Layers):作为语言主导推理 (Language-Dominant Reasoning)。一旦融合完成,深层主要进行基于语言的推理,视觉 Token 的直接输入变得不再必要。
3. 方法论:HiDrop 框架 (Methodology)
基于上述洞察,HiDrop 提出了一种分层视觉 Token 丢弃框架,包含三个核心创新:
A. 延迟注入 (Late Injection)
- 策略:既然浅层只是被动传播,HiDrop 完全绕过前 Linj−1 层处理视觉 Token。
- 实现:仅在主动融合阶段开始时(通过层间相似度曲线局部最小值确定,如第 9 层),才将完整的视觉 Token 注入到文本流中。
- 优势:避免了在浅层进行无意义的视觉计算,显著减少了前向传播的开销。
B. 凹金字塔剪枝与早期退出 (Concave Pyramid Pruning & Early Exit)
- 凹金字塔剪枝:在中间的融合窗口期内,采用非均匀的剪枝策略。在融合初期快速剪枝(去除大量冗余),随后减缓剪枝速度以保留关键信息。
- 早期退出 (Early Exit):在融合完成后的深层(如第 25 层之后),直接丢弃所有剩余的视觉 Token,后续层仅处理文本流。
- 筛选层识别 (ILVAS):引入层间视觉注意力相似度 (Inter-Layer Visual Attention Similarity, ILVAS) 指标,用于自动识别模型对 Token 重要性评估稳定的“过滤层”,在这些层执行剪枝。
- 可微 Top-K 选择 (Differentiable Top-K):使用可微的 Top-K 算子(DTop-K)替代传统的硬 Top-K 选择,通过软掩码机制实现端到端的优化,更精准地保留高信息量 Token。
C. 工程优化 (Implementation Optimizations)
为了确保理论效率转化为实际加速,HiDrop 还解决了以下工程问题:
- 持久位置编码 (Persistent Position Encoding):由于 Token 动态增减,传统的重索引会导致位置编码错位。HiDrop 为每个视觉 Token 分配固定的持久位置 ID,即使 Token 被跳过或丢弃,其位置 ID 保持不变,确保 RoPE 旋转的一致性。
- FlashAttention 兼容:将 Token 选择逻辑与主注意力计算解耦,通过轻量级的辅助注意力流进行选择,保持主计算流与 FlashAttention 等高效内核兼容。
- 并行解耦:利用延迟注入,在注入层之前并行运行视觉编码器和投影器,将视觉 KV 缓存起来,消除预填充(Prefill)阶段的瓶颈。
4. 实验结果 (Results)
在 LLaVA-1.5 (7B, 13B) 及 MobileLLaMA-2.7B 等模型上进行了广泛实验:
- 性能保持:HiDrop 在压缩约 90% 的视觉 Token(从 576 个减少到约 64 个)的情况下,在 11 个主流基准测试(如 MME, MMBench, GQA 等)上保持了与原始模型几乎一致的性能(平均保留 98.3% 的性能)。
- 训练加速:训练时间减少了 40.7%(LLaVA-7B 从 159.3 小时降至 94.4 小时),加速比达到 1.72 倍。
- 推理效率:视觉部分的 FLOPs 减少了 88.9%(从 3.82T 降至 0.42T),预填充延迟降低了约 50%。
- 对比 SOTA:相比现有的渐进式剪枝方法(如 PDrop),HiDrop 在更激进的剪枝比例下(89% vs 46.9%)实现了更高的精度和效率。
5. 主要贡献与意义 (Contributions & Significance)
- 理论突破:纠正了关于 MLLM 浅层功能的传统误解,揭示了视觉信息处理的真实分层动态,为高效剪枝提供了理论依据。
- 方法创新:提出了 HiDrop 框架,结合了延迟注入、凹金字塔剪枝、早期退出及可微选择机制,实现了精度与效率的最佳平衡。
- 工程落地:通过持久位置编码和并行解耦设计,解决了动态 Token 管理带来的隐藏开销,使得理论上的加速在实际硬件上得以实现。
- 开源贡献:代码已开源,为构建更高效、可扩展的多模态架构提供了新的范式。
总结:HiDrop 通过重新审视 MLLM 的内部工作机制,证明了可以通过“延迟注入”跳过无效计算,通过“凹金字塔剪枝”在中层高效去重,并通过“早期退出”在深层完全移除视觉计算。这种方法不仅大幅降低了计算成本,还保持了模型的高性能,是多模态大模型高效化训练的重要进展。