HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

HiDrop 提出了一种通过晚注入、凹金字塔剪枝和早退机制来对齐 MLLM 层级功能的新框架,在压缩 90% 视觉 Token 的同时保持性能并加速训练 1.72 倍,从而显著提升了多模态大模型的效率。

Hao Wu, Yingqi Fan, Jinyang Dai, Junlong Tong, Yunpu Ma, Xiaoyu Shen

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 HiDrop 的新方法,旨在让“多模态大语言模型”(MLLMs,即能同时看懂图片和文字的人工智能)变得更聪明、更快速、更省钱。

为了让你轻松理解,我们可以把训练和使用这些 AI 模型的过程,想象成组织一场大型的国际会议

1. 核心问题:会议太拥挤,效率太低

现在的 AI 模型在看一张图片时,会把图片切成很多小块(比如 576 块),每一块都变成一个“代表”(Token)进入会议室。

  • 现状:图片代表太多,文字代表太少。会议室(计算资源)是按人头收费的,人越多,开会时间越长,电费(算力成本)越贵。
  • 旧方法:以前的做法是“一刀切”。比如规定:“前 10 分钟大家必须都在,10 分钟后每 5 分钟砍掉一半人,直到最后只剩几个人。”
    • 缺点:这种“死板”的砍人方式很不科学。有时候刚砍掉的人其实很重要,有时候剩下的人其实早就在发呆,留着也是浪费。

2. HiDrop 的三大创新策略

HiDrop 就像一位高明的会议组织者,它根据会议不同阶段的真实需求,动态调整参会人数。它提出了三个核心策略:

策略一:晚点入场 (Late Injection) —— “别急着让翻译官进场”

  • 旧观念:认为图片代表一开始就得进场,和文字代表一起讨论。
  • HiDrop 的发现:会议刚开始的前几轮(浅层网络),文字代表们其实只是在“热身”和“互相打招呼”,图片代表进来也插不上话,甚至会被忽略。
  • 比喻:就像一场辩论赛,刚开始是双方各自整理思路。这时候把“图片翻译官”叫进来,他们只能坐在旁边干瞪眼,什么也帮不上,还占座位。
  • 做法:HiDrop 决定,前几轮会议图片代表完全不用来!等大家真正开始需要结合图片进行深度讨论时(融合阶段),再把所有图片代表一次性叫进来。
  • 效果:省去了前几轮无意义的“空座”时间。

策略二:凹形金字塔修剪 (Concave Pyramid Pruning) —— “先快后慢,精准淘汰”

  • 旧观念:像削苹果一样,每轮都均匀地削掉一点(比如每轮砍掉 10%)。
  • HiDrop 的发现:在会议的中期(融合阶段),大家发现大部分图片代表其实是在“划水”(冗余信息),只有少数几个关键代表在提供核心信息。这时候应该猛砍!到了会议后期,剩下的代表已经形成了共识,再砍就危险了,应该慢点砍或者不砍
  • 比喻:想象你在筛选简历。
    • 初期:刚收到 576 份简历,大部分是凑数的。这时候你可以大刀阔斧,直接淘汰掉 80% 的无关人员(因为大家还没开始深度交流,冗余度极高)。
    • 中期:剩下的人开始深入讨论,这时候要小心谨慎,只淘汰那些明显跑题的,保留核心骨干。
    • 做法:HiDrop 使用一种“凹形”的淘汰曲线:刚开始淘汰速度极快,中间变慢,最后稳住。它还能通过一种“可微分的 Top-K"技术(一种聪明的数学工具),让模型自己学会“谁该走,谁该留”,而不是靠死板的规则。

策略三:提前退场 (Early Exit) —— “任务完成,散会!”

  • 旧观念:图片代表必须陪大家开完全场,直到最后得出结论。
  • HiDrop 的发现:当会议进行到后期,大家已经根据图片形成了完整的观点,接下来的工作主要是“写总结报告”(纯语言推理)。这时候,图片代表已经没用了,继续留着只会增加噪音和成本。
  • 比喻:就像装修房子,水电工(图片代表)把线路铺好后,就可以提前下班了。后面的刷墙、软装(语言推理)不需要他们盯着,他们继续在场只会碍手碍脚。
  • 做法:一旦确认融合完成,HiDrop 就让所有图片代表立刻离场,剩下的会议只由文字代表完成。

3. 技术细节的“魔法”

为了让这套流程跑得顺畅,HiDrop 还用了几个小魔法:

  • 持久座位号:虽然人进进出出,但每个人的“座位号”(位置编码)是固定的,不会因为有人走了就乱套,保证大家不会坐错位置。
  • 并行处理:在图片代表还没进场之前,系统可以一边处理文字,一边在后台悄悄准备好图片数据,等一喊“入场”就能无缝衔接,不耽误时间。

4. 最终成果:又快又好

实验结果显示,HiDrop 非常成功:

  • 砍掉人数:它能把图片代表的数量减少 90%(从 576 个砍到只剩 60 个左右)。
  • 保持水平:虽然人少了这么多,但 AI 的答题准确率几乎没有下降(保留了 98% 以上的能力)。
  • 速度提升:训练速度提升了 1.72 倍,推理(使用)速度也大大加快。

总结

HiDrop 的核心思想就是:不要盲目地、均匀地减少信息,而是要根据 AI 大脑思考的“节奏”来动态调整。

  • 刚开始:图片别来,省资源。
  • 中间:图片来了,但大部分是凑数的,赶紧把没用的砍掉,只留精华。
  • 最后:精华已经消化完了,图片代表可以走了,让文字代表专心写报告。

这就好比一个高效的团队,知道什么时候该全员上阵,什么时候该精简人员,从而用最少的人力(算力)办成最大的事。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →