Each language version is independently generated for its own context, not a direct translation.
这篇论文介绍了一种名为 MMTok 的新方法,旨在让“视觉 - 语言模型”(VLMs,即能看图说话的 AI)运行得更快、更聪明。
为了让你轻松理解,我们可以把 AI 看图说话的过程想象成一位博学的“翻译官”在描述一幅巨大的壁画。
1. 现在的痛点:信息过载的“翻译官”
想象一下,你给这位翻译官看一张高清壁画。
- 现状:传统的 AI 会把这幅画切成成千上万个极小的碎片(在论文里叫“视觉 Token")。比如,一张图可能被切成了 2880 个小碎片。
- 问题:翻译官(大语言模型)的大脑(注意力机制)在处理这些碎片时,需要同时盯着这 2880 个碎片看。这就像让一个人同时盯着 2880 个闪烁的灯泡,不仅累得半死(计算慢、耗电高),而且很多灯泡其实是重复的(比如蓝天部分,几千个碎片都在说“这是蓝色”),造成了巨大的浪费。
- 现有方法的不足:以前的方法试图减少碎片数量,但它们要么只看图(忽略了你问的问题),要么只看字(忽略了图里的细节)。这就像翻译官只盯着你问的“这是什么颜色?”,却忘了看画里其实还有一只猫;或者只盯着画里的猫,却忘了你问的是“天空是什么颜色”。
2. MMTok 的核心创意:聪明的“策展人”
MMTok 就像是一位聪明的策展人,它的任务是在把壁画交给翻译官之前,先从中挑选出最有价值的一小部分碎片(比如只留 64 个),同时保证翻译官能看懂整幅画。
它是怎么做的呢?它使用了两个“覆盖”策略,就像双管齐下:
策略一:文图互照(Text-Vision Coverage)
- 比喻:你问翻译官:“画里的猫在哪里?”
- 做法:MMTok 会拿着“猫”这个词,去画里寻找最像“猫”的那些碎片。它确保选出来的碎片能完美覆盖你的问题。
- 作用:这保证了 AI 不会漏掉你关心的重点。
策略二:以图补图(Vision-Vision Coverage)
- 比喻:有时候你问得很模糊,比如“描述一下这幅画”。这时候光靠“猫”这个词不够,因为画里还有背景、光影、其他物体。
- 做法:MMTok 会在画里的碎片之间互相“串门”。它确保选出来的碎片不仅能代表猫,还能代表背景、天空等,让剩下的碎片能互相补充,拼凑出完整的画面感。
- 作用:这保证了即使你问得模糊,AI 也不会漏掉画里的关键信息。
核心魔法:MMTok 把这两个策略结合起来,用一种数学上的“最大覆盖”算法(就像玩拼图游戏,用最少的拼图块覆盖最大的面积),一次性选出既符合问题、又能代表全图精华的碎片。
3. 惊人的效果:少即是多
论文通过大量实验证明,这个方法非常厉害:
- 极速瘦身:在 LLaVA-NeXT-13B 这个强大的模型上,MMTok 能把原本需要处理的碎片数量减少 94%(从 2880 个减到 160 个),但速度提升了 1.87 倍,而准确率几乎没掉(保留了 98.7% 的性能)。
- 极限挑战:甚至在只保留 4 个 碎片的情况下,它依然能保留 87.7% 的原始能力。这就像只给翻译官看画里的 4 个关键点,他依然能说出 8 成以上的内容。
- 通用性强:无论是哪种 AI 模型,或者面对多张图片、动态分辨率的情况,它都能工作得很好。
4. 总结:为什么这很重要?
以前的方法像是在做“减法”,盲目地扔掉一些碎片;而 MMTok 像是在做“精选”,它懂得既要听你的话(文本),又要看懂画(视觉)。
打个比方:
- 以前的 AI:像是一个拿着放大镜看整本百科全书的人,为了回答一个问题,把整本书都读了一遍,太慢了。
- MMTok:像是一个经验丰富的图书管理员。你问“猫在哪?”,他不仅知道翻到“猫”那一页(文本覆盖),还知道顺便把“猫窝”、“鱼”相关的页面也挑出来(视觉覆盖),只把这几页递给你。
结论:MMTok 让 AI 看图说话变得更快、更省资源,而且不需要重新训练模型(即插即用),是未来让 AI 在手机、汽车等小设备上流畅运行的关键技术。
Each language version is independently generated for its own context, not a direct translation.
这是一篇关于多模态大模型(VLMs)推理效率优化的论文,标题为 《MMTOK: MULTIMODAL COVERAGE MAXIMIZATION FOR EFFICIENT INFERENCE OF VLMS》(MMTOK:面向 VLM 高效推理的多模态覆盖最大化)。该论文已被 ICLR 2026 接收。
以下是对该论文的详细技术总结:
1. 研究背景与问题 (Problem)
- 背景:视觉 - 语言模型(VLMs)通过将视觉输入转换为视觉 Token,利用强大的大语言模型(LLM)来理解图像。然而,现有的视觉编码器(如 ViT)从原始图像块中提取的视觉 Token 数量巨大(例如 LLaVA-NeXT 中单张图像可产生 2880 个 Token),远超文本 Token 的数量。
- 核心痛点:
- 计算开销大:LLM 基于自注意力机制,其计算成本与 Token 总数呈二次方关系。大量的冗余视觉 Token 严重拖慢了 VLM 的推理速度。
- 现有方法的局限性:目前的视觉 Token 剪枝方法大多仅依赖单模态信息(仅看图像或仅看文本指令)。
- 例如:SparseVLM 仅利用文本指令引导剪枝,忽略了图像整体信息;VisionZip 仅依赖 [CLS] Token 的重要性。
- 缺陷:这种单模态策略无法充分捕捉多模态任务的本质(即答案既依赖于图像内容,也依赖于用户的具体文本查询),导致在 Token 选择上不够最优,性能下降明显。
- 目标:提出一种**无需训练(Training-free)**的方法,能够同时利用视觉和文本信息,高效地选择最具信息量的视觉 Token 子集,以加速推理并保持性能。
2. 方法论 (Methodology)
论文提出了 MMTok 框架,其核心思想是将 Token 选择问题形式化为最大覆盖问题(Maximum Coverage Problem),并设计了一个多模态覆盖策略。
2.1 核心公式化
将选择 k 个视觉 Token 子集 S 的问题定义为最大化目标函数 f(S),该函数衡量选中的 Token 对“目标 Token"的覆盖程度。
- 目标:最大化选中的视觉 Token 与目标 Token(文本或原始视觉)之间的相似度总和。
- 理论保证:该目标函数被证明是次模函数(Submodular Function)。虽然最大化次模函数是 NP-hard 问题,但简单的贪心算法可以保证获得至少 (1−1/e)≈63% 的最优解,且计算高效。
2.2 多模态覆盖策略
MMTok 同时优化两个覆盖任务:
- 最大文本 - 视觉覆盖 (Text-Vision Coverage):
- 目的:确保选中的视觉 Token 能覆盖文本指令(Query)中的语义信息。
- 实现:计算文本 Token 与投影后(Projection Layer 后,与文本对齐)的视觉 Token 之间的相似度矩阵 Mtv。
- 最大视觉 - 视觉覆盖 (Vision-Vision Coverage):
- 目的:解决文本指令模糊(如“描述图片”)的问题,确保选中的 Token 能覆盖图像本身的丰富信息。
- 实现:计算投影前(Projection Layer 前,纯视觉特征)的视觉 Token 之间的相似度矩阵 Mvv。
2.3 多模态融合与优化
- 归一化:由于 Mtv 和 Mvv 的尺度和分布不同,论文使用 Softmax 操作对行进行归一化,并引入温度参数 τt 和 τv 进行校准,得到 Mtv′ 和 Mvv′。
- 联合目标函数:
f(S;Mtv′,Mvv′)=f(S;Mtv′)+αf(S;Mvv′)
其中 α 是平衡两项权重的超参数。
- 算法:基于上述目标函数,设计了一个贪心算法(Algorithm 2),迭代选择能带来最大边际增益的视觉 Token,直到达到预算数量 k。
3. 主要贡献 (Key Contributions)
- 理论创新:首次将视觉 Token 选择问题形式化为多模态最大覆盖问题,利用次模函数的性质提供了理论上的近似保证。
- 多模态协同:提出了同时覆盖文本语义和视觉全局信息的策略。实验证明,这种互补性显著优于仅依赖单模态的基线方法。
- 无需训练的高效性:该方法完全基于预训练模型的中间特征,无需微调(Fine-tuning),且贪心算法计算开销极小(O(kn)),适合实时应用。
- 广泛的验证:在多个基准数据集(MMBench, POPE, MME, GQA 等)和多种 VLM 架构(LLaVA-1.5, LLaVA-NeXT, Qwen-2.5-VL)上进行了验证。
4. 实验结果 (Results)
论文在多个维度展示了 MMTok 的优越性:
- 性能保持与压缩比:
- 在 LLaVA-NeXT-13B 上,仅保留 1.87% 的 Token(即 160/2880),即可达到 98.7% 的原始性能。
- 在 LLaVA-1.5-7B 上,仅保留 4 个 视觉 Token,仍能保持 87.7% 的原始性能。
- 在 POPE 数据集上,相比基线方法(如 DivPrune, VisionZip),MMTok 在极低 Token 预算下(如 64 个 Token)性能提升显著(例如提升 1.8%)。
- 跨架构泛化:
- 在 Qwen-2.5-VL-7B(具有动态分辨率和 Token 合并机制的先进模型)上,MMTok 在动态分辨率设置下,将 Token 减少到 20% 时,仍能保持约 95% 的性能,证明了即使对于已经压缩过的模型,进一步剪枝依然有效。
- 推理效率:
- 速度提升:在 H100 GPU 上,MMTok 实现了约 1.87 倍 的推理加速(相比全量 Token)。
- 显存优化:显著降低了推理过程中的显存占用(减少约 58% 的运行显存)。
- 计算开销:Token 选择过程本身耗时极短(2880 个 Token 输入下仅需 <7ms),对整体推理延迟影响可忽略不计。
- 高 IC(图像贡献)任务:
- 在图像对答案贡献度高的任务(如 POPE, MME)中,MMTok 的表现远优于单模态方法,证明了其能精准捕捉图像中的关键信息。
5. 意义与影响 (Significance)
- 解决效率瓶颈:为 VLM 在资源受限场景(如移动端、实时交互)下的部署提供了高效的解决方案,无需重新训练模型。
- 揭示多模态本质:通过实验证明了在 Token 选择阶段,文本与视觉信息的互补性至关重要。单纯依赖图像内容或文本指令都无法达到最优剪枝效果。
- 通用性强:该方法不仅适用于静态图像,也适用于动态多图像输入(如 LLaVA-NeXT)和具有复杂架构的模型(如 Qwen),具有广泛的适用性。
- 未来方向:论文指出,可以进一步结合轻量级 Agent 生成更有意义的文本 Token 来指导选择,或针对问题难度自适应调整 Token 数量。
总结:MMTok 通过引入“多模态覆盖最大化”这一新颖视角,成功解决了 VLM 推理中视觉 Token 冗余的问题。它在保持极高性能的同时,大幅降低了计算成本和延迟,且无需额外训练,是目前 VLM 推理加速领域的一项突破性工作。代码已开源。