Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

该论文通过推导基于豪斯多夫距离的闭式误差界揭示视觉令牌剪枝中提示对齐与视觉保留的内在权衡,并提出多目标平衡覆盖(MoB)方法,将剪枝重构为双目标覆盖问题,从而在显著加速多模态大模型的同时保持其性能。

Yangfu Li, Hongjian Zhan, Tianyi Chen, Qi Liu, Yue Lu

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章提出了一种名为 MoB (Multi-Objective Balanced Covering,多目标平衡覆盖) 的新方法,用来解决大型多模态模型(MLLM,比如能看图说话的 AI)在运行时的“卡顿”和“烧脑”问题。

为了让你轻松理解,我们可以把整个过程想象成**“在拥挤的图书馆里找书”**。

1. 背景:为什么需要“剪枝”?

想象一下,你有一个超级聪明的图书管理员(AI 模型),他需要回答你的问题。

  • 输入:你给他看一张高清大图(比如 576 个像素块,每个块都是一个“视觉令牌”),并问了一个问题(“提示词”)。
  • 问题:这张图太大了,图书管理员要处理 576 个信息点,这非常慢,就像让他在一秒钟内读完 576 本书的目录,效率极低。
  • 现有方案:以前的方法通常有两种策略:
    1. 只保留“最像书”的(视觉保留):不管问题是什么,只挑出图片里最清晰、最核心的部分。
    2. 只保留“最像答案”的(提示对齐):不管图片多清晰,只挑出和问题文字最相关的部分。
  • 痛点:以前的研究者试图把这两种策略“简单相加”(1+1),以为效果会更好。但论文发现,1+1 往往小于 1。因为有时候图片里最重要的部分和问题没关系,有时候问题指向的部分在图片里很模糊。死板地混合两种策略,反而让图书管理员更糊涂,效果时好时坏。

2. 核心发现:图片与问题的“亲密度”

作者发现,不同的任务中,图片和问题的“亲密度”(论文称为 Prompt-Visual Coupling)是完全不同的:

  • 强亲密度(Strong Coupling):比如问“这只猫是什么颜色的?”。图片里到处都是猫,问题和图片紧紧抱在一起。这时候,只要把图片整体保留好(视觉保留),答案自然就有了。
  • 弱亲密度(Weak Coupling):比如问“图里那个穿红衣服的人在做什么?”。图片里可能有成千上万个像素,但只有“穿红衣服的人”这一小块和问题有关,其他都是噪音。这时候,必须精准地找到那个“红点”(提示对齐),否则图片再清晰也没用。

以前的方法:不管你是哪种情况,都用同一套固定的规则去删减图片,所以效果不稳定。
MoB 的洞察:我们需要根据“亲密度”动态调整策略。

3. MoB 的解决方案:聪明的“预算分配”

MoB 把这个问题变成了一个**“切蛋糕”**的问题。
假设你手里有 100 块钱(预算 K),你要买两种东西:

  1. 买“通用地图”(视觉保留):保证大方向不错。
  2. 买“精准导航”(提示对齐):保证能找到具体目标。

MoB 的核心算法就像是一个精明的管家

  • 第一步:测量距离。它先快速算一下,这张图和问题“亲不亲”(计算 Hausdorff 距离)。
  • 第二步:动态分配
    • 如果亲密度低(比如找红衣服的人):管家会把大部分钱(预算)花在“精准导航”上,只留一点点钱买地图。因为如果找不到那个“红点”,地图画得再全也没用。
    • 如果亲密度高(比如问猫的颜色):管家会把大部分钱花在“通用地图”上,因为只要图清晰,答案就在里面。
  • 第三步:贪心选择。它用一种叫“贪心半径交易”的方法,像玩贪吃蛇一样,一步步选出最能代表整体或最符合问题的关键信息点,把剩下的“垃圾信息”直接扔掉。

4. 结果:1+1 > 2 的奇迹

通过这种动态调整,MoB 取得了惊人的效果:

  • 极速瘦身:它能把图片的信息量砍掉 88.9%(比如从 576 个块砍到只剩 64 个块),只保留最精华的部分。
  • 性能不减:在 LLaVA-1.5 等模型上,即使只用了 11.1% 的原始图片信息,AI 的表现依然保留了 96.4% 的原始水平。
  • 速度飞起:处理速度提升了 1.3 到 1.5 倍
  • 通用性强:无论是看静态图片,还是看复杂的视频,甚至是在 Qwen2-VL 这种更先进的模型上,它都能无缝插入,效果吊打其他方法。

总结

简单来说,以前的 AI 删减图片像是**“无脑砍”,不管三七二十一,要么砍掉一半,要么只留文字相关的。
MoB 像是
“精明的裁缝”
它先量体裁衣(分析图片和问题的关系),然后决定是
多留布料(保留视觉细节)还是多留扣眼(保留文字关联)**。它证明了,只有根据具体情况灵活分配资源,才能让 AI 既跑得快,又看得准。

这就是为什么在这个领域,“聪明的平衡”比“简单的叠加”更重要