MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs

本文提出了 MMTok 方法,通过将视觉令牌选择问题构建为最大覆盖问题,利用视觉和文本令牌的多模态互补信息来最大化覆盖度,从而在显著减少推理延迟的同时保持了视觉语言模型的高性能。

Sixun Dong, Juhua Hu, Mian Zhang, Ming Yin, Yanjie Fu, Qi Qian

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 MMTok 的新方法,旨在让“视觉 - 语言模型”(VLMs,即能看图说话的 AI)运行得更快、更聪明。

为了让你轻松理解,我们可以把 AI 看图说话的过程想象成一位博学的“翻译官”在描述一幅巨大的壁画

1. 现在的痛点:信息过载的“翻译官”

想象一下,你给这位翻译官看一张高清壁画。

  • 现状:传统的 AI 会把这幅画切成成千上万个极小的碎片(在论文里叫“视觉 Token")。比如,一张图可能被切成了 2880 个小碎片。
  • 问题:翻译官(大语言模型)的大脑(注意力机制)在处理这些碎片时,需要同时盯着这 2880 个碎片看。这就像让一个人同时盯着 2880 个闪烁的灯泡,不仅累得半死(计算慢、耗电高),而且很多灯泡其实是重复的(比如蓝天部分,几千个碎片都在说“这是蓝色”),造成了巨大的浪费。
  • 现有方法的不足:以前的方法试图减少碎片数量,但它们要么只看图(忽略了你问的问题),要么只看字(忽略了图里的细节)。这就像翻译官只盯着你问的“这是什么颜色?”,却忘了看画里其实还有一只猫;或者只盯着画里的猫,却忘了你问的是“天空是什么颜色”。

2. MMTok 的核心创意:聪明的“策展人”

MMTok 就像是一位聪明的策展人,它的任务是在把壁画交给翻译官之前,先从中挑选出最有价值的一小部分碎片(比如只留 64 个),同时保证翻译官能看懂整幅画。

它是怎么做的呢?它使用了两个“覆盖”策略,就像双管齐下

策略一:文图互照(Text-Vision Coverage)

  • 比喻:你问翻译官:“画里的在哪里?”
  • 做法:MMTok 会拿着“猫”这个词,去画里寻找最像“猫”的那些碎片。它确保选出来的碎片能完美覆盖你的问题。
  • 作用:这保证了 AI 不会漏掉你关心的重点。

策略二:以图补图(Vision-Vision Coverage)

  • 比喻:有时候你问得很模糊,比如“描述一下这幅画”。这时候光靠“猫”这个词不够,因为画里还有背景、光影、其他物体。
  • 做法:MMTok 会在画里的碎片之间互相“串门”。它确保选出来的碎片不仅能代表猫,还能代表背景、天空等,让剩下的碎片能互相补充,拼凑出完整的画面感。
  • 作用:这保证了即使你问得模糊,AI 也不会漏掉画里的关键信息。

核心魔法:MMTok 把这两个策略结合起来,用一种数学上的“最大覆盖”算法(就像玩拼图游戏,用最少的拼图块覆盖最大的面积),一次性选出既符合问题、又能代表全图精华的碎片。

3. 惊人的效果:少即是多

论文通过大量实验证明,这个方法非常厉害:

  • 极速瘦身:在 LLaVA-NeXT-13B 这个强大的模型上,MMTok 能把原本需要处理的碎片数量减少 94%(从 2880 个减到 160 个),但速度提升了 1.87 倍,而准确率几乎没掉(保留了 98.7% 的性能)。
  • 极限挑战:甚至在只保留 4 个 碎片的情况下,它依然能保留 87.7% 的原始能力。这就像只给翻译官看画里的 4 个关键点,他依然能说出 8 成以上的内容。
  • 通用性强:无论是哪种 AI 模型,或者面对多张图片、动态分辨率的情况,它都能工作得很好。

4. 总结:为什么这很重要?

以前的方法像是在做“减法”,盲目地扔掉一些碎片;而 MMTok 像是在做“精选”,它懂得既要听你的话(文本),又要看懂画(视觉)

打个比方

  • 以前的 AI:像是一个拿着放大镜看整本百科全书的人,为了回答一个问题,把整本书都读了一遍,太慢了。
  • MMTok:像是一个经验丰富的图书管理员。你问“猫在哪?”,他不仅知道翻到“猫”那一页(文本覆盖),还知道顺便把“猫窝”、“鱼”相关的页面也挑出来(视觉覆盖),只把这几页递给你。

结论:MMTok 让 AI 看图说话变得更快、更省资源,而且不需要重新训练模型(即插即用),是未来让 AI 在手机、汽车等小设备上流畅运行的关键技术。