iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 iLLaVA 的新方法，旨在让“多模态大模型”（既能看图又能读文的超级 AI）跑得更快、更省资源，同时还不掉链子。

为了让你轻松理解，我们可以把整个 AI 系统想象成一家**“超级翻译餐厅”**。

1. 现在的痛点：餐厅太忙，后厨堵死了

想象一下，这家餐厅（AI 模型）接到了一个巨大的订单：一张包含几千个细节的复杂图片（比如一张满是文字和物体的海报）。

传统做法：
1. 后厨（图像编码器）：首先，厨师要把这张大图切成几千个小碎片（Token），每一个碎片都要经过精细处理。这一步非常耗时，就像后厨要把几千块肉切好一样。
2. 前厅（大语言模型 LLM）：切好的碎片被端给服务员（LLM），服务员要一边看这些碎片，一边听顾客的指令，最后写出答案。
3. 问题：以前的加速方法，只想着怎么让服务员少看几个碎片（比如只挑重要的看），或者让服务员处理得快一点。但是，后厨切菜的时间依然很长，而且因为端给服务员的碎片太多，服务员还是累得半死。这就导致整个餐厅出餐慢，还占用了巨大的厨房空间（显存）。

2. iLLaVA 的绝招：从源头“合并同类项”

iLLaVA 的聪明之处在于，它同时优化了后厨和前厅，并且发明了一种**“智能合并”**的魔法。

核心策略一：双管齐下（后厨 + 前厅一起省）

以前的方法只盯着服务员（LLM）做减法，iLLaVA 发现，**后厨（图像编码器）**其实也浪费了大量时间。

比喻：如果后厨发现图片里有一大片蓝天和草地，其实不需要把每一片草叶都切得那么细。iLLaVA 允许后厨在切菜的时候，直接把那些“长得差不多”的碎片合并成一个大块。
效果：后厨切菜快了，端给服务员的盘子也变小了，服务员处理起来自然更快。

核心策略二：智能合并（把“被扔掉”的信息捡回来）

这是 iLLaVA 最厉害的地方。

传统做法（剪枝）：就像为了省时间，直接把不重要的碎片扔掉。但这有个风险：万一那个被扔掉的碎片里藏着关键线索（比如图片角落的一个小字），AI 就瞎了。
iLLaVA 做法（合并/回收）：它不直接扔掉碎片，而是把那些“看起来不重要”的碎片，压缩成一个“精华包”，然后把这个精华包合并到重要的碎片里。
- 比喻：就像你整理行李，把一堆零散的小袜子（冗余信息）卷成一个球，塞进大裤子的口袋里（重要信息）。虽然体积变小了，但袜子还在，没丢！
- 结果：既减少了行李重量（计算量），又保证了所有东西都在（信息不丢失）。

3. 惊人的效果：大模型变身“小钢炮”

论文通过实验证明，用了 iLLaVA 之后：

速度快了 2 倍：餐厅出餐速度翻倍。
准备时间少了 4 倍：从点单到第一道菜上桌，时间大幅缩短。
省内存：原本需要 80GB 内存才能跑的大模型，现在轻松很多。
最强对比：最酷的是，加了 iLLaVA 的大模型（比如 260 亿参数），比没加 iLLaVA 的小模型（比如 80 亿参数）还要强！
- 比喻：就像给一辆重型卡车装上了超级涡轮增压和轻量化引擎，结果它跑得比原本的小轿车还快，还能拉更多的货（更聪明）。

4. 总结：它是怎么做到的？

发现浪费：AI 在看图时，其实很多像素是重复的（比如一大片蓝天），不需要全算。
源头减负：在图片刚进入 AI 眼睛（图像编码器）时，就开始合并碎片，而不是等到最后才处理。
信息回收：用“合并”代替“丢弃”，把被压缩的信息融合进重要信息里，确保 AI 不“变傻”。

一句话总结：
iLLaVA 就像给 AI 装了一套**“智能压缩与回收系统”，让它在处理海量图片时，既能轻装上阵**（省资源、速度快），又能眼观六路（不丢失关键信息），最终让大模型变得既聪明又高效。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

大视觉语言模型 (LVLMs) 的效率瓶颈：
尽管 LVLMs（如 GPT-4o, Gemini 等）在跨模态任务中表现出色，但其推理计算复杂度和资源需求极高。主要瓶颈在于：

注意力机制的二次复杂度： 自注意力机制的计算复杂度为 $O(n^2)$ ，随着输入 Token 数量（尤其是图像和视频）的增加，计算量呈平方级增长。
现有方法的局限性： 现有的加速方法主要集中在 大语言模型 (LLM) 阶段之前或之中进行 Token 剪枝（Pruning）或压缩。
- 被忽视的瓶颈： 这些方法忽略了 图像编码器 (Image Encoder) 本身也是巨大的计算负担。
- 连锁反应： 图像编码器是向 LLM 提供输入 Token 的主要来源。如果在编码器阶段不减少冗余，LLM 仍需处理大量冗余 Token，导致整体加速效果有限，无法实现真正的端到端加速。
- 性能损失风险： 激进的 Token 剪枝往往导致关键信息丢失，造成模型性能显著下降。

2. 核心洞察 (Key Insights)

作者通过可视化分析得出了两个关键发现：

编码器内的冗余性： 图像编码器（ViT）的不同层对图像区域的注意力分布不均，存在大量视觉冗余（例如，编码器可能只关注图像中的鸟，而忽略背景）。
计算时间分布： 在 LVLM 的推理时间中，图像编码器和 LLM 占据了绝大部分（>99%）。随着任务从单图变为多图或视频，图像编码器的推理时间占比甚至高达 45%。
早期减量的优势： 在图像编码器阶段减少 Token，不仅能加速编码器本身，还能大幅减少后续 LLM 的输入负载，从而带来复合的效率提升（相比仅在 LLM 内剪枝，吞吐量提升 25.3%，显存消耗降低 21.2%）。

3. 方法论 (Methodology: iLLaVA)

为了解决上述问题，作者提出了 iLLaVA，一种联合优化图像编码器和 LLM 的加速框架。其核心包含两个创新点：

3.1 两阶段 Token 合并 (Two-Stage Token Merging)

不同于仅在 LLM 阶段操作，iLLaVA 在两个关键阶段同时执行 Token 合并：

图像编码器阶段： 在编码器的中间层（如第 5、9、13 层）的注意力模块（MHA）之后、前馈网络（FFN）之前插入合并模块。
LLM 阶段： 在 LLM 的特定块（如第 2、8、14 层）之间插入合并模块。
动态调整： 通过调节每个阶段减少的 Token 数量（ $R_v$ 和 $R_t$ ），可以动态分配计算预算。

3.2 新型 Token 合并策略 (Novel Token Merging Strategy)

为了在减少 Token 的同时避免性能下降，iLLaVA 提出了一种“回收”机制，将丢弃的 Token 中有用的信息合并到保留的 Token 中：

重要性评分： 利用注意力分数（Attention Scores）作为衡量 Token 重要性的指标。
Token 分类： 将 Token 分为两类：
- 信息 Token ( $P^i_v$ )： 直接保留注意力分数最高的 Token，确保核心信息不丢失。
- 回收 Token ( $P^c_v$ )： 选取次高注意力分数的 Token 作为“聚类中心”。
信息回收 (Recycling)： 对于被判定为“不重要”的 Token，计算它们与“回收 Token"的相似度，将相似 Token 的特征加权合并到对应的回收 Token 中。
- 这种方法不仅保留了最重要的信息，还通过聚合（Aggregation）保留了被丢弃 Token 中的潜在有益信息，避免了直接丢弃带来的信息损失。

3.3 实现细节

兼容性： 该方法兼容 Flash-Attention，通过简单的变换获取累积注意力权重，无需额外计算全注意力矩阵。
计算开销： 额外的计算量仅为 $O(R_v \times B_v + R_t \times B_t)$ ，由于 $R$ 值很小（几十），额外开销可忽略不计。

4. 实验结果 (Results)

作者在 10+ 个图像和视频理解基准测试上进行了广泛评估（包括 MMMU, MMBench, VideoMME 等），主要结果如下：

性能保持： 即使在减少 88.9% 的图像 Token 时，iLLaVA 仍能保持 95.2% 的原始模型性能（相比 Vanilla 仅下降 4.8%），显著优于其他 SOTA 方法。
效率提升：
- 吞吐量 (Throughput)： 提升高达 2.12 倍 (2×)。
- 预填充时间 (Prefilling Time)： 减少 4.46 倍 (4×)。
- 显存占用： 降低 1.59 倍。
大模型超越小模型：
- 使用 iLLaVA 加速后的 InternVL-2.5 26B 模型，在保持比 InternVL-2.5 8B 更高吞吐量的同时，在 MMMU 和 MMStar 等基准上取得了更高的准确率（分别提升 +4.2% 和 +2.2%）。
- 同理，Qwen2.5-VL 7B (w/ iLLaVA) 在效率和性能上均超越了 Qwen2.5-VL 3B。
通用性： 该方法在 Qwen2.5-VL, InternVL-2.5, MiniCPM-V, LLaVA-Onevision 等多种架构上均表现优异，证明了其架构无关的灵活性。
消融实验： 验证了“两阶段设计”（编码器+LLM）比仅在 LLM 阶段加速更有效；验证了“信息回收策略”比单纯的剪枝（Pruning）或简单的合并（Merging）效果更好。

5. 主要贡献 (Key Contributions)

重新定义加速瓶颈： 首次明确指出并量化了图像编码器在 LVLM 推理中的计算瓶颈地位，提出联合优化编码器和 LLM 的必要性。
提出 iLLaVA 框架： 设计了首个在图像编码器和 LLM 两个阶段同时进行 Token 合并的端到端加速方案。
创新的信息回收机制： 提出了一种基于注意力分数的 Token 合并策略，通过“回收”被丢弃 Token 中的信息，在大幅减少 Token 数量的同时最大程度保留了模型性能。
实现“大模型小资源”： 证明了通过高效的 Token 管理，大参数模型（如 26B）可以在比小参数模型（如 8B）更低的延迟和显存下，实现更高的准确率，打破了“大模型必然慢”的固有认知。

6. 意义与影响 (Significance)

推动 LVLM 落地： 显著降低了 LVLM 的推理成本和延迟，使其在资源受限的边缘设备或实时应用场景（如医疗影像分析、实时视频理解）中的部署成为可能。
优化计算资源分配： 为未来的多模态模型设计提供了新的视角，即不应仅关注 LLM 的压缩，而应关注整个多模态处理链路的协同优化。
性能与效率的平衡： 证明了通过智能的 Token 管理（合并而非简单丢弃），可以在不牺牲甚至提升模型能力的情况下，实现数量级的效率提升。

总结： iLLaVA 通过挖掘图像编码器和 LLM 中的双重冗余，并利用创新的“信息回收”合并策略，成功实现了 LVLM 的端到端高效加速，使得大模型在保持高精度的同时具备了极高的推理效率。