Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让视频大语言模型（Video LLM）变得更聪明、更省力的新方法，叫做 AOT。

为了让你轻松理解，我们可以把视频大语言模型想象成一位正在看监控录像的“超级侦探”。

1. 现在的痛点：侦探被信息淹没了

想象一下，这位侦探要分析一段长达几小时的监控视频。

传统做法：侦探必须把每一帧画面（比如每秒 30 帧，一小时就是 10 万帧）里的每一个像素点都看一遍，记在脑子里，然后再去回答问题。
问题：这太累了！而且，视频里充满了废话。比如，一个人站在门口，背景里的树叶在动，但大部分画面其实是一样的。侦探花大量精力去记那些重复的、没用的树叶和背景，反而忽略了关键信息（比如那个人手里拿的是什么）。
现有的“偷懒”方法：以前的方法就像侦探直接扔掉他觉得没用的画面，或者把两张很像的画面强行合并成一张。但这有个大毛病：如果不小心，可能会把关键信息（比如那个人衣服上的一个小徽章）给扔掉了，导致侦探最后答错了。

2. AOT 的核心思想：聪明的“信息搬运工”

这篇论文提出的 AOT 方法，不是简单地“扔掉”或“合并”，而是像一位高明的物流调度员，使用一种叫**最优传输（Optimal Transport）**的数学策略。

我们可以用两个生动的比喻来理解它的两个步骤：

第一步：帧内优化（单张画面里的“精华提取”）

想象侦探正在看一张静止的照片。

建立“锚点”（Anchors）：侦探先选出画面里最重要的几个位置作为“据点”（比如人的脸、手、关键物体）。这些就是锚点。
智能搬运：画面里剩下的那些“废话”像素（比如背景里模糊的树），侦探不会直接扔掉。他会计算这些“废话”里有没有一点点有用的信息（比如树叶的颜色暗示了季节）。
最优传输（OT）：这就好比侦探手里有一个智能传送带。他通过计算，把那些“废话”里仅存的一点点有用信息，精准地搬运到刚才选好的“据点”上。
- 结果：据点变得更丰富了（既有原本的信息，又吸收了周围环境的细节），而画面里剩下的像素变少了，但信息量没丢。

第二步：帧间优化（时间轴上的“去重”）

现在侦探要看连续的视频了。

关键帧锚点：侦探把视频切成一小段一小段（比如每 5 帧一段）。他选定每一段的第一帧作为“队长”（锚点）。
动态聚合：接下来的几帧，如果画面和“队长”很像（比如人只是稍微动了一下），侦探就把这些相似画面的信息，通过传送带“喂”给“队长”。
保留变化：如果某帧画面发生了剧烈变化（比如突然有人跳出来），侦探就会把这个“变化”单独保留下来，不合并，因为这是关键剧情。
结果：原本需要看 100 帧，现在侦探只需要看几个“超级浓缩”的帧，就能掌握整段视频的剧情，而且不会漏掉任何关键动作。

3. 为什么这个方法很厉害？

不丢细节：以前的方法是“做减法”（扔掉），AOT 是“做加法”（把被扔掉的有用信息吸收到保留的点上）。就像把散落在地上的珍珠，一颗颗捡起来串成项链，而不是把珍珠扫进垃圾桶。
不用重新训练：这个方法不需要给侦探（模型）重新上课（训练），直接就能用，非常省钱省力。
效果惊人：实验表明，即使把视频里的信息量压缩到原来的 10%（只保留 1/10 的 Token），侦探的回答准确率依然能保持 97% 以上。这意味着它把计算速度提高了 10 倍，但脑子依然很灵光。

总结

简单来说，AOT 就是给视频大模型装了一个智能的“信息压缩与重组”系统。

它不再粗暴地删除画面，而是像一位精明的管家：

先选出最重要的“核心人物”（锚点）。
把周围“路人”身上有价值的信息（比如衣服颜色、背景线索）都收集起来，喂给核心人物。
在时间轴上，把重复的“日常动作”合并，只保留“精彩瞬间”。

最终，模型处理视频的速度飞快，而且因为保留了所有关键信息，回答问题的准确度依然很高。这就是这篇论文带来的“高效视频理解”新视角。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心痛点：
视频大语言模型 (VLLMs) 在处理复杂视频理解任务时表现出色，但面临严重的效率瓶颈。

冗余 Token 过多： 视频包含大量帧，每帧包含大量视觉 Token，导致输入序列极长（可达数十万 Token），造成巨大的计算开销和显存消耗。
现有方法的局限性：
- 仅关注帧内冗余： 大多数现有剪枝方法（如 ToMe, FastV）主要处理单帧内的空间冗余，忽略了帧间的时间冗余。
- 浅层剪枝或简单合并： 现有方法往往在 LLM 浅层进行剪枝，或者简单地移除低重要性 Token、合并相似 Token。
- 信息丢失： 简单移除或合并会导致细微但重要的语义和上下文信息丢失，特别是在长视频或复杂场景中，难以平衡效率与性能。
- 缺乏训练成本： 许多高效方法需要额外的训练或微调，增加了部署成本。

目标：
开发一种无需训练 (Training-free) 的方法，能够在大幅减少 Token 数量的同时，通过优化策略从被移除或合并的 Token 中提取并聚合关键信息，保留视频的时空完整性。

2. 方法论 (Methodology)

作者提出了一种名为 AOT (Anchors via Optimal Transport) 的新框架，核心思想是利用最优传输 (Optimal Transport, OT) 理论，在帧内 (Intra-frame) 和帧间 (Inter-frame) 两个维度上建立“锚点 (Anchors)"并聚合信息。

2.1 核心组件：局部 - 全局 Token 锚点 (Local-Global Token Anchors)

为了保留语义重要性和空间多样性，AOT 首先为每一帧建立 Token 锚点：

全局锚点 (Global Anchors)： 利用视觉编码器输出层的 [CLS] Token 的注意力分数（或自注意力均值），选择接收注意力最多的全局关键 Token。
局部锚点 (Local Anchors)： 将图像划分为网格 (Grid-wise)，在每个网格内选择局部注意力分数最高的 Token，以保留细粒度的局部细节。
结果： 形成一组由全局和局部锚点组成的集合 $X_{anchors}$ ，其余 Token 视为待聚合的未选 Token $X_{unanchors}$ 。

2.2 帧内 Token 剪枝 (Intra-Frame Pruning via OT)

在单帧内部，利用最优传输将未选 Token 的信息“运输”并聚合到锚点 Token 上：

建模： 将锚点 Token 视为“需求方 (Demander)"，未选 Token 视为“供应方 (Supplier)"。
成本矩阵： 使用 Token 之间的逆余弦相似度 ( $1 - \text{sim}(X_a, X_u)$ ) 作为传输成本。
传输计划： 通过 Sinkhorn-Knopp 迭代 快速求解最优传输计划 $T^*$ ，计算每个锚点从所有未选 Token 接收的“质量 (Mass)"。
聚合更新： 根据传输质量，加权更新锚点 Token 的表示：
$\tilde{x}_j = x_j + \lambda \frac{\sum T^*_{ij} x_i}{1 + \lambda m_j}$
这使得锚点 Token 不仅包含自身信息，还融合了被剪枝 Token 中的关键上下文。

2.3 帧间 Token 剪枝 (Inter-Frame Pruning via OT)

在时间维度上，处理连续帧之间的冗余：

策略： 将视频分割为片段 (Clips)，以片段的第一帧的压缩 Token 作为初始时间锚点。
动态聚合： 对于后续帧，计算其与当前时间锚点的 OT 距离。
- 如果 Token 与锚点高度相似（传输概率高），则将其信息聚合到锚点中（平滑更新）。
- 如果 Token 表现出剧烈的时间变化（传输概率低，即 $q_i < \tau$ ），则保留该 Token 以维持时间动态性。
结果： 最终得到一组紧凑的片段级锚点和少量保留的时间动态 Token。

2.4 优势

无需训练： 完全基于推理阶段的优化策略。
信息保留： 不是简单丢弃，而是通过 OT 将信息“蒸馏”到保留的 Token 中。
计算高效： Sinkhorn 迭代收敛极快，额外开销可忽略不计（<1% 推理时间）。

3. 主要贡献 (Key Contributions)

新视角： 首次提出从“合并/移除”的 Token 中聚合细微但 informative 的语义和上下文信息，而非简单丢弃。
锚点机制： 设计了结合局部 (Local) 和全局 (Global) 先验的 Token 锚点选择策略，确保保留的 Token 既语义重要又空间多样。
OT 驱动优化： 探索利用最优传输 (OT) 在帧内和帧间聚合时空上下文，在无需训练的情况下实现了时空保真度。
SOTA 性能： 在多个视频基准测试中，以极低的 Token 预算实现了极具竞争力的性能。

4. 实验结果 (Results)

实验在 LLaVA-OneVision-7B 和 LLaVA-Video-7B 模型上进行了广泛评估，基准包括 MVBench, EgoSchema, LongVideoBench, VideoMME。

效率提升：
- 在 10% Token 保留率（即剪枝 90%）的情况下，计算量 (FLOPs) 降低至原始模型的 8.3%。
- 推理速度显著提升，且额外 OT 计算开销极小（约 2.11 毫秒/视频）。
性能保持：
- 在 10% 保留率下，AOT 保留了原始模型 97.6% 的平均性能。
- 在 25% 保留率下，性能甚至超过原始模型（部分基准），证明去除冗余噪声有助于模型聚焦关键信息。
对比基线：
- 显著优于 FastV, PDrop, VisionZip, DyCoke, PruneVid, FastVID 等现有无训练剪枝方法。
- 特别是在长视频和复杂场景下，AOT 表现出更强的鲁棒性。
扩展性：
- 随着输入帧数增加（从 16 到 128 帧），AOT 的性能提升更加明显，有效解决了长视频上下文长度限制的问题。

5. 意义与影响 (Significance)

推动 VLLM 落地： 解决了视频大模型推理成本高、显存占用大的核心瓶颈，使得在消费级硬件或大规模部署中处理长视频成为可能。
理论创新： 将最优传输理论成功引入视觉 Token 压缩领域，提供了一种数学上严谨且高效的上下文聚合范式。
通用性强： 该方法作为即插即用的模块，适用于不同的 VLLM 架构，且无需重新训练模型，具有极高的实用价值。
未来方向： 论文指出 OT 策略本身是可微分的，未来可探索结合微调 (Fine-tuning) 或指令微调，进一步优化 Token 缩减框架。

总结： AOT 通过“局部 - 全局锚点选择”结合“最优传输信息聚合”，在大幅削减视频 Token 的同时，巧妙地保留了关键语义和时空动态，实现了效率与性能的最佳平衡，是视频大模型高效推理领域的重要突破。