UniComp: Rethinking Video Compression Through Informational Uniqueness

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 UniComp 的新方法，用来解决视频处理中“信息太多、计算太慢”的难题。

为了让你轻松理解，我们可以把处理视频想象成**“整理一个巨大的图书馆”，而 UniComp 就是这位图书馆里最聪明的“图书管理员”**。

1. 核心问题：为什么现在的“管理员”不够好？

以前的视频压缩方法（比如 VisionZip 或 HoliTom），就像是一个**“只盯着最亮灯光看”**的管理员。

旧方法（基于注意力）： 它们认为，哪里最显眼、哪里颜色最鲜艳、哪里动静最大，哪里就是重要的。于是，它们拼命保留这些“热闹”的地方。
缺点： 视频里有很多“热闹”其实是重复的。比如一个人一直在说话，嘴巴动得很频繁（很显眼），但每一帧的内容其实都差不多。旧方法会把每一帧都当成宝贝留着，导致**“虽然看着热闹，但全是废话”**，占用了大量空间，却漏掉了一些真正独特的细节（比如背景里一闪而过的路牌）。

2. UniComp 的新思路：寻找“独一无二”的信息

UniComp 换了一种思路，它不再看哪里“最亮”，而是看哪里**“最独特、不可替代”**。

核心哲学： 如果一张图片里的内容，在另一张图片里已经说过了，那它就是**“冗余”的，可以扔掉；如果这张图片里有一个全新的信息，是其他图片里没有的，那它就是“独特”**的，必须保留。
比喻： 想象你在听一个人讲了一个小时的旅行故事。
- 旧方法会记录他每一句“然后、然后、然后”，因为他在不停地说话（注意力高）。
- UniComp 会想：“这一小时里，他其实只讲了三个新地方。前面 50 分钟都在重复‘然后我们到了下一个地方’。我只需要记录那三个新地方的名字和样子，剩下的废话都可以删掉。”

3. UniComp 的“三步走”魔法

为了实现这个“只留独特信息”的目标，UniComp 设计了三个聪明的步骤：

第一步：帧组融合 (Frame Group Fusion) —— “把重复的章节合并”

做法： 视频是由一帧帧画面组成的。UniComp 会先快速浏览，发现如果连续几帧画面几乎一模一样（比如一个人静止站着），它就把这几帧**“合并”**成一帧代表。
比喻： 就像把一本全是“然后、然后、然后”的重复章节的书，直接合并成“中间过程略过”，只保留剧情转折的关键页。

第二步：令牌分配 (Token Allocation) —— “给重要的章节更多篇幅”

做法： 合并后，视频变短了。UniComp 会计算每一段视频有多“独特”。如果某一段视频内容很新颖（比如突然出现了新角色），它就多分给它一些“字数”（计算资源）；如果某一段很无聊（比如风景没变），就少分点。
比喻： 就像写日记，遇到“今天遇到了外星人”这种大事，你要写满一页纸；遇到“今天吃了早饭”这种小事，一句话带过。

第三步：空间动态压缩 (Spatial Dynamic Compression) —— “在每一页里只留精华”

做法： 在每一帧画面内部，它也会挑挑拣拣。它会把画面里那些“长得太像”的像素点（Token）融合在一起，只留下那些**“独一无二”**的像素点。
比喻： 就像在一幅画里，如果左边和右边的云朵长得一模一样，UniComp 会说：“留左边这个就够了，右边的删掉，因为它是复制粘贴的。”

4. 效果如何？

论文通过大量实验证明，UniComp 非常厉害：

更省空间： 即使只保留 5% 的画面信息（就像把一本书压缩成一张小纸条），它依然能准确回答视频里的问题。
更懂细节： 在极端的压缩下，旧方法可能会把“茶盒上的字”看错，但 UniComp 因为保留了“独特性”，连茶盒上写着"PEPPERMINT TEA"（薄荷茶）都能认出来。
通用性强： 它不需要重新训练整个大模型，像是一个“即插即用”的插件，换什么模型都能用。

总结

UniComp 就像是一个精明的“信息过滤器”。
它不再盲目地保留所有“热闹”的画面，而是用**“信息独特性”作为尺子，把视频里那些“重复的废话”全部过滤掉，只把“真正有新意、不可替代”**的精华保留下来。

这样做的好处是：视频变短了，计算变快了，但模型看懂视频的能力反而更强了。 就像你读一本经过 UniComp 编辑的“精华版”小说，虽然页数少了，但故事的核心情节一个都没少，读起来还更快！

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

随着多模态大语言模型（MLLMs）在处理长视频理解任务中的快速发展，视频输入带来的巨大计算成本已成为扩展性和效率的主要瓶颈。现有的视频压缩方法主要存在以下局限性：

过度依赖注意力机制：大多数现有方法（如 VisionZip, HoliTom）基于注意力分数（Attention Score）来评估 token 的重要性。虽然这能突出显著内容，但往往忽略了细粒度细节，且容易在不同帧之间引入冗余。
极端压缩下的信息丢失：在激进的压缩设置下（如仅保留少量 token），基于注意力的方法倾向于保留“显著性”而非“信息量”，导致关键信息丢失。
泛化性与部署困难：许多 SOTA 方法（如 DyCoke, HoliTom）需要修改 LLM 内部的注意力层或调整大量超参数（>5 个），难以在不同架构间通用，且部署成本高。
缺乏理论支撑：现有的压缩策略缺乏从信息论角度对“压缩保真度”的严格定义。

2. 核心方法论 (Methodology)

UniComp 提出了一种全新的视角：视频压缩的本质不在于“注意力”，而在于“信息独特性”（Information Uniqueness）。其核心思想是：在受限的计算预算下，模型应优先保留携带独特且不可替代信息的帧和 token，而冗余或重叠的表示可以通过其他保留的 token 进行重构。

2.1 理论基础：信息独特性与优化目标

定义：作者将视频压缩建模为最小化保留 token 集合 $S$ 与完整 token 集合 $X$ 之间的条件熵 $H(X|S)$ ，这等价于最小化重构误差。
信息独特性（Information Uniqueness）：定义 token $x_i$ 与 $x_j$ 之间的成对独特性 $u_{ij} = 1 - \text{cosine\_similarity}(x_i, x_j)$ 。token 的独特性 $U_i$ 是其与所有其他 token 平均独特性的度量。
理论推导：证明了重构误差存在一个与独特性相关的上界： $E(S) \le 2 \sum_{j \in X} \min_{i \in S} u_{ij}$ 。这意味着，如果丢弃的 token 具有高独特性，重构误差将增大。因此，最大化保留 token 的独特性是减少信息损失的有效策略。

2.2 框架架构：UniComp

UniComp 是一个即插即用的框架，包含三个协同模块，按顺序执行：

帧组融合 (Frame Group Fusion, FGF)
- 目标：消除时间冗余。
- 机制：基于帧的全局特征（通过平均池化获得），计算帧间的独特性得分。如果连续帧与当前组代表帧的独特性差异小于阈值 $U_f$ ，则视为语义冗余，将其合并到同一组；否则开启新组。
- 结果：将高度冗余的连续帧融合为紧凑的代表性特征，自适应地调整时间粒度（稳定场景合并多帧，动态场景细分）。
Token 分配 (Token Allocation, TA)
- 目标：全局资源动态分配。
- 机制：根据每个融合后帧组的全局独特性分配 token 预算。独特性高的帧（语义差异大）分配更多 token，独特性低的帧分配较少 token。
- 公式：使用 Softmax 将归一化后的独特性分数转化为概率分布，决定每帧分配的 token 数量 $K_t$ 。
空间动态压缩 (Spatial Dynamic Compression, SDC)
- 目标：消除空间冗余，保留最具信息量的 token。
- 机制：
  - 计算帧内每个 token 的独特性（基于 ViT 最后一层的 Keys）。
  - 贪婪选择与融合：按独特性降序排列 token。对于高独特性的 token 予以保留；对于独特性低于阈值 $U_c$ 的冗余 token，不直接丢弃，而是与其邻居 token 进行融合（Fusion）（取平均值），生成一个代表 token。
  - 该过程构建了一个贪婪图冗余消除机制，将独特性聚类压缩为单个代表 token。
- 优化：通过矩阵级并行计算优化了原本高复杂度的算法，加速近 20 倍。

3. 关键贡献 (Key Contributions)

理论创新：首次从信息论角度（条件熵最小化）形式化了视频压缩问题，并引入“信息独特性”概念量化特征冗余，建立了独特性与信息保真度之间的理论联系。
新框架 UniComp：提出了一个基于独特性驱动的压缩框架，统一了时间融合、全局分配和空间压缩，无需修改 LLM 内部结构。
高通用性与低开销：
- 仅需 2 个超参数（ $U_f$ 和 $U_c$ ），默认设置可跨不同 ViT 和 LLM 迁移。
- 即插即用（Plug-and-play），无需微调（Training-free），易于部署。
SOTA 性能：在多个长视频理解基准测试中，UniComp 在有限的计算预算下， consistently 超越了现有的 SOTA 压缩方法，甚至在某些设置下优于未压缩的基线。

4. 实验结果 (Results)

实验在 LLaVA-OneVision-7B, LLaVA-Video-7B 和 Eagle2.5 等模型上，针对 LongVideoBench, EgoSchema, MLVU, VideoMME 等基准进行测试。

压缩性能：
- 在 32 帧输入下，UniComp 在 25%、20%、15%、10% 的保留率设置下，平均准确率均优于 VisionZip, HoliTom, FastVid 等 SOTA 方法。
- 在 10% 保留率（极端压缩）下，UniComp 仍能达到 59.80% 的平均准确率，比 HoliTom 高出 0.9 个百分点。
- 超越基线：在 Eagle2.5 模型上，UniComp 在仅保留 5% token 的情况下，仍能识别出关键文字（如"PEPPERMINT TEA"），甚至在某些指标上超越了未压缩的基线模型。
长视频扩展性：
- 在输入 320 帧（压缩至 6272 tokens）的极端场景下，UniComp 平均准确率达到 62.45%，比次优方法高出 1.02%，比未压缩基线高出 2.5%。
- 证明了该方法在处理小时级长视频时，能有效平衡时间覆盖率和 token 效率。
效率提升：
- 在 320 帧输入下，UniComp 将 首 Token 延迟 (TTFT) 降低了 4.15 倍，显著提升了推理速度。
消融实验：
- 验证了 FGF、TA、SDC 三个模块的必要性。
- 证明了基于“独特性”的选择策略优于基于“注意力 Top-K"的策略。
- 证明了“邻居融合”策略比直接丢弃冗余 token 效果更好。

5. 意义与影响 (Significance)

范式转变：UniComp 挑战了传统基于注意力分数的压缩范式，提出了“信息独特性”这一更本质的压缩原则，为视频理解提供了新的理论视角。
实用价值：该方法无需训练、超参数少、通用性强，解决了当前长视频大模型落地难、显存占用高、推理慢的痛点，为多模态模型处理超长视频提供了高效的解决方案。
信息保真：通过保留最具独特性的信息，UniComp 在极端压缩下仍能保持极高的语义保真度，这对于需要精确细节（如文字识别、物体计数、时序推理）的任务至关重要。

总结而言，UniComp 通过数学上严谨的信息独特性理论，设计了一套高效、通用且强大的视频压缩框架，显著提升了多模态大模型在长视频场景下的性能与效率。