UniComp: Rethinking Video Compression Through Informational Uniqueness

本文提出了名为 UniComp 的基于信息独特性的视频压缩框架,通过最小化条件熵并设计帧组融合、令牌分配及空间动态压缩三个模块,在受限计算预算下显著提升了视频表示的信息保真度。

Chao Yuan, Shimin Chen, Minliang Lin, Limeng Qiao, Guanglu Wan, Lin Ma

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 UniComp 的新方法,用来解决视频处理中“信息太多、计算太慢”的难题。

为了让你轻松理解,我们可以把处理视频想象成**“整理一个巨大的图书馆”,而 UniComp 就是这位图书馆里最聪明的“图书管理员”**。

1. 核心问题:为什么现在的“管理员”不够好?

以前的视频压缩方法(比如 VisionZip 或 HoliTom),就像是一个**“只盯着最亮灯光看”**的管理员。

  • 旧方法(基于注意力): 它们认为,哪里最显眼、哪里颜色最鲜艳、哪里动静最大,哪里就是重要的。于是,它们拼命保留这些“热闹”的地方。
  • 缺点: 视频里有很多“热闹”其实是重复的。比如一个人一直在说话,嘴巴动得很频繁(很显眼),但每一帧的内容其实都差不多。旧方法会把每一帧都当成宝贝留着,导致**“虽然看着热闹,但全是废话”**,占用了大量空间,却漏掉了一些真正独特的细节(比如背景里一闪而过的路牌)。

2. UniComp 的新思路:寻找“独一无二”的信息

UniComp 换了一种思路,它不再看哪里“最亮”,而是看哪里**“最独特、不可替代”**。

  • 核心哲学: 如果一张图片里的内容,在另一张图片里已经说过了,那它就是**“冗余”的,可以扔掉;如果这张图片里有一个全新的信息,是其他图片里没有的,那它就是“独特”**的,必须保留。
  • 比喻: 想象你在听一个人讲了一个小时的旅行故事。
    • 旧方法会记录他每一句“然后、然后、然后”,因为他在不停地说话(注意力高)。
    • UniComp 会想:“这一小时里,他其实只讲了三个新地方。前面 50 分钟都在重复‘然后我们到了下一个地方’。我只需要记录那三个新地方的名字和样子,剩下的废话都可以删掉。”

3. UniComp 的“三步走”魔法

为了实现这个“只留独特信息”的目标,UniComp 设计了三个聪明的步骤:

第一步:帧组融合 (Frame Group Fusion) —— “把重复的章节合并”

  • 做法: 视频是由一帧帧画面组成的。UniComp 会先快速浏览,发现如果连续几帧画面几乎一模一样(比如一个人静止站着),它就把这几帧**“合并”**成一帧代表。
  • 比喻: 就像把一本全是“然后、然后、然后”的重复章节的书,直接合并成“中间过程略过”,只保留剧情转折的关键页。

第二步:令牌分配 (Token Allocation) —— “给重要的章节更多篇幅”

  • 做法: 合并后,视频变短了。UniComp 会计算每一段视频有多“独特”。如果某一段视频内容很新颖(比如突然出现了新角色),它就多分给它一些“字数”(计算资源);如果某一段很无聊(比如风景没变),就少分点。
  • 比喻: 就像写日记,遇到“今天遇到了外星人”这种大事,你要写满一页纸;遇到“今天吃了早饭”这种小事,一句话带过。

第三步:空间动态压缩 (Spatial Dynamic Compression) —— “在每一页里只留精华”

  • 做法: 在每一帧画面内部,它也会挑挑拣拣。它会把画面里那些“长得太像”的像素点(Token)融合在一起,只留下那些**“独一无二”**的像素点。
  • 比喻: 就像在一幅画里,如果左边和右边的云朵长得一模一样,UniComp 会说:“留左边这个就够了,右边的删掉,因为它是复制粘贴的。”

4. 效果如何?

论文通过大量实验证明,UniComp 非常厉害:

  • 更省空间: 即使只保留 5% 的画面信息(就像把一本书压缩成一张小纸条),它依然能准确回答视频里的问题。
  • 更懂细节: 在极端的压缩下,旧方法可能会把“茶盒上的字”看错,但 UniComp 因为保留了“独特性”,连茶盒上写着"PEPPERMINT TEA"(薄荷茶)都能认出来。
  • 通用性强: 它不需要重新训练整个大模型,像是一个“即插即用”的插件,换什么模型都能用。

总结

UniComp 就像是一个精明的“信息过滤器”
它不再盲目地保留所有“热闹”的画面,而是用**“信息独特性”作为尺子,把视频里那些“重复的废话”全部过滤掉,只把“真正有新意、不可替代”**的精华保留下来。

这样做的好处是:视频变短了,计算变快了,但模型看懂视频的能力反而更强了。 就像你读一本经过 UniComp 编辑的“精华版”小说,虽然页数少了,但故事的核心情节一个都没少,读起来还更快!