Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning

本文提出了一种名为 CaCoVID 的基于强化学习的视频理解新框架,通过优化策略网络主动选择对预测贡献最大的视频令牌组合,从而有效解决现有注意力分数导向的压缩方法中令牌贡献度不明确的问题,显著提升了视频大语言模型的推理效率。

Yinchao Ma, Qiang Zhou, Zhibin Wang, Xianing Chen, Hanqing Yang, Jun Song, Bo Zheng

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 CaCoVID 的新方法,旨在让 AI 看懂视频时变得更聪明、更快速。

想象一下,你正在看一部长达两小时的电影,但你的大脑(也就是 AI 模型)只能同时记住很少的画面。如果它试图把每一帧画面都塞进脑子里,不仅会累得喘不过气(计算量太大),而且因为信息太多,反而容易抓不住重点。

以前的方法就像是一个**“死板的图书管理员”**:

  • 按“音量”选书: 以前的 AI 会看哪些画面在“大声喊叫”(注意力分数高),就保留哪些。
  • 按“多样性”选书: 或者试图保留画面最丰富、最不一样的部分。
  • 问题: 有时候,那些“大声喊叫”的画面(比如背景里的路人)其实对回答问题毫无帮助,而真正关键的细节(比如主角手里拿的苹果)却可能因为声音小而被忽略。这就好比为了回答“主角穿了什么颜色的衣服”,AI 却把主角的脸和衣服都删掉了,只保留了背景里的树。

CaCoVID 做了什么?
它引入了一个**“聪明的侦探”(基于强化学习),这个侦探不靠死板的规则,而是靠“实战演练”**来学习。

我们可以用三个生动的比喻来理解它的核心创新:

1. 从“被动筛选”到“主动寻宝”

  • 旧方法: 就像在沙滩上捡贝壳,不管贝壳好不好看,只要海浪(注意力机制)把它推过来,就捡起来。
  • CaCoVID: 就像是一个带着任务清单的寻宝猎人
    • 如果问题是“那个男人穿了什么?”,寻宝猎人会直接忽略大海、天空和路人,只死死盯着那个男人的衣服。
    • 它通过不断尝试(强化学习),问自己:“如果我保留这一帧,能答对吗?如果保留那一帧,能答对吗?”最终,它学会了一套**“贡献度评分”**,只保留那些对回答问题最有用的画面碎片。

2. 解决“大海捞针”的难题:在线组合空间采样 (OCSS)

这是论文中最硬核的技术部分,但我们可以这样理解:

  • 难题: 一部视频有几千个画面碎片(Token)。如果让 AI 随机尝试保留哪 100 个,组合的数量是天文数字(比宇宙中的沙子还多)。AI 如果盲目尝试,永远学不会,就像让你在一座巨大的迷宫里随机乱跑,想找到出口几乎不可能。
  • CaCoVID 的妙招: 它把迷宫分成了**“小区块”**。
    • 它先给所有画面碎片打个分(贡献度)。
    • 然后,它不会把高分和低分的碎片混在一起随机试。相反,它把**“分数差不多”**的碎片归为一组。
    • 比喻: 想象你在选足球队。你不会把“世界级球星”和“刚学会踢球的小孩”混在一起随机选人。CaCoVID 会先选出“球星组”、“替补组”、“新手组”,然后重点在“球星组”里尝试不同的搭配。
    • 效果: 这大大缩小了搜索范围,让 AI 能迅速找到最佳组合,就像在迷宫里有了地图,不再盲目乱撞。

3. 动态调整策略:越难越努力

  • 智能调节: 这个系统很“机灵”。
    • 如果它发现某个问题太简单(不看视频也能猜对),它就不浪费时间去研究这个视频了(过滤无效样本)。
    • 如果它发现某个问题很难,它会自动增加“尝试次数”或调整保留画面的比例,直到找到最佳方案。
    • 这就像学生做题,简单的题一眼扫过,难的题多花点时间反复琢磨。

总结:它带来了什么好处?

  1. 更快(省资源): 它把视频数据压缩了 75% 甚至更多(只保留 25% 的关键信息),但推理速度却快了很多。就像把一部 2 小时的电影压缩成 30 分钟的精华版,但核心剧情一点没丢。
  2. 更准(效果好): 在多个视频理解测试中,它的表现超过了目前最先进的其他方法。因为它保留的是**“真正有用”**的信息,而不是“看起来热闹”的信息。
  3. 不伤原模型: 它不需要重新训练那个庞大的 AI 模型(就像不需要给大脑做手术),只是加了一个小小的“过滤器”插件,就能让旧模型焕发新生。

一句话总结:
CaCoVID 就像给 AI 装上了一副**“智能眼镜”**,让它在看视频时,能自动忽略无关的背景噪音,只把最关键的细节(比如衣服颜色、动作、物体)聚焦在视野中心,从而用更少的精力,更准确地回答问题。