Stateful Token Reduction for Long-Video Hybrid VLMs

该论文针对混合架构长视频视觉语言模型,通过分析令牌重要性在层间的稀疏性与不稳定性,提出了一种结合语言感知评分机制与由低到高分阶段缩减策略的方法,在大幅加速推理的同时保持了高精度的性能。

Jindong Jiang, Amala Sanjay Deshmukh, Kateryna Chumachenko, Karan Sapra, Zhiding Yu, Guilin Liu, Andrew Tao, Pavlo Molchanov, Jan Kautz, Wonmin Byeon

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个大问题:当人工智能(AI)看很长的视频时,它为什么会“累”得那么快,以及我们如何让它既看得快、又看得准。

想象一下,你让一个超级聪明的 AI 助手看一部 2 小时的电影,然后问它:“主角最后穿什么颜色的衣服?”

1. 核心难题:信息过载的“图书馆”

现在的 AI 看视频,不是像人眼一样“扫一眼”,而是把视频切成成千上万个微小的“碎片”(论文里叫Token)。

  • 现状:一部长视频可能产生 10,000 多个碎片。AI 的大脑(模型)需要逐个处理这些碎片。
  • 问题:这就像让你在一秒钟内读完 10,000 页的百科全书,然后回答一个问题。这不仅慢,而且容易因为信息太多而“死机”(显存爆炸)或答非所问。

以前的方法是**“粗暴删减”**:在视频刚开始时,就随便扔掉一半的碎片,只留一半。

  • 比喻:这就像在电影刚开始时,就扔掉了前 30 分钟的所有画面,只保留后面的。结果 AI 可能根本不知道剧情是怎么发展的,导致回答错误。

2. 新发现:AI 的“大脑结构”变了

这篇论文研究的是一种新型 AI 架构(混合架构,Hybrid VLM),它把两种不同的“大脑”结合在了一起:

  1. 传统 Transformer:像是一个**“瞬间记忆”**,每次只看当前画面,看完就忘,没有长期记忆。
  2. Mamba(状态空间模型):像是一个**“记事本”**,它能一边看视频,一边在记事本上记笔记,把之前的信息压缩起来,带着继续往后看。

论文的关键发现:

  • 传统 AI:如果你早期扔掉了关键画面,它就永远失去了那部分信息,因为它没有“记事本”来补救。
  • 新型混合 AI:即使你早期扔掉了一些画面,它的“记事本”(Mamba 状态)里已经记录了那些画面的精华摘要。所以,它比传统 AI 更能容忍“删减”。

3. 解决方案:聪明的“渐进式剪辑”

基于这个发现,作者提出了一套**“由少到多,层层递进”**的剪辑策略,而不是“一刀切”。

比喻:像剥洋葱或看侦探小说

想象你在看一部侦探片,寻找线索:

  • 早期(洋葱外层/小说开头):线索很乱,你不确定哪个画面重要。
    • 旧方法:直接扔掉一半。结果可能扔掉了关键线索。
    • 新方法先别扔! 让 AI 先把所有画面都过一遍,让它的“记事本”把信息记下来。这时候保留大部分画面。
  • 中期(洋葱中层/小说中段):随着剧情推进,AI 的“记事本”越来越厚,它开始知道哪些画面是废话,哪些是关键。
    • 新方法:开始慢慢扔掉那些不重要的画面。
  • 后期(洋葱核心/小说结局):AI 已经非常清楚重点在哪了。
    • 新方法大胆扔掉剩下的废话,只保留最核心的几个画面。

核心技术点:

  1. 统一评分:无论是“瞬间记忆”还是“记事本”,作者都发明了一种方法,让 AI 能根据用户的问题(比如“主角穿什么”)来给每个画面打分。
  2. 渐进式删除:不是一开始就删,而是随着 AI 思考的深入,逐步减少画面数量。

4. 效果:快如闪电,准如神探

实验结果非常惊人:

  • 速度:在保留 25% 画面(即删掉 75% 的废话)的情况下,AI 处理长视频的速度提升了 3.8 到 4.2 倍
  • 准确度
    • 对于传统 AI:删多了,准确率就崩了。
    • 对于新型混合 AI:即使删掉 75% 的画面,它的回答准确率几乎和看完整视频一样!甚至经过一点点“复习”(微调训练)后,比看完整视频还准。
  • 长视频能力:以前看 512 帧的视频就会“内存溢出”(死机),现在用这个方法,可以流畅处理更长的视频。

总结

这篇论文就像给 AI 配备了一个**“智能剪辑师”
以前的剪辑师是
“盲目砍掉”,导致故事不完整;
现在的剪辑师是
“边看边记,慢慢精简”**。它利用新型 AI 架构的“记事本”能力,在视频刚开始时多保留信息,等 AI 理解了上下文后,再大胆地扔掉冗余信息。

最终结果:AI 看长视频不再需要“死记硬背”每一帧,而是**“抓重点、记摘要”**,既快又准,让长视频理解变得像看短视频一样轻松。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →