Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

本文提出了一种名为 AOT 的免训练方法,通过利用局部和全局上下文优化,在帧内和帧间建立锚点并借助最优传输技术聚合信息,从而在显著降低视频大语言模型计算成本的同时保持时空保真度。

Jinlong Li, Liyuan Jiang, Haonan Zhang, Nicu Sebe

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让视频大语言模型(Video LLM)变得更聪明、更省力的新方法,叫做 AOT

为了让你轻松理解,我们可以把视频大语言模型想象成一位正在看监控录像的“超级侦探”

1. 现在的痛点:侦探被信息淹没了

想象一下,这位侦探要分析一段长达几小时的监控视频。

  • 传统做法:侦探必须把每一帧画面(比如每秒 30 帧,一小时就是 10 万帧)里的每一个像素点都看一遍,记在脑子里,然后再去回答问题。
  • 问题:这太累了!而且,视频里充满了废话。比如,一个人站在门口,背景里的树叶在动,但大部分画面其实是一样的。侦探花大量精力去记那些重复的、没用的树叶和背景,反而忽略了关键信息(比如那个人手里拿的是什么)。
  • 现有的“偷懒”方法:以前的方法就像侦探直接扔掉他觉得没用的画面,或者把两张很像的画面强行合并成一张。但这有个大毛病:如果不小心,可能会把关键信息(比如那个人衣服上的一个小徽章)给扔掉了,导致侦探最后答错了。

2. AOT 的核心思想:聪明的“信息搬运工”

这篇论文提出的 AOT 方法,不是简单地“扔掉”或“合并”,而是像一位高明的物流调度员,使用一种叫**最优传输(Optimal Transport)**的数学策略。

我们可以用两个生动的比喻来理解它的两个步骤:

第一步:帧内优化(单张画面里的“精华提取”)

想象侦探正在看一张静止的照片。

  • 建立“锚点”(Anchors):侦探先选出画面里最重要的几个位置作为“据点”(比如人的脸、手、关键物体)。这些就是锚点
  • 智能搬运:画面里剩下的那些“废话”像素(比如背景里模糊的树),侦探不会直接扔掉。他会计算这些“废话”里有没有一点点有用的信息(比如树叶的颜色暗示了季节)。
  • 最优传输(OT):这就好比侦探手里有一个智能传送带。他通过计算,把那些“废话”里仅存的一点点有用信息,精准地搬运到刚才选好的“据点”上。
    • 结果:据点变得更丰富了(既有原本的信息,又吸收了周围环境的细节),而画面里剩下的像素变少了,但信息量没丢

第二步:帧间优化(时间轴上的“去重”)

现在侦探要看连续的视频了。

  • 关键帧锚点:侦探把视频切成一小段一小段(比如每 5 帧一段)。他选定每一段的第一帧作为“队长”(锚点)。
  • 动态聚合:接下来的几帧,如果画面和“队长”很像(比如人只是稍微动了一下),侦探就把这些相似画面的信息,通过传送带“喂”给“队长”。
  • 保留变化:如果某帧画面发生了剧烈变化(比如突然有人跳出来),侦探就会把这个“变化”单独保留下来,不合并,因为这是关键剧情。
  • 结果:原本需要看 100 帧,现在侦探只需要看几个“超级浓缩”的帧,就能掌握整段视频的剧情,而且不会漏掉任何关键动作。

3. 为什么这个方法很厉害?

  • 不丢细节:以前的方法是“做减法”(扔掉),AOT 是“做加法”(把被扔掉的有用信息吸收到保留的点上)。就像把散落在地上的珍珠,一颗颗捡起来串成项链,而不是把珍珠扫进垃圾桶。
  • 不用重新训练:这个方法不需要给侦探(模型)重新上课(训练),直接就能用,非常省钱省力。
  • 效果惊人:实验表明,即使把视频里的信息量压缩到原来的 10%(只保留 1/10 的 Token),侦探的回答准确率依然能保持 97% 以上。这意味着它把计算速度提高了 10 倍,但脑子依然很灵光。

总结

简单来说,AOT 就是给视频大模型装了一个智能的“信息压缩与重组”系统

它不再粗暴地删除画面,而是像一位精明的管家

  1. 先选出最重要的“核心人物”(锚点)。
  2. 把周围“路人”身上有价值的信息(比如衣服颜色、背景线索)都收集起来喂给核心人物。
  3. 在时间轴上,把重复的“日常动作”合并,只保留“精彩瞬间”。

最终,模型处理视频的速度飞快,而且因为保留了所有关键信息,回答问题的准确度依然很高。这就是这篇论文带来的“高效视频理解”新视角。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →