Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

本文提出了名为 SemVID 的训练无关视频时间定位剪枝框架,通过引入证据保留与连通性强度原则,动态分配帧级令牌预算并筛选对象、运动及上下文令牌,在显著降低计算成本的同时有效保持了关键语义证据链的完整性。

Jiaqi Li, Shuntian Zheng, Yixian Shen, Jia-Hong Huang, Xiaoman Lu, Minzhe Ni, Yu Guan

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 SemVID 的新方法,旨在让 AI 在处理长视频时变得更聪明、更快速,同时还能精准地找到用户想要的那一瞬间。

为了让你轻松理解,我们可以把整个任务想象成**“在茫茫大海中找宝藏”**。

1. 背景:大海里的难题

想象你有一部长达两小时的电影(长视频),用户问:“那个穿红衣服的人什么时候把包从柜子里拿出来的?”

  • 传统 AI 的做法:它会把整部电影切成成千上万个小碎片(Token),然后每一个碎片都仔细盯着看。这就像让一个侦探把电影里的每一帧画面都拿放大镜看一遍。虽然看得很细,但速度极慢,而且因为信息太多,侦探容易“看花眼”,找不到重点。
  • 现有的“偷懒”方法:为了快,以前的方法会直接扔掉一些“看起来不重要”的碎片。比如,它们可能只挑画面最亮、或者最像问题的地方看。
    • 问题出在哪? 就像侦探只盯着“最亮的灯”看,却忽略了“灯旁边那个关键的开关”。对于找“时间点”(比如动作发生的开始和结束)这种任务,中间的过渡过程前后的联系比单张漂亮的图片更重要。如果只挑重点帧,证据链就断了,AI 就不知道动作是从哪一秒开始、哪一秒结束的。

2. 核心思想:保持“证据链”不断

这篇论文的作者发现,要精准定位时间,AI 需要两样东西:

  1. 关键证据(Evidence Retention):必须保留那些直接回答问题的重要画面(比如手、包、柜子)。
  2. 连接桥梁(Connectivity Strength):必须保留那些连接重要画面的过渡片段(比如手伸向柜子的过程)。

如果只保留证据,就像只看到了“手在柜子里”和“手拿着包”,却看不到“手怎么伸进去”的过程,AI 就猜不出具体时间。

3. SemVID 的解决方案:聪明的“选角导演”

SemVID 就像一个经验丰富的选角导演,它不盲目地删减,而是给每一帧画面分配不同的“角色”,确保故事线完整:

  • 角色一:主角(Object Tokens)
    • 任务:寻找与问题直接相关的物体(如“包”、“柜子”)。
    • 策略:不仅要看,还要确保不重复。如果连续 10 帧都是同一个包,它只留最有代表性的几个,避免浪费资源。
  • 角色二:桥梁(Motion Tokens)
    • 任务:捕捉变化动作
    • 策略:专门挑选那些画面发生剧烈变化的帧(比如手开始移动的瞬间)。这些帧就像“桥梁”,把前后的证据连接起来,告诉 AI:“动作是从这里开始发生的”。
  • 角色三:背景板(Context Tokens)
    • 任务:维持场景的连贯性。
    • 策略:保留少量稳定的背景画面,防止 AI 在快速剪辑中迷失方向,知道“这还是在同一个房间里”。

4. 它是如何工作的?(三步走)

  1. 分配预算(Budget Allocation)
    导演先给每一帧分配“拍摄经费”。如果这一帧里发生了关键动作(比如手在动),或者这一帧和上一帧差别很大(状态改变了),就多发点经费,多留几个画面。如果画面很无聊,就少留点。
  2. 挑选演员(Token Selection)
    • 先挑主角:找那些最像问题的物体。
    • 再挑桥梁:找那些动作变化最明显的地方。
    • 最后留背景:留几个稳定的画面保底。
  3. 剪接成片
    把这些精选出来的画面拼在一起。虽然画面总数减少了 80% 以上(只留了 12.5%),但因为保留了关键证据连接桥梁,AI 依然能完美还原整个故事。

5. 效果如何?

  • 速度快:因为只看了很少的画面,AI 处理视频的速度提升了 5.8 倍
  • 准度高:在找时间点的任务上,它的准确率几乎和“全看”一样(保留了 95.4% 的精度),远远超过了其他“偷懒”的方法。
  • 不烧钱:不需要重新训练 AI 模型,直接就能用(Training-Free)。

总结

这就好比你要去一个巨大的图书馆找一本书。

  • 笨办法:把图书馆里每一本书都翻一遍(太慢)。
  • 旧办法:只挑封面最花哨的书看(容易漏掉关键信息,找不到书在哪一页)。
  • SemVID 办法:它先根据目录(问题)找到大概的书架(关键帧),然后特意保留书架之间走路的过道(过渡帧),确保你能顺着路走到书面前,最后精准地抽出那本书。

一句话总结:SemVID 通过**“抓重点、留桥梁、保背景”的策略,让 AI 在长视频里既能跑得快**,又能找得准,完美解决了“证据链断裂”的问题。