Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory

本文提出了名为 MemStream 的方法,通过扩展令牌预算、引入自适应选择策略以解决特征编码偏差,并结合免训练检索混合专家模型,显著提升了视频流理解与问答的细粒度时空推理能力。

Vatsal Agarwal, Saksham Suri, Matthew Gwilliam, Pulkit Kumar, Abhinav Shrivastava

发布于 2026-02-23
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让 AI 更好地“看”长视频并回答问题的故事。

想象一下,你正在给一个非常聪明但记性有点“短”的朋友(AI 模型)看一部长达几小时的电影,然后问他:“主角第二次摘了几个黄瓜?”

1. 以前的困境:记性太好反而坏事

以前的 AI 方法(比如论文中提到的 ReKV)就像是一个拼命记笔记的学生

  • 做法:为了不错过任何细节,它试图把电影里的每一帧画面都记在脑子里(Key-Value Cache,即 KV 缓存)。
  • 问题
    • 记太细反而乱:如果它把每一帧都记得太详细(比如每个像素都记下来),脑子里的信息量就爆炸了,反而导致它分不清重点。
    • “近因效应”偏差:更糟糕的是,随着电影越往后放,它脑子里的笔记越容易“串味”。就像你读一本很厚的书,读到后面时,前面的内容容易模糊,而它总是倾向于觉得“最新看到的内容”最重要。结果就是,当被问到电影开头的情节时,它却跑去翻电影结尾的笔记,完全答非所问。
    • 结果:你问它“摘了几个黄瓜”,它可能因为记混了,或者只盯着最后几秒看,给出了错误的答案(比如说是 6 个,实际是 3 个)。

2. 他们的解决方案:MemStream(记忆流)

作者团队提出了一个叫 MemStream 的新方法,就像给这个学生换了一套更聪明的记忆策略。这套策略分两步走:

第一步:学会“抓重点”(自适应关键选择 AKS)

  • 比喻:以前是“有闻必录”,现在变成了“写摘要”。
  • 做法:在观看视频时,AI 不再死记硬背每一帧的每一个细节。它像一个精明的编辑,在滑动窗口(比如最近看过的 10 分钟)里,自动识别哪些画面是重复的、没用的(比如一片静止的蓝天),然后果断删掉;只保留那些独特的、有信息量的画面(比如主角伸手摘黄瓜的动作)。
  • 效果:虽然记的内容变少了(压缩了),但留下的都是精华。这就解决了“记太细反而乱”的问题,让 AI 的脑子更清晰,不会在视频后半段迷失方向。

第二步:组建“专家顾问团”(无训练混合专家检索)

  • 比喻:以前是“一个人单打独斗”,现在是“多人会诊”。
  • 做法
    • 内部视角:AI 自己会思考:“我觉得这段视频跟问题有关。”
    • 外部视角:但是,AI 自己有时候也会看走眼(比如它擅长理解剧情,但不擅长数数)。于是,他们引入了一个外部的“视觉专家”(比如 CLIP 或 PECore 模型)。这个专家不看剧情,专门负责“看图说话”和“找细节”。
    • 投票机制:当需要回答问题时,AI 内部的想法和外部专家的意见会放在一起“投票”(使用一种叫 RRF 的融合技术)。如果内部觉得是第 5 分钟,外部专家也觉得第 5 分钟最关键,那就锁定第 5 分钟。
  • 效果:这种“双管齐下”的方法,既利用了 AI 对上下文的理解,又利用了外部模型对视觉细节的敏锐度,大大减少了“看走眼”的概率。

3. 最终成果:更准、更快

通过这套方法,AI 在处理长视频问答时表现惊人:

  • 更准:在几个著名的视频测试题(如 CG-Bench, LVBench)中,准确率比以前的方法提高了 8% 左右。
  • 更稳:不管视频多长,它都能稳定地找到答案,不会因为视频太长就“断片”或“偏科”。
  • 例子:回到那个“摘黄瓜”的问题,以前的 AI 可能答"6 个”,而用了 MemStream 的 AI 能准确回答"3 个”,因为它真正“看”到了那个关键画面,而不是被后面的画面带偏了。

总结

这就好比:

  • 以前的 AI:像一个试图把整本书背下来的学生,背到后面忘了前面,考试时乱猜。
  • 现在的 MemStream:像一个聪明的图书管理员。它知道书太厚不能全背,所以它只标记重点章节(AKS 策略),并且当有人问问题时,它会同时咨询自己的记忆和旁边的专家(混合专家策略),从而给出最准确的答案。

这项研究让 AI 真正具备了“过目不忘”且“抓大放小”的能力,为未来让 AI 实时理解超长视频(比如监控、直播、长电影)打下了坚实的基础。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →