Thinking in Streaming Video

本文提出了 ThinkStream 框架,通过“观察—思考—回答”的增量推理范式、基于推理压缩的流式记忆机制(RCSM)以及可验证奖励的流式强化学习训练方案,实现了低延迟、低内存占用的实时视频流理解,显著优于现有的在线视频模型。

Zikang Liu, Longteng Guo, Handong Li, Ru Zhen, Xingjian He, Ruyi Ji, Xiaoming Ren, Yanhao Zhang, Haonan Lu, Jing Liu

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ThinkStream 的新系统,它的核心目标是让 AI 像真人一样,能够实时地、边看边想地理解连续的视频流,而不是等视频看完后再去“倒带”思考。

为了让你更容易理解,我们可以把现有的 AI 视频理解方式和新提出的 ThinkStream 比作两种不同的**“看侦探剧”**的方式:

1. 旧模式:等剧终再写影评(批处理模式)

  • 现状:现在的 AI 处理视频就像是一个强迫症观众。它必须把整部 2 小时的电影从头到尾看完,把每一帧画面都记在脑子里,然后关起门来,花很长时间慢慢分析:“刚才那个凶手为什么拿刀?现在剧情发展到哪了?”
  • 问题
    • 太慢了:等你分析完,电影都散场了,根本没法实时互动。
    • 记不住:如果电影太长,脑子(内存)会爆炸,它不得不把前面的细节扔掉,导致后面分析时忘了前面的伏笔。
    • 不灵活:它无法在电影看到一半时回答你:“刚才那个角色在干嘛?”

2. 新模式:边看边聊的“神探”(ThinkStream)

ThinkStream 引入了一个全新的**“看 - 想 - 说” (Watch-Think-Speak)** 循环,就像你身边有一个超级敏锐的侦探朋友,和你一起看直播:

核心比喻一:边看边记的“便签条” (Watch-Think-Speak)

  • 看 (Watch):视频像流水一样源源不断地流过来。
  • 想 (Think):每看到几秒画面,这个侦探朋友就会立刻在脑海里快速过一遍:“哦,这个人拿了把刀,看起来要切菜。”他不需要等视频结束,而是即时更新他的理解。
  • 说 (Speak)
    • 如果证据还不够(比如刀刚拿出来,还没切),他会保持沉默,继续观察。
    • 如果证据足够了(比如刀切到了板子上),他会立刻开口回答你的问题。
  • 比喻:这就像你在看球赛直播,朋友不是等比赛结束才告诉你谁进球了,而是看到进球瞬间就大喊“球进了!”,并且随时能回答你“刚才那个传球是谁传的?”。

核心比喻二:把“录像带”压缩成“日记” (RCSM 记忆机制)

这是 ThinkStream 最厉害的地方,解决了“脑子记不住”的问题。

  • 旧问题:如果视频一直播,侦探朋友脑子里的“录像带”(原始视频画面)会越积越多,最后把脑子撑爆。
  • ThinkStream 的解法
    • 它不再死记硬背每一帧画面(比如“第 3 秒那个人的衬衫是蓝色的”)。
    • 一旦它理解了某个场景(比如“他在切菜”),它就会把这段复杂的画面压缩成一句简短的**“思维日记”**(比如:“正在切菜”)。
    • 操作:它把脑子里旧的、详细的“录像带”扔掉,只留下这句简短的“日记”作为记忆锚点。
  • 效果:无论视频播多久,它脑子里的“日记本”厚度是稳定的。它用**“思考的痕迹”代替了“原始的画面”**,既省空间,又保留了核心逻辑。

核心比喻三:严格的“教练” (强化学习 RLVR)

为了让这个侦探朋友学会“什么时候该闭嘴,什么时候该说话”,作者给它请了一位严格的教练

  • 训练方法:教练会模拟各种场景,如果侦探朋友:
    • 没看清就瞎猜 -> 扣分
    • 看清了却迟迟不说话 -> 扣分(延迟太高)。
    • 格式不对(比如没按“先想后说”的格式) -> 扣分
    • 回答正确且时机完美 -> 加分
  • 结果:经过成千上万次的训练,这个 AI 学会了在证据最充分的那一刻精准地给出答案,既不快也不慢。

总结:它为什么重要?

ThinkStream 就像给 AI 装上了**“实时反应神经”“高效记忆压缩术”**。

  1. 低延迟:它不需要等视频结束,看到一半就能回答,真正实现了“实时互动”。
  2. 省资源:它不会随着视频变长而变慢或崩溃,因为它懂得把复杂的画面压缩成简单的逻辑。
  3. 更聪明:它不仅能回答问题,还能像人一样,在证据不足时保持沉默,确保证据确凿后再开口。

一句话总结
以前的 AI 看视频是**“看完再想”,像做阅读理解题;ThinkStream 让 AI 变成了“边看边想边聊”,像是一个和你一起看直播、随时能给你精彩解说且记忆力超群的真人搭档**。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →