Thinking in Streaming Video

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ThinkStream 的新系统，它的核心目标是让 AI 像真人一样，能够实时地、边看边想地理解连续的视频流，而不是等视频看完后再去“倒带”思考。

为了让你更容易理解，我们可以把现有的 AI 视频理解方式和新提出的 ThinkStream 比作两种不同的**“看侦探剧”**的方式：

1. 旧模式：等剧终再写影评（批处理模式）

现状：现在的 AI 处理视频就像是一个强迫症观众。它必须把整部 2 小时的电影从头到尾看完，把每一帧画面都记在脑子里，然后关起门来，花很长时间慢慢分析：“刚才那个凶手为什么拿刀？现在剧情发展到哪了？”
问题：
- 太慢了：等你分析完，电影都散场了，根本没法实时互动。
- 记不住：如果电影太长，脑子（内存）会爆炸，它不得不把前面的细节扔掉，导致后面分析时忘了前面的伏笔。
- 不灵活：它无法在电影看到一半时回答你：“刚才那个角色在干嘛？”

2. 新模式：边看边聊的“神探”（ThinkStream）

ThinkStream 引入了一个全新的**“看 - 想 - 说” (Watch-Think-Speak)** 循环，就像你身边有一个超级敏锐的侦探朋友，和你一起看直播：

核心比喻一：边看边记的“便签条” (Watch-Think-Speak)

看 (Watch)：视频像流水一样源源不断地流过来。
想 (Think)：每看到几秒画面，这个侦探朋友就会立刻在脑海里快速过一遍：“哦，这个人拿了把刀，看起来要切菜。”他不需要等视频结束，而是即时更新他的理解。
说 (Speak)：
- 如果证据还不够（比如刀刚拿出来，还没切），他会保持沉默，继续观察。
- 如果证据足够了（比如刀切到了板子上），他会立刻开口回答你的问题。
比喻：这就像你在看球赛直播，朋友不是等比赛结束才告诉你谁进球了，而是看到进球瞬间就大喊“球进了！”，并且随时能回答你“刚才那个传球是谁传的？”。

核心比喻二：把“录像带”压缩成“日记” (RCSM 记忆机制)

这是 ThinkStream 最厉害的地方，解决了“脑子记不住”的问题。

旧问题：如果视频一直播，侦探朋友脑子里的“录像带”（原始视频画面）会越积越多，最后把脑子撑爆。
ThinkStream 的解法：
- 它不再死记硬背每一帧画面（比如“第 3 秒那个人的衬衫是蓝色的”）。
- 一旦它理解了某个场景（比如“他在切菜”），它就会把这段复杂的画面压缩成一句简短的**“思维日记”**（比如：“正在切菜”）。
- 操作：它把脑子里旧的、详细的“录像带”扔掉，只留下这句简短的“日记”作为记忆锚点。
效果：无论视频播多久，它脑子里的“日记本”厚度是稳定的。它用**“思考的痕迹”代替了“原始的画面”**，既省空间，又保留了核心逻辑。

核心比喻三：严格的“教练” (强化学习 RLVR)

为了让这个侦探朋友学会“什么时候该闭嘴，什么时候该说话”，作者给它请了一位严格的教练。

训练方法：教练会模拟各种场景，如果侦探朋友：
- 没看清就瞎猜 -> 扣分。
- 看清了却迟迟不说话 -> 扣分（延迟太高）。
- 格式不对（比如没按“先想后说”的格式） -> 扣分。
- 回答正确且时机完美 -> 加分。
结果：经过成千上万次的训练，这个 AI 学会了在证据最充分的那一刻精准地给出答案，既不快也不慢。

总结：它为什么重要？

ThinkStream 就像给 AI 装上了**“实时反应神经”和“高效记忆压缩术”**。

低延迟：它不需要等视频结束，看到一半就能回答，真正实现了“实时互动”。
省资源：它不会随着视频变长而变慢或崩溃，因为它懂得把复杂的画面压缩成简单的逻辑。
更聪明：它不仅能回答问题，还能像人一样，在证据不足时保持沉默，确保证据确凿后再开口。

一句话总结：
以前的 AI 看视频是**“看完再想”，像做阅读理解题；ThinkStream 让 AI 变成了“边看边想边聊”，像是一个和你一起看直播、随时能给你精彩解说且记忆力超群的真人搭档**。

Each language version is independently generated for its own context, not a direct translation.

或推理内容答案`。

2.2 关键技术：推理压缩流式记忆 (RCSM)

为了解决长视频流中显存和计算量随时间无限增长的问题，提出了 Reasoning-Compressed Streaming Memory (RCSM)：

核心思想：将中间的推理轨迹（Reasoning Traces）视为紧凑的语义记忆，替代过时的视觉 Token。
机制：
- 维护一个滑动窗口，保留最近的原始视觉 Token。
- 当视频流超过窗口长度时，将最旧的视觉 Token 从 KV Cache 中剔除（Evict）。
- 关键点：保留对应的推理 Token（如事件总结、因果假设）作为长期语义锚点。
- 效果：推理 Token 数量增长缓慢且紧凑，而视觉 Token 数量被严格限制，从而在保持长程理解能力的同时，将推理成本控制在恒定水平。

2.3 训练策略：可验证奖励的流式强化学习 (Streaming RLVR)

为了训练模型适应流式交互，设计了 Streaming Reinforcement Learning with Verifiable Rewards (RLVR)：

奖励函数设计：包含三个部分：
1. 准确性奖励 ( $R_{acc}$ )：答案与真值匹配。
2. 格式奖励 ( $R_{format}$ )：严格遵循 <think>/<silent>/<response> 的结构化输出。
3. 时间奖励 ( $R_{time}$ )：惩罚过早回答或延迟过久，鼓励在证据充分时及时响应。
优化算法：采用 Group Relative Policy Optimization (GRPO) 进行策略优化。
数据构建：构建了包含时间锚定推理轨迹（Time-Grounded CoT）的大规模数据集，用于冷启动和 RL 训练。

2.4 高效推理后端

设计了基于 CUDA Graphs 的流式推理后端：

利用 Eager Prefill 处理新到达的视觉 Token。
利用可重放的 CUDA Graph 执行解码和 KV Cache 剔除（Evict）操作，实现了高吞吐量的流式循环，显著降低了内核启动开销。

3. 主要贡献 (Key Contributions)

提出 Watch–Think–Speak 范式：将流式视频理解重新定义为增量推理与交互过程，使模型能持续更新理解并自主决定响应时机。
提出 ThinkStream 框架与 RCSM：首次将推理轨迹作为压缩的语义记忆，在剔除视觉 Token 的同时保留长程上下文，解决了流式推理中的显存与延迟瓶颈。
开发流式 RLVR 训练方案：设计了自动可验证的奖励机制，对齐了增量推理、响应时机与流式交互需求。
构建大规模数据集与高效后端：发布了包含 110K 冷启动实例和 9K RLVR 实例的数据集，并实现了支持动态上下文更新的高性能推理引擎。

4. 实验结果 (Results)

在多个流式和离线视频基准测试中，ThinkStream（基于 Qwen2.5-VL-3B 微调）表现优异：

流式视频基准 (OVO-Bench & StreamingBench)：
- ThinkStream-3B 在 OVO-Bench 上平均得分为 59.66，显著超越其基座模型 Qwen2.5-VL-3B (51.00) 以及现有的开源在线模型（如 Streamo-3B: 51.64, Dispider-7B: 45.31）。
- 在 StreamingBench Real-Time 上达到 75.00 分，不仅远超开源模型，甚至超越了闭源模型 GPT-4o (73.28)。
离线视频基准 (VideoMME & Long VideoBench)：
- 尽管 aggressively 剔除了视觉 Token，ThinkStream-3B 在离线任务上仍保持竞争力（VideoMME: 61.9, Long VideoBench: 56.4），证明其长程理解能力未受损。
效率与延迟：
- 延迟控制：随着视频长度增加，ThinkStream 的端到端推理延迟保持在 0.5 秒 以下（满足 2 FPS 输入需求），而基线模型延迟随视频长度线性增长并超标。
- 吞吐量：基于 CUDA Graph 的推理引擎在 Batch Size=1 时实现了 5 倍 的加速（154 tokens/s vs 30 tokens/s）。
消融实验：
- 证明了 20 tokens/秒 的推理预算是推理能力与效率的最佳平衡点。
- 证明了 RCSM（使用推理 Token 作为记忆）远优于仅使用离散字幕或无记忆的策略。

5. 意义与价值 (Significance)

理论突破：打破了传统视频理解必须“先看完再思考”的批处理思维，确立了“边看边想”的流式推理新范式。
工程落地：通过 RCSM 和高效推理后端，解决了多模态大模型在长视频流中显存爆炸和延迟过高的问题，使得在资源受限设备上运行实时视频智能体成为可能。
应用前景：为实时视频助手、具身智能（Embodied AI）、监控异常检测等需要低延迟、长程理解且严格因果约束的场景提供了强有力的技术支撑。

总结：ThinkStream 通过创新的“观察 - 思考 - 说话”循环和“推理即记忆”的压缩机制，成功实现了在低延迟、低显存约束下的高性能流式视频推理，是目前该领域的 SOTA（State-of-the-Art）工作。

Thinking in Streaming Video

1. 旧模式：等剧终再写影评（批处理模式）

2. 新模式：边看边聊的“神探”（ThinkStream）

核心比喻一：边看边记的“便签条” (Watch-Think-Speak)

核心比喻二：把“录像带”压缩成“日记” (RCSM 记忆机制)

核心比喻三：严格的“教练” (强化学习 RLVR)

总结：它为什么重要？

2.2 关键技术：推理压缩流式记忆 (RCSM)

2.3 训练策略：可验证奖励的流式强化学习 (Streaming RLVR)

2.4 高效推理后端

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与价值 (Significance)

类似论文

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks