Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding

本文提出了 Video-TwG 框架,通过引入“思考即定位”(Think-with-Grounding)范式、两阶段强化课程策略及 TwG-GRPO 算法,使视频大模型能够按需动态定位关键片段,从而在无需复杂辅助模块的情况下有效缓解长视频理解中的幻觉问题并显著提升性能。

Houlun Chen, Xin Wang, Guangyao Li, Yuwei Zhou, Yihan Chen, Jia Jia, Wenwu Zhu

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 Video-TwG 的新方法,旨在解决让 AI 看懂“超长视频”并回答相关问题的难题。

为了让你轻松理解,我们可以把这项技术想象成教一个“超级侦探”如何高效地查案

1. 现在的痛点:侦探的“视力疲劳”

想象一下,你给一个侦探(现有的 AI 模型)看一部长达 2 小时的电影,然后问他:“电影里那个拿气枪的人,枪是什么颜色的?”

  • 传统做法的尴尬:现有的 AI 就像是一个视力有限且记性不好的侦探。它试图一次性看完整个电影,但因为电影太长了,它只能记住大概的轮廓(比如“有个男人在干活”),却看不清细节。
  • 幻觉问题:当它发现看不清细节时,它为了回答问题,往往会瞎编(这就是论文里说的“幻觉”)。比如,它可能自信满满地猜:“肯定是红色的,因为电影里红色很常见。”但实际上,那把枪是蓝色的。它因为没看清,就靠“猜”来填补空白。

2. Video-TwG 的核心创意:学会“按需变焦”

Video-TwG 给这个侦探装上了一套智能变焦镜头查案策略,我们称之为"带着证据思考"(Think-with-Grounding)。

  • 不再死磕全程:它不再试图一次性看完 2 小时的电影。
  • 主动出击:当它发现模糊的线索(比如“有个男人在干活”)不足以回答问题时,它会主动说:“等等,我需要看清楚那把枪!”
  • 精准变焦:于是,它会在视频里精准地定位到那个男人出现的那几秒钟(比如第 213 秒到 255 秒),把这段画面放大、看清细节,然后再回答。
  • 结果:它不再瞎猜,而是基于看到的真实细节(蓝色气枪)给出了正确答案。

3. 如何训练这个侦探?(两阶段课程表)

让 AI 学会这种“先看大概,再查细节”的技能很难,作者设计了一套循序渐进的“特训营”

  • 第一阶段:短剧特训(打基础)
    • 先给 AI 看很多短小的视频(比如几秒到几十秒),并且这些视频里已经标注好了“关键线索在哪里”。
    • 目的:就像教小学生先做简单的数学题,让 AI 先学会“哦,原来遇到看不清的问题,就要去放大看细节”这个基本逻辑。
  • 第二阶段:实战演练(练内功)
    • 然后,给它看海量的、没有标注的长视频(比如各种纪录片、新闻、电影)。
    • 目的:这时候没人告诉它“关键线索在哪”了。它必须自己判断:“这个问题需要我放大看吗?还是我直接就能回答?”
    • 奖励机制:如果它猜对了答案,而且是在真正看清了细节后猜对的,就给它发糖(奖励);如果它瞎猜对了,或者为了看细节而看了无关紧要的片段,就扣糖(惩罚)。这让它学会了既聪明又节约精力

4. 它的厉害之处

  • 更聪明:它不是盲目地看,而是像侦探一样,只在需要的时候才去“调取证据”
  • 更省钱:因为它不需要每次都把整个视频的高清细节都过一遍,只处理关键片段,所以计算资源消耗更少。
  • 更准确:在多个权威测试(如 Video-MME, MLVU)中,它的表现都超过了现有的最强模型,特别是在回答长视频细节问题时,准确率大幅提升。

总结

简单来说,Video-TwG 就是给 AI 装上了一个**“智能放大镜”。它不再是一个只会死记硬背或瞎猜的“书呆子”,而是一个懂得“遇到不懂的,就主动去查清楚”**的聪明侦探。这让 AI 在处理超长视频时,既能看得全,又能看得清,还能答得准。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →