GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking

本文提出了 GraphThinker,一种基于强化微调的方法,通过构建显式的事件场景图作为中间推理过程并引入视觉注意力奖励,有效增强了视频中的因果理解与视觉定位,从而显著减少了视频推理中的幻觉现象。

Zixu Cheng, Da Li, Jian Hu, Yuhang Zang, Ziquan Liu, Shaogang Gong, Wei Li

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 GraphThinker 的新方法,旨在让 AI 看视频时变得更聪明、更诚实,不再“瞎编乱造”。

我们可以把现在的 AI 看视频,想象成一个记性不太好、喜欢靠猜的“速记员”

🎬 现状:AI 为什么会“瞎编”?

现在的多模态大模型(MLLMs)在看视频回答问题时,就像那个速记员:

  • 它只看大概:它把视频当成一长串文字描述(比如“一个人飞无人机,然后跳进水里”),然后凭感觉猜事情发生的顺序。
  • 容易幻觉:因为缺乏对视频里具体“事件”之间因果关系的清晰理解,它经常搞错时间顺序。
    • 例子:视频里其实是先“跳水”再“飞无人机”,但 AI 可能因为觉得“飞无人机”听起来更酷,就瞎编成“先飞无人机,后跳水”。
  • 缺乏证据:它就像在黑暗中摸索,没有拿着手电筒(视觉证据)去确认每一个细节。

🚀 GraphThinker 的解决方案:给 AI 装上“思维导图”和“探照灯”

GraphThinker 做了两件事,让 AI 从“瞎猜”变成了“逻辑推理”。

1. 制作“事件思维导图” (Event-based Video Scene Graph, EVSG)

想象一下,如果你要给别人讲一个复杂的电影情节,你直接念剧本(密集的字幕)可能会让人晕头转向。

  • GraphThinker 的做法:它先让 AI 把视频拆解成一个个具体的小场景(比如:0-5 秒,男人在跳水;5-8 秒,无人机在飞)。
  • 画成图:然后,它把这些小场景画成一张结构化的思维导图
    • 图上不仅写着“谁做了什么”,还画出了箭头,标明了谁在谁之前,谁导致了谁。
    • 比喻:这就像给 AI 发了一张带有时间轴和因果关系的“侦探地图”。在回答问题前,AI 必须先对照这张地图,理清线索,而不是凭空想象。

2. 强化训练:装上“探照灯” (Visual Attention Reward)

有了地图还不够,如果 AI 只看地图不看现场,还是会出错。

  • GraphThinker 的做法:在训练过程中,它给 AI 设置了一个特殊的奖励机制
  • 如何奖励:如果 AI 在推理时,能够主动把注意力(探照灯)打在视频画面上的具体物体或动作上(比如真的看到了“跳水”的动作),而不是只盯着文字描述发呆,它就会得到高分奖励。
  • 比喻:这就像老师教学生做题,不仅看答案对不对,还要看学生是不是真的去“看”了题目里的图表。如果学生能指着图说“因为这里有个红点,所以我选 A",老师就给满分;如果学生闭着眼睛瞎蒙,就算蒙对了也要扣分。

🌟 效果如何?

通过这种“思维导图 + 探照灯”的组合拳,GraphThinker 在两个著名的视频理解测试中表现优异:

  1. 更准:它能更精准地找到视频里事情发生的时间点(比如准确指出“跳水”是在第 3 秒到第 5 秒)。
  2. 更真:它大幅减少了“幻觉”(瞎编),不再把“先飞无人机”这种错误顺序强加给视频。
  3. 逻辑强:它能理解事件之间的因果关系,比如“因为男人跳进水里,所以水花四溅”,而不是把它们当成毫无关联的片段。

💡 总结

简单来说,GraphThinker 就是给 AI 看视频的能力做了一次升级

  • 以前:AI 像是一个凭印象猜谜的观众,容易记错顺序,爱瞎编。
  • 现在:AI 变成了一个拿着“侦探地图”和“探照灯”的侦探,先理清事件结构,再仔细核对画面证据,最后给出一个逻辑严密、有据可依的答案。

这让 AI 在处理复杂的视频推理任务(比如教学视频分析、辅助驾驶决策)时,变得更加可靠和智能。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →