Can Vision-Language Models Solve the Shell Game?

该论文针对现有视觉语言模型在视频实体追踪任务中的瓶颈,提出了包含理论分析与新基准 VET-Bench 的解决方案,并设计了时空 grounded 思维链(SGCoT)微调方法,使模型在无需外部工具的情况下于该基准测试中实现了超过 90% 的准确率。

Tiedong Liu, Wee Sun Lee

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的超级人工智能(VLM,视觉 - 语言模型)做了一场“捉迷藏”的体检,结果发现了一个令人惊讶的“视力盲区”。

为了让你轻松理解,我们可以把这篇论文的核心内容想象成一场**“三个杯子的魔术游戏”**(Shell Game)。

1. 核心问题:AI 真的“看”懂视频了吗?

想象一下,魔术师把一颗球放在中间的杯子里,然后快速交换三个杯子的位置。最后问你:“球在哪个杯子里?”

  • 人类:哪怕杯子长得一模一样,我们也能凭直觉盯着球,跟着它移动,轻松答对。
  • 现在的顶级 AI:论文发现,当杯子长得完全一样(没有花纹、没有透明部分)时,AI 的表现就像是在瞎猜,正确率只有 33% 左右(和闭眼乱选差不多)。

为什么以前觉得 AI 很聪明
以前的测试题(比如现有的视频基准测试)里,杯子往往长得不一样(有的有花纹,有的透明)。AI 其实没在“跟踪”球,它只是在玩“找不同”:

  • 错误策略:“哦,这个杯子有花纹,球肯定在花纹杯子里。”(它根本没看球怎么动,只看杯子长什么样)。
  • 论文发现:一旦把这种“作弊线索”去掉,让杯子变得一模一样,AI 就彻底懵了。

2. 新工具:VET-Bench(“捉迷藏”考场)

为了测试 AI 到底有没有“跟踪”能力,作者造了一个新的考场,叫 VET-Bench

  • 规则:所有杯子、卡片都长得一模一样
  • 目的:强迫 AI 必须像人类一样,在脑海里画出一条连续的轨迹,而不是靠猜或者看外观。
  • 结果:哪怕是像 Gemini-3 Pro 这样的“最强大脑”,在这个考场上也考不及格。

3. 理论分析:为什么 AI 这么笨?

作者用数学理论证明,这种“跟踪任务”对 AI 来说,就像让一个只有固定层数的楼梯去走一条无限长的迷宫

  • 比喻:想象 AI 是一个只有一层楼高的观察者。如果物体移动太快、太复杂,它记不住每一步发生了什么。它试图直接猜答案,但就像让你心算 $2+2+2...$ 加 100 次一样,没有中间步骤(草稿纸),它算不出来。
  • 结论:如果不给 AI 提供“中间思考过程”,它天生就解决不了这种需要长时间记忆和逻辑推理的任务。

4. 解决方案:SGCoT(给 AI 装上“思维轨迹”)

既然 AI 直接猜不行,作者给它开了一剂药方:SGCoT(时空 grounded 思维链)。

这是什么意思
以前 AI 回答问题像这样:

用户:球在哪?
AI:在左边。(直接猜)

现在,作者教 AI 先**“画地图”**,再回答问题:

用户:球在哪?
AI:

  1. 0 秒:球在中间。
  2. 2 秒:中间和左边交换,球跑到了左边。
  3. 4 秒:左边和右边交换,球跑到了右边。
    ...
    结论:所以最后球在右边。

关键创新
作者没有让 AI 用文字描述(因为文字描述容易出错,比如“大概左边”),而是让 AI 输出具体的坐标轨迹(就像 GPS 导航记录一样:0 秒在 (x,y),1 秒在 (x,y)...)。

  • 比喻:这就像给 AI 发了一本**“实时日记”**。它必须先把每一步的“脚印”写下来,最后再根据日记总结答案。

5. 最终成果:从“瞎猜”到“神算”

作者利用这个新方法,微调了一个叫 Molmo2 的模型。

  • 训练前:正确率 30%(瞎猜)。
  • 训练后:正确率超过 90%
  • 意义:这证明了只要给 AI 正确的“思考步骤”(让它先记录轨迹,再下结论),它就能像人类一样,完美地解决这种复杂的视觉跟踪任务,而且不需要外挂任何工具。

总结

这篇论文告诉我们:

  1. 以前的 AI 可能只是“看脸”认人,而不是真的在“跟踪”物体。
  2. 真正的视觉跟踪(像玩捉迷藏一样)
  3. 解决办法:不要逼 AI 直接给答案,要逼它**“先写过程,再给结论”**。只要给它这种“思维脚手架”,它就能变得非常聪明。

这就好比教小孩学数学:不要直接问"100 加 100 等于多少”,而是让他先在纸上列竖式,一步步算出来,他就能答对了。