TimeBlind: A Spatio-Temporal Compositionality Benchmark for Video LLMs

本文提出了名为 TimeBlind 的基准测试,通过最小对范式评估视频大语言模型在细粒度时空组合理解上的能力,结果显示当前最先进模型严重依赖静态视觉捷径,其区分仅时序结构不同的视频对的准确率远低于人类水平。

Baiqi Li, Kangyi Zhao, Ce Zhang, Chancharik Mitra, Jean de Dieu Nyandwi, Gedas Bertasius

发布于 2026-02-26
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TimeBlind(时间盲) 的新测试,专门用来给现在的“视频 AI 大脑”(视频大模型)做体检。

简单来说,现在的 AI 看视频很厉害,能认出“这是猫”、“那是车”,但它们看不懂“时间”和“动作的先后顺序”。这就好比一个人能认出照片里的人在笑,但分不清照片里的人是在“刚笑”还是“笑完了”,或者分不清“先倒水再放糖”和“先放糖再倒水”的区别。

为了揭示这个问题,作者们设计了一套非常巧妙的“陷阱题”。

🕵️‍♂️ 核心概念:给 AI 设下的“找不同”陷阱

想象一下,你给两个 AI 看两段视频:

  • 视频 A:一个人拿着杯子,轻轻地倒牛奶进咖啡。
  • 视频 B:同一个人,拿着同一个杯子,在摇晃着倒牛奶进咖啡。

除了“手在动还是不动”这个时间上的动作不同外,这两段视频里的杯子、牛奶、桌子、背景完全一模一样

  • 以前的测试:可能会问“杯子里是什么?”AI 只要认出是牛奶就能答对,根本不需要看动作。
  • TimeBlind 的测试:问“这个人倒牛奶时,杯子是静止的还是摇晃的?”

如果 AI 只是靠“看静态图片”或者“猜”(比如觉得倒牛奶通常不摇晃),它就能答对。但 TimeBlind 要求 AI 必须真正理解时间的流动和动作的逻辑

🧠 这个测试把“看懂时间”分成了三个等级

作者把理解视频的能力像搭积木一样分成了三层:

  1. 第一层:认出发生了什么(原子事件)

    • 就像看连环画,能分清“开门”和“关门”的区别。
    • 现状:现在的 AI 在这层表现还行,大概能猜对一半。
  2. 第二层:感受动作的细节(事件属性)

    • 这就像感受音乐的节奏。是“快”还是“慢”?是“用力推”还是“轻轻碰”?
    • 现状这是 AI 的弱项。它们分不清“慢慢走”和“快走”,也分不清“温柔地拿”和“粗暴地抓”。
  3. 第三层:理解动作之间的逻辑(结构逻辑)

    • 这是最高级,就像看侦探小说。要理解“因为 A 发生了,所以 B 才发生”,或者"A 和 B 是同时发生的”。
    • 现状:AI 在这里几乎“瞎”了。它们很难理解复杂的时间因果关系。

📉 测试结果:AI 真的“时间盲”

作者找了 20 多个目前最顶尖的 AI 模型(包括 GPT-5、Gemini 3 Pro 等)来做这个测试。结果让人大跌眼镜:

  • 人类的表现:98.2% 的正确率(几乎全对)。
  • 最强 AI 的表现:只有 48.2% 的正确率(差不多是瞎猜的水平)。

这意味着什么?
哪怕是目前最聪明的 AI,在面对稍微复杂一点的时间动作时,也表现得像个时间盲人。它们不是真的在“看”视频,而是在。它们利用了“静态捷径”(比如看到杯子就猜答案),而不是真正理解了时间。

🛠️ 为什么现在的 AI 会“翻车”?

论文发现,即使我们:

  • 给 AI 看更多的帧(更长的视频);
  • 把 AI 的模型做得更大(参数更多);
  • 让 AI 在回答前多“思考”一会儿(推理);

它们的进步都微乎其微。这说明问题不在于“不够聪明”或“看得不够多”,而是它们缺乏理解时间逻辑的底层能力。它们就像一台拥有超级高清摄像头的照相机,能拍出完美的照片,但不知道照片里的故事是怎么发生的。

🌟 总结与意义

TimeBlind 就像一面照妖镜,照出了当前视频 AI 的致命弱点:它们懂“空间”(物体长什么样),但不懂“时间”(事情怎么发生)。

这对未来非常重要,因为:

  • 机器人:如果机器人不懂“先抓杯子再倒水”,它可能会把水洒得到处都是,甚至打碎杯子。
  • 自动驾驶:如果车机 AI 分不清前车是“正在加速”还是“正在减速”,就会发生严重事故。

这篇论文告诉我们:在让 AI 真正像人一样“看懂”世界之前,我们首先得教会它们理解时间

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →