Spatial Causal Prediction in Video

本文提出了旨在挑战模型超越观测进行推理的“空间因果预测”新任务范式,构建了包含 2500 个问答对的 SCP-Bench 基准,并通过评估 23 个先进模型揭示了当前模型在时空外推与因果推理能力上的显著不足,进而提出了相应的改进策略。

Yanguang Zhao, Jie Yang, Shengqiong Wu, Shutong Hu, Hongbo Qiu, Yu Wang, Guijia Zhang, Tan Kai Ze, Hao Fei, Chia-Wen Lin, Mong-Li Lee, Wynne Hsu

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 SCP (Spatial Causal Prediction,空间因果预测) 的新任务,以及一个用来测试 AI 能力的“考场”叫 SCP-Bench

为了让你轻松理解,我们可以把现在的 AI 视频理解能力比作一个**“只会看热闹,不会看门道”的观众**,而这篇论文就是给这个观众出了一套**“预测未来和推理过去”的超级考题**。

以下是用大白话和比喻做的详细解读:

1. 现在的 AI 缺什么?(“只看见眼前,看不见因果”)

想象你在看一场篮球赛。

  • 现在的 AI(旧模式): 就像是一个只会盯着屏幕看的观众。它能看到:“现在球在谁手里”、“球员穿什么颜色的衣服”、“球在篮筐左边还是右边”。只要画面里有的,它都能答对。
  • 人类的能力(新模式): 就像是一个懂球的解说员。你不需要看到下一秒,只要看到球员起跳的姿势,你就能预测:“球会进左边还是右边”;或者看到球被挡住了,你能推断出:“刚才那个球员肯定是从后面跑过来的”。

论文指出的问题: 以前的测试题只考“眼前看到了什么”,但现实世界(比如自动驾驶、机器人)需要 AI 能预测未来(车撞上去前会怎样?)和推理过去(这个痕迹是怎么留下的?)。现在的 AI 在这两方面非常弱,就像让一个只看过静态照片的人去预测台风路径,它根本做不到。

2. 这篇论文做了什么?(“造了一个‘时空穿越’的考场”)

作者们造了一个叫 SCP-Bench 的数据库,里面装了 1181 个视频片段和 2500 道题目。

  • 考法很刁钻: 他们把视频切成两半,只给 AI 看前半段(比如:厨师把碗倾斜,但还没倒出来),然后问 AI:“从摄像头的角度看,食物最后会落在盘子的左边还是右边?”
  • 核心挑战: AI 不能靠“猜”,必须理解物理规律(重力、惯性)和因果关系(因为倾斜了,所以会掉落)。
  • 场景丰富: 题目涵盖了体育、开车、工厂操作、甚至第一人称视角的做饭视频,就像让 AI 去体验不同的人生。

3. 测试结果如何?(“学霸也挂科,大模型也有短板”)

作者找了 23 个最厉害的 AI 模型(包括 GPT-5、Qwen、InternVL 等)来考试,结果让人大跌眼镜:

  • 人类 vs AI: 人类平均能拿 90 分,而最好的 AI 模型(GPT-5)只能拿 66 分 左右。这说明 AI 在“理解物理世界”上,离人类还有很大差距。
  • 大模型 vs 小模型: 有趣的是,参数越大,成绩越好。就像让一个更聪明的学生来考试,他确实能多猜对几题。
  • 过去 vs 未来: AI 在“推理过去”(倒推)时比“预测未来”稍微强一点点,但都很吃力。
  • 幻觉问题: 很多 AI 会“一本正经地胡说八道”。比如它明明看到车在减速,却自信地说是因为惯性继续向前冲,完全违背了物理常识。

4. 为什么 AI 这么笨?(“它没学会‘物理课’")

作者做了很多实验来“解剖”AI 的失败原因:

  • 不是眼睛的问题,是大脑的问题: 如果直接把答案部分的视频给 AI 看(不用预测),它就能答对。这说明 AI 的“眼睛”(视觉识别)没问题,问题出在**“大脑”(因果推理)** 上。它看不懂物体运动背后的逻辑。
  • 时间感缺失: 给 AI 看倒放的视频,它的错误率并没有明显上升。这说明它根本没理解“时间流逝”和“因果顺序”,它只是在拼凑画面,而不是在理解故事。
  • 死记硬背 vs 真正理解: 让 AI 用“思维链”(一步步思考)或者“自我反思”,效果提升很有限。它就像是一个只会背公式但不会解题的学生。

5. 怎么让 AI 变聪明?(“给它开小灶”)

作者尝试了几种方法给 AI 补课:

  • 加大模型: 模型越大,成绩越好(这是目前最靠谱的方法)。
  • 给“剧本”提示(Causal Scaffolds): 这是最有趣的发现。如果给 AI 一段文字描述,告诉它“接下来会发生什么”(比如:“厨师会把碗里的汤倒进盘子”),AI 的成绩会大幅提升
    • 比喻: 就像考试前老师给了你“剧透”,AI 只要把剧透和眼前的画面结合起来,就能答对。
    • 对比: 如果给 AI 看“未来的图片”或“未来的视频”,效果反而不如文字好。这说明目前的 AI 更擅长处理文字逻辑,而不是直接处理复杂的视觉预测。

总结

这篇论文就像给 AI 界敲了一记警钟:现在的 AI 虽然能看懂视频里“有什么”,但还不懂“为什么”和“接下来会怎样”。

它就像是一个只会描述画面的画家,却不是一个懂物理的工程师。要让它真正像人类一样在现实世界(如自动驾驶、机器人)中工作,我们不仅要让它“看得更清”,更要让它学会**“思考因果”**。目前看来,单纯靠堆砌模型参数还不够,我们需要教会它们理解物理世界的运行规律。