HOCA-Bench: Beyond Semantic Perception to Predictive World Modeling via Hegelian Ontological-Causal Anomalies

本文提出了基于黑格尔本体论与因果异常视角的 HOCA-Bench 基准,通过 1439 个视频揭示了当前视频大模型在静态本体识别上表现尚可,但在涉及物理规律的因果推理及预测性世界建模方面存在显著认知滞后。

Chang Liu, Yunfan Ye, Qingyang Zhou, Xichen Tan, Mengxuan Luo, Zhenyu Qiu, Wei Peng, Zhiping Cai

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 HOCA-Bench 的新测试,它就像给现在的“视频 AI"(Video-LLMs)做了一次**“物理常识体检”**。

为了让你更容易理解,我们可以把现在的视频 AI 想象成一个个**“超级近视眼但记忆力超群的观察员”**。

1. 核心问题:它们看得清,但不懂“为什么”

目前的视频 AI 非常擅长**“看”(语义感知)。如果你给它们看一段猫在追老鼠的视频,它们能准确告诉你:“有一只猫在追一只老鼠,猫跳起来了。”
但是,它们往往
不懂“世界是如何运转的”**(预测性世界建模)。

  • 正常人类:看到猫跳起来,会本能地知道猫落地后会受重力影响,不会飘在空中,也不会突然变成一只狗。
  • 视频 AI:可能看到猫飘在空中,或者猫跳起来后突然变成了一辆汽车,它们却觉得“这很正常,视频里就是这么演的”。

这篇论文的作者们觉得,现在的 AI 太像“死记硬背”的学生,只会描述画面,却不懂背后的物理定律(比如重力、摩擦力、物体守恒)。

2. 新工具:HOCA-Bench(黑格尔式的“找茬”考试)

为了测试 AI 到底懂不懂物理,作者们设计了一个特殊的考试,叫 HOCA-Bench
这个名字有点长,但核心思想很酷:它借用了一位叫黑格尔的哲学家的逻辑,把“错误”分成了两类:

  • 第一类:本体论错误(Ontological Anomalies)——“身份崩塌”

    • 比喻:就像你看到一只**“三只头的羊”,或者一个“红色的乌龟壳”**。
    • 含义:这个东西**“是什么”**搞错了。它违反了物体本身的定义。
    • AI 的表现:目前的 AI 在这类问题上表现不错。因为它们能认出“羊”和“头”,看到三个头就会报警:“这不对劲!”
  • 第二类:因果律错误(Causal Anomalies)——“逻辑断裂”

    • 比喻:就像你看到**“咖啡倒进杯子里,但杯子里的咖啡液面却一点都没涨”,或者“苹果从树上掉下来,却飞向了天空”**。
    • 含义:这个东西**“怎么动”**搞错了。它违反了物体之间的互动规则(物理定律)。
    • AI 的表现:这是 AI 的**“死穴”**。它们往往看不出液面没涨,或者觉得苹果飞起来也挺合理。

3. 怎么出题?用“造假”来测试“求真”

既然现实世界里的视频都符合物理定律,怎么测试 AI 能不能发现“不符合定律”的情况呢?
作者们想了一个绝妙的办法:利用“造假”视频来测试
他们让最先进的AI 视频生成模型(比如 Sora、Kling 等)去“胡编乱造”视频。这些生成模型经常会出现物理幻觉(比如物体穿模、液体乱流)。

  • 策略:作者把这些“胡编乱造”的视频收集起来,作为考题。
  • 目的:如果 AI 能识别出这些视频里的物理漏洞,说明它真的懂了物理;如果它看不出,说明它只是在“看图说话”。

4. 考试结果:AI 的“认知滞后”

作者测试了 17 种最先进的视频 AI 模型,结果发现了一个尴尬的现象:

  • 静态问题难不倒它们:如果视频里出现“长翅膀的猪”,AI 能一眼识破(本体论错误)。
  • 动态问题难倒它们:如果视频里“水往高处流”或者“杯子碎了但没掉渣”,AI 经常**“装瞎”**(因果律错误)。
  • 数据说话:在涉及物理因果的任务中,AI 的得分比识别静态物体低了20% 以上

一个生动的案例(论文中的咖啡实验):

  • 场景:咖啡机在往杯子里倒咖啡,但杯子里的咖啡液面纹丝不动
  • 普通 AI:可能会说“咖啡倒进去了,蒸汽在飘”,完全没发现液面没涨这个致命错误。
  • 高级 AI(开启“思考模式”):有的模型能反应过来:“不对啊,倒进去水,液面应该上升,这是质量守恒定律。”
  • 结论:即使是现在最聪明的 AI,也更多是在**“认图案”,而不是在“推演物理”**。

5. 总结与启示

这篇论文告诉我们:
现在的 AI 就像是一个**“博学的摄影师”,它能把你拍下的每一帧画面描述得头头是道,但它不是“物理学家”**。它不知道苹果为什么落地,不知道水为什么往低处流。

HOCA-Bench 的意义
它给 AI 行业立了一个新规矩:光能“看懂”视频是不够的,未来的 AI 必须能“理解”物理世界。 只有当 AI 能像人类一样,不仅看到“发生了什么”,还能推导出“为什么会这样”以及“接下来会怎样”时,它才算真正拥有了物理智能

一句话总结
这篇论文给 AI 出了一套“找茬题”,发现它们虽然能认出“三只头的羊”,却看不懂“倒进去的水为什么不涨”,提醒我们 AI 离真正的“物理智慧”还有很长的路要走。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →