Vision Language Models Cannot Reason About Physical Transformation

该论文通过构建 ConservationBench 基准测试发现,当前视觉语言模型在面对物理变换时无法真正理解守恒定律,其表现接近随机猜测且受文本先验误导,表明它们缺乏在动态场景中保持物理属性变换不变性的推理能力。

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份给当前最聪明的“视觉语言模型”(VLMs,也就是能看图说话的 AI)做的**“物理常识体检报告”**。

报告的核心结论非常扎心:现在的 AI 虽然能看图、能说话,但它们根本不懂“物理守恒”这个最基本的道理。

为了让你更容易理解,我们可以把这篇论文的研究过程想象成一场**“给 AI 做的皮亚杰儿童心理测试”**。

1. 什么是“守恒”?(皮亚杰的经典实验)

在心理学中,有一个著名的概念叫“守恒”。

  • 场景:你拿两个一模一样的杯子,里面装了同样多的水。
  • 变化:你把其中一个杯子里的水倒进一个又细又高的杯子里。
  • 问题:水变多了吗?
  • 人类小孩的答案:如果你问一个 4 岁的小孩,他可能会说“变多了,因为水变高了”。但如果你问一个 7 岁以上的小孩,他会告诉你:“没变,只是杯子形状变了,水的总量是一样的。”
  • AI 的表现:这篇论文发现,现在的顶级 AI 模型,表现得就像那个4 岁的小孩,甚至更糟糕。它们被“视觉表象”骗了,以为水变高了就是水变多了。

2. 论文做了什么?(Conservation-Bench 大考)

作者们设计了一个名为 Conservation-Bench 的考试,专门考 AI 是否懂得“物理量在变化中保持不变”的道理。

  • 考题内容:他们拍了很多短视频,比如:
    • 数量守恒:把一排硬币摊开,硬币变长了,但数量变了吗?
    • 体积守恒:把水倒进不同形状的瓶子,水变多了吗?
    • 大小守恒:把一团橡皮泥捏扁,橡皮泥变少了吗?
  • 考题规模:他们给 112 个 不同的 AI 模型(包括目前最火的商业模型和开源模型)出了 23,040 道题。
  • 陷阱题:为了不让 AI 瞎蒙,他们还特意设计了“反守恒”的陷阱题(比如真的倒掉了一部分水),看 AI 能不能发现水真的变少了。

3. 测试结果:AI 的“翻车”现场

结果非常令人失望,甚至可以说是“系统性失败”:

  • 像猜谜一样:AI 的平均成绩只比随机乱猜(33%)高一点点。
  • 死脑筋:AI 似乎有一个“默认设置”,认为“东西没变”。
    • 守恒题(水没变)里,它们猜对了,但这不是因为它们懂了物理,而是因为它们在瞎蒙“没变”
    • 陷阱题(水真的变少了)里,因为它们还在死守“没变”的默认设置,结果全错
    • 比喻:就像一个学生,不管老师问什么,都回答“是”。如果老师问“天是蓝的吗?”,他对了;如果老师问“天是红的吗?”,他就错了。AI 现在的状态就是这种“死脑筋”。

4. 为什么 AI 会失败?(找到了病根)

作者们像侦探一样,尝试了各种方法给 AI“治病”,但都失败了:

  • 给更多帧画面(提高时间分辨率):就像给 AI 看更慢动作的视频,希望能看清过程。结果:没用。AI 还是看不懂。
  • 换提示词(Prompting):就像老师教学生“你要一步步思考,不要只看表面”。结果:没用,甚至让 AI 更糊涂了。
  • 让人类选关键帧:让人类挑出最重要的画面给 AI 看。结果:没用

真正的病根在哪里?
作者做了一个绝妙的实验:

  1. 把图片变成纯白(只给文字提示):AI 反而答对了!因为它依赖的是文字里的“常识”(比如题目通常暗示东西没变)。
  2. 加上真实的图片:AI 反而答错了!

比喻
这就好比 AI 是一个**“听觉敏感但视觉混乱的盲人”**。

  • 当它只听题目(文字)时,它能利用语言里的逻辑猜对答案。
  • 一旦它“看见”了图片,图片里的视觉信息(比如水变高了)反而干扰了它的逻辑,让它误以为水真的变多了。
  • 结论:AI 并没有真正理解“物体在空间中连续运动”的过程。它只是把视频当成一堆静止的图片在拼凑,无法像人类一样在脑海里构建一个“动态的物理世界”。

5. 这对我们意味着什么?

  • AI 不是全能的:虽然现在的 AI 能写诗、能画画、能聊天,但在理解物理世界(比如机器人拿杯子、自动驾驶避障)方面,它们还非常幼稚,甚至不如一个 7 岁的人类小孩。
  • 未来的挑战:如果 AI 不能真正理解“东西变了但本质没变”这种物理规律,那么让它们去操作真实的机器人(Embodied AI)就会非常危险,因为它们可能会因为“看起来变了”就做出错误的判断。

总结

这篇论文告诉我们:目前的 AI 只是“看起来”很聪明,实际上它们缺乏对物理世界最基础的“直觉”。 它们就像是一个只会背公式但不懂物理原理的学生,一旦遇到稍微复杂一点的动态变化,就会彻底“掉链子”。

要造出真正能像人类一样在现实世界工作的 AI,我们首先得教会它们理解:“水倒进细杯子里,虽然变高了,但它还是那么多水。” 这听起来很简单,但对 AI 来说,却是一座难以逾越的高山。