OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

本文提出了基于认知心理学的综合性空间推理基准 OmniSpatial,涵盖动态推理、复杂空间逻辑、空间交互和视角转换四大类共 50 个子类,通过 8400 多个精细标注的问答对揭示了当前视觉语言模型在全面空间推理上的显著局限,并探索了 PointGraph 和 SpatialCoT 两种增强策略。

Mengdi Jia, Zekun Qi, Shaochen Zhang, Wenyao Zhang, Xinqiang Yu, Jiawei He, He Wang, Li Yi

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 OmniSpatial 的全新“考试”,专门用来测试人工智能(特别是视觉语言模型,也就是能看图说话的 AI)的空间推理能力

为了让你更容易理解,我们可以把这篇论文的内容想象成一场**“超级空间侦探”的选拔赛**。

1. 为什么要办这场考试?(背景)

以前的考试太简单了。就像教小孩子认路,以前的题目只问:“苹果在桌子的左边还是右边?”或者“这里有几个杯子?”。
现在的顶级 AI(比如 GPT-4o, Gemini 等)在这些简单题目上已经拿了满分(90% 以上正确率),就像小学生做 1+1 一样轻松。

但是,现实世界要复杂得多!

  • 场景一: 你开车时,不仅要看红绿灯,还要预判旁边那辆车会不会突然变道(动态推理)。
  • 场景二: 你要把一个大沙发搬进电梯,得在脑子里想象沙发转个身能不能塞进去(复杂逻辑)。
  • 场景三: 你站在路口,要想象如果站在对面的人看来,那辆车是在你的左边还是右边(视角转换)。

以前的考试考不到这些“高阶技能”,所以我们需要一个更难、更全面的“新考卷”。

2. 这张“新考卷”长什么样?(OmniSpatial 是什么)

这就好比把以前的“小学数学题”升级成了“奥数 + 物理 + 心理测试”的综合卷。

  • 题目数量: 8400 多道精心设计的题目(不是机器随便生成的,是人工一个个手写的,保证质量)。
  • 四大核心关卡:
    1. 动态推理(Dynamic Reasoning): 就像看动作电影。题目问:“如果那个球继续滚,会撞到谁?”或者“司机接下来会怎么转弯?”这需要 AI 理解时间运动
    2. 复杂逻辑(Complex Logic): 就像玩折纸或拼图。题目问:“把这个纸盒展开,哪个图案是对的?”或者“把这块积木旋转 90 度,它看起来像什么?”这需要 AI 在脑子里3D 旋转物体。
    3. 空间交互(Spatial Interaction): 就像玩《模拟城市》或开车。题目问:“在这个路口,哪条路最安全?”或者“这个按钮在屏幕的哪个位置?”这需要 AI 理解规则环境
    4. 视角转换(Perspective Taking): 这是最难的一关,就像玩“换位思考”。题目问:“如果你站在对面那个人的位置,那个花瓶是在你的左手边还是右手边?”这需要 AI 跳出自己的“摄像头视角”,钻进别人的脑子里看世界。

3. 考试结果如何?(现状)

结果有点让人“清醒”:

  • 人类: 考了 92 分(满分 100),表现很稳。
  • 顶级 AI: 最高只考了 56 分左右。
  • 结论: 现在的 AI 虽然能看图说话,但在“动脑筋”想象空间关系时,还像个**“死记硬背的优等生”**,遇到没见过的复杂空间问题就懵了。它们擅长认字,但不擅长“脑补”三维世界。

4. 怎么帮 AI 提高成绩?(解决方案)

作者发现,直接让 AI 硬想(像人类一样死磕)效果不好,于是他们给 AI 装了两个“外骨骼”:

  • 外骨骼一:PointGraph(给 AI 画“关系图”)

    • 比喻: 就像给 AI 发了一张**“寻宝地图”**。
    • 做法: 在让 AI 回答问题前,先让另一个小模型把图里的物体标出来,并告诉 AI:“杯子在桌子左边 10 厘米,椅子在杯子后面”。
    • 效果: 就像给迷路的人指了路标,AI 的推理准确率明显提高了。
  • 外骨骼二:SpatialCoT(给 AI 开“透视眼”)

    • 比喻: 就像给 AI 戴上了**"VR 眼镜”**,让它能 360 度看物体。
    • 做法: 当题目问“从后面看是什么样”时,AI 自己不会转,作者就用 3D 技术生成几个新的视角图片(比如从上面看、从后面看),把这些新图一起给 AI 看。
    • 效果: 就像让 AI 真的“走”到了那个位置,它就能轻松回答视角转换的问题了。

5. 总结:这有什么用?

这就好比我们在教机器人怎么真正像人一样生活

  • 如果 AI 能通过这些考试,未来的自动驾驶汽车就能更聪明地预判事故;
  • 家庭机器人就能帮你把乱糟糟的箱子整齐地塞进柜子;
  • VR/AR 眼镜里的虚拟助手就能真正理解你在空间里的位置,而不是只会傻乎乎地说话。

一句话总结: 这篇论文给 AI 出了一道超难的“空间智商测试”,发现现在的 AI 还很笨,但作者给了它们两个“作弊神器”(关系图和 3D 新视角),帮它们稍微变聪明了一点点,为未来真正的智能机器人打下了基础。