Thinking with Spatial Code for Physical-World Video Reasoning

本文提出了“空间代码思维”框架,通过将 RGB 视频转化为包含显式 3D 定向边界框和语义标签的结构化空间代码,并结合强化学习微调大语言模型,使其能够在 VSI-Bench 基准上超越现有专有视觉语言模型,实现物理世界视频推理的显著突破。

Jieneng Chen, Wenxin Ma, Ruisheng Yuan, Yunzhi Zhang, Jiajun Wu, Alan Yuille

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为**“用空间代码思考”(Thinking with Spatial Code)**的新方法,旨在让计算机像人类一样,真正“看懂”视频里的三维世界,而不仅仅是识别画面里有什么。

为了让你更容易理解,我们可以把现在的 AI 和这项新技术做一个生动的对比:

🎬 现在的 AI:像是一个“看热闹”的观众

目前的顶级视频 AI(比如 GPT-4o 或 Gemini),看视频时就像是一个坐在电影院里的观众

  • 它看到了什么? 它看到了画面的颜色、光影、物体的样子(比如“这是一张沙发”、“那是一盏灯”)。
  • 它的弱点: 它很难理解**“空间感”**。
    • 如果你问它:“如果我从沙发的角度看,桌子在左边还是右边?”它可能会晕头转向,因为它只记得画面里桌子在沙发的“右边”(从观众视角看),却搞不清楚物体之间的真实三维关系
    • 它就像在看一张平面的照片,不知道物体有多高、多远,也不知道它们是怎么摆放的。

🏗️ 这项新技术:像是一个“建筑测量师”

这篇论文提出的新方法,给 AI 装上了一套**“空间测量仪”。它不再只是“看”视频,而是先把视频“翻译”成一套精确的 3D 建筑图纸(空间代码)**。

我们可以把这个过程想象成三个步骤:

1. 第一步:把视频“翻译”成图纸(空间编码器)

想象你给 AI 看一段在客厅里走动的视频。

  • 旧方法: AI 只是描述:“这里有个沙发,那里有个桌子,它们都在动。”
  • 新方法(空间编码器): AI 会立刻在脑海里生成一份3D 蓝图
    • 它会告诉 LLM(大语言模型):“注意!沙发在坐标 (x, y, z),长宽高是 A,朝向是北偏东 30 度。桌子在坐标 (x, y, z),离沙发 2 米远。”
    • 这就好比把一段模糊的**“电影画面”,转换成了精确的“数学坐标和尺寸数据”**。

2. 第二步:让“数学家”来解题(LLM 推理)

一旦有了这份精确的“蓝图”(空间代码),大语言模型(LLM)就不再需要去猜画面了。

  • 它就像一位拿着图纸的数学家
  • 当有人问:“从沙发看,桌子在哪?”
  • 数学家不需要看视频,它直接看图纸上的坐标数据,用数学公式一算:“哦,沙发朝向是 X,桌子坐标是 Y,根据向量计算,桌子在沙发的左前方。”
  • 关键点: 这种推理是基于真实几何关系的,而不是靠猜或者死记硬背画面。

3. 第三步:严厉的“空间考官”(强化学习奖励)

为了让这个“数学家”更聪明,作者设计了一种特殊的**“空间评分表”(Spatial Rubric Reward)**。

  • 以前的训练只看答案对不对(比如:答对了给 1 分)。
  • 现在的训练看思考过程对不对
    • 如果你直接猜对了答案,但没建立坐标系,扣分(因为这是“瞎蒙”)。
    • 如果你正确地建立了“以沙发为原点”的坐标系,并一步步推导,加分
  • 这就像教学生做题:不仅要求答案对,还要求步骤清晰、逻辑严密,不能靠运气。

🌟 为什么这很重要?(核心发现)

论文发现了一个惊人的事实:限制 AI 空间推理能力的,不是它“脑子”(参数)够不够大,而是它“眼睛”(感知)够不够准。

  • 比喻: 就像让一个天才数学家(大模型)去解几何题,但如果给他看的图纸是歪的、模糊的(视频感知差),他算得再快、再聪明,答案也是错的。
  • 结果: 这项研究证明,只要把“图纸”(3D 空间代码)画得足够准,哪怕是一个中等大小的模型(40 亿参数),也能在空间推理任务上打败那些超级巨大的模型(几百亿甚至上千亿参数)。

🚀 总结

这项技术就像是给 AI 装上了一双**“透视眼”和一把“卷尺”**。

  1. 它不再把视频当成一堆像素点,而是当成有体积、有位置、有方向的 3D 物体
  2. 它把视频变成可计算的代码,让 AI 能像人类一样进行空间推理(比如导航、判断物体相对位置)。
  3. 它证明了:在理解物理世界时,精准的“感知”比单纯的“算力堆砌”更重要。

这就好比,与其让一个盲人(缺乏空间感)去猜房间布局,不如给他一副3D 眼镜和一张精确地图,他瞬间就能成为最棒的导航员。