From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

本文提出了名为 FALCON 的新范式,通过利用空间基础模型从 RGB 图像中提取丰富的 3D 几何先验并注入动作头,有效弥补了现有视觉 - 语言 - 动作模型在空间推理上的不足,从而在仿真和真实世界任务中实现了超越基线的状态-of-the-art 性能。

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 FALCON 的新机器人模型。为了让你轻松理解,我们可以把机器人想象成一个正在学习做家务的“新手管家”。

🏠 核心问题:为什么以前的机器人管家容易“迷路”?

以前的机器人管家(现有的 VLA 模型)非常聪明,它们读过很多书(大语言模型),能听懂你的指令,比如“把那个红色的苹果拿给我”。

但是,它们有一个致命的弱点:它们只有“平面眼”,没有“立体感”。

  • 现状:以前的机器人主要靠 2D 摄像头看世界,就像看一张照片。它们知道苹果是红色的,但很难判断苹果离手有多远、杯子有多高、或者那个积木是不是比另一个大。
  • 后果:当它们试图伸手去拿东西时,经常因为判断不准距离而抓空,或者因为不知道物体大小而撞翻东西。这就好比一个盲人摸象,虽然知道大象在哪,但不知道具体怎么伸手去摸。

🦅 解决方案:FALCON 的“超能力”

FALCON 就像给这位新手管家装上了一套**“空间大脑”“立体眼镜”**。它的名字 FALCON 代表“从空间到行动”(From Spatial to Action)。

它通过三个聪明的招数解决了问题:

1. 借用“建筑大师”的图纸(空间基础模型)

以前的机器人要么需要昂贵的 3D 扫描仪(像专业测绘队),要么只能瞎猜(用简单的伪深度)。

  • FALCON 的做法:它直接请了一位**“建筑大师”**(空间基础模型)来帮忙。这位大师不需要额外的 3D 扫描仪,只要看一眼普通的照片(RGB 图像),就能在脑海里瞬间构建出房间的 3D 结构图。
  • 比喻:就像你只看一张客厅的照片,FALCON 就能在脑子里画出沙发、桌子和杯子的立体位置,知道哪个在前、哪个在后、哪个高、哪个低。

2. 灵活的“兼职模式”(Embodied Spatial Model)

有些机器人有昂贵的深度相机(能直接测距离),有些只有普通相机。

  • FALCON 的做法:它非常灵活。
    • 如果有深度相机:它就利用深度数据,看得更准,像戴了 3D 眼镜。
    • 如果只有普通相机:它依然能靠刚才那位“建筑大师”的能力,从普通照片里“脑补”出 3D 结构,照样干活。
  • 比喻:这就像一位厨师,如果有高级料理机,他就用料理机切菜;如果没有,他也能凭手感切得一样好。不管设备怎么变,他都能适应。

3. 大脑分工明确(空间增强动作头)

这是 FALCON 最巧妙的地方。

  • 以前的做法:试图把"3D 空间信息”硬塞进机器人的“语言大脑”里。这就像让一个正在写诗的大诗人,一边写诗一边还要心算复杂的几何题,结果往往是诗写坏了,题也算错了。
  • FALCON 的做法:它把任务分开了。
    • 语言大脑(VLM):负责理解你的话,比如“把杯子拿给我”。它保持纯粹的逻辑和语义理解,不被复杂的几何数据干扰。
    • 动作小脑(Action Head):专门负责“怎么动”。FALCON 把刚才“建筑大师”画出的 3D 图纸直接交给这个“动作小脑”。
  • 比喻:就像大脑负责想“做什么”(把苹果拿过来),小脑负责想“怎么做”(手要伸多高、多快、往哪个角度)。这样既保证了听懂指令,又保证了动作精准。

🏆 效果如何?

论文在模拟环境和真实的机器人上做了大量测试,FALCON 的表现就像开了挂:

  1. 更稳:在乱糟糟的桌子上(有很多杂物),它能精准地避开障碍物,把指定的东西拿起来。
  2. 更聪明:当你说“把那个最高的杯子拿给我”或者“把离我最近的水果放盘子里”时,它能准确理解空间关系,而以前的机器人经常搞错。
  3. 适应力强:即使物体变大、变小,或者背景变了,它也能轻松应对,不需要重新训练。

📝 总结

简单来说,FALCON 就是给机器人装上了一套“空间直觉”

它不再只是看着照片瞎猜,而是能真正理解世界的立体结构。它把“听懂话”和“动手做”分得清清楚楚,让机器人既聪明又手巧,真正成为了一个能在真实世界中灵活干活的“全能管家”。