From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 FALCON 的新机器人模型。为了让你轻松理解，我们可以把机器人想象成一个正在学习做家务的“新手管家”。

🏠 核心问题：为什么以前的机器人管家容易“迷路”？

以前的机器人管家（现有的 VLA 模型）非常聪明，它们读过很多书（大语言模型），能听懂你的指令，比如“把那个红色的苹果拿给我”。

但是，它们有一个致命的弱点：它们只有“平面眼”，没有“立体感”。

现状：以前的机器人主要靠 2D 摄像头看世界，就像看一张照片。它们知道苹果是红色的，但很难判断苹果离手有多远、杯子有多高、或者那个积木是不是比另一个大。
后果：当它们试图伸手去拿东西时，经常因为判断不准距离而抓空，或者因为不知道物体大小而撞翻东西。这就好比一个盲人摸象，虽然知道大象在哪，但不知道具体怎么伸手去摸。

🦅 解决方案：FALCON 的“超能力”

FALCON 就像给这位新手管家装上了一套**“空间大脑”和“立体眼镜”**。它的名字 FALCON 代表“从空间到行动”（From Spatial to Action）。

它通过三个聪明的招数解决了问题：

1. 借用“建筑大师”的图纸（空间基础模型）

以前的机器人要么需要昂贵的 3D 扫描仪（像专业测绘队），要么只能瞎猜（用简单的伪深度）。

FALCON 的做法：它直接请了一位**“建筑大师”**（空间基础模型）来帮忙。这位大师不需要额外的 3D 扫描仪，只要看一眼普通的照片（RGB 图像），就能在脑海里瞬间构建出房间的 3D 结构图。
比喻：就像你只看一张客厅的照片，FALCON 就能在脑子里画出沙发、桌子和杯子的立体位置，知道哪个在前、哪个在后、哪个高、哪个低。

2. 灵活的“兼职模式”（Embodied Spatial Model）

有些机器人有昂贵的深度相机（能直接测距离），有些只有普通相机。

FALCON 的做法：它非常灵活。
- 如果有深度相机：它就利用深度数据，看得更准，像戴了 3D 眼镜。
- 如果只有普通相机：它依然能靠刚才那位“建筑大师”的能力，从普通照片里“脑补”出 3D 结构，照样干活。
比喻：这就像一位厨师，如果有高级料理机，他就用料理机切菜；如果没有，他也能凭手感切得一样好。不管设备怎么变，他都能适应。

3. 大脑分工明确（空间增强动作头）

这是 FALCON 最巧妙的地方。

以前的做法：试图把"3D 空间信息”硬塞进机器人的“语言大脑”里。这就像让一个正在写诗的大诗人，一边写诗一边还要心算复杂的几何题，结果往往是诗写坏了，题也算错了。
FALCON 的做法：它把任务分开了。
- 语言大脑（VLM）：负责理解你的话，比如“把杯子拿给我”。它保持纯粹的逻辑和语义理解，不被复杂的几何数据干扰。
- 动作小脑（Action Head）：专门负责“怎么动”。FALCON 把刚才“建筑大师”画出的 3D 图纸直接交给这个“动作小脑”。
比喻：就像大脑负责想“做什么”（把苹果拿过来），小脑负责想“怎么做”（手要伸多高、多快、往哪个角度）。这样既保证了听懂指令，又保证了动作精准。

🏆 效果如何？

论文在模拟环境和真实的机器人上做了大量测试，FALCON 的表现就像开了挂：

更稳：在乱糟糟的桌子上（有很多杂物），它能精准地避开障碍物，把指定的东西拿起来。
更聪明：当你说“把那个最高的杯子拿给我”或者“把离我最近的水果放盘子里”时，它能准确理解空间关系，而以前的机器人经常搞错。
适应力强：即使物体变大、变小，或者背景变了，它也能轻松应对，不需要重新训练。

📝 总结

简单来说，FALCON 就是给机器人装上了一套“空间直觉”。

它不再只是看着照片瞎猜，而是能真正理解世界的立体结构。它把“听懂话”和“动手做”分得清清楚楚，让机器人既聪明又手巧，真正成为了一个能在真实世界中灵活干活的“全能管家”。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

核心痛点：
现有的视觉 - 语言 - 动作 (VLA) 模型虽然在理解自然语言指令和执行复杂任务方面表现出色，但它们通常基于2D 基础模型（如 VLMs）构建。这导致了一个关键的空间推理鸿沟 (Spatial Reasoning Gap)：

缺乏 3D 感知： 模型难以处理深度、几何关系、物体尺度变化或高度差异等 3D 空间信息，限制了其在真实物理世界中的泛化能力和适应性。
现有 3D 方案的局限性：
1. 依赖专用传感器： 直接输入点云或深度图的方法需要昂贵的硬件，且难以在缺乏 3D 标注的大规模数据集（如 Open X-Embodiment）上扩展。
2. 模态迁移性差： 许多方法一旦训练时依赖特定模态（如 RGB-D），在测试时若缺少该模态（如仅 RGB），性能会急剧下降。
3. 对齐困难： 将弱 3D 线索（如伪深度）强行注入 VLM 骨干网络，往往会破坏预训练好的“视觉 - 语言”对齐，导致零样本泛化能力下降。

目标：
构建一个既能利用丰富 3D 空间先验进行精准操作，又能保持 VLM 强大的语义理解能力，且具备模态迁移性（即在有/无深度/姿态信息时均能工作）的通用机器人策略。

2. 方法论 (Methodology)

作者提出了 FALCON (From Spatial to Action)，一种将丰富 3D 空间 Token 注入动作头的新范式。其核心架构包含三个主要部分：

2.1 整体架构

FALCON 由三个核心组件组成：

2D VLM (语义骨干)： 使用预训练的 2D 视觉语言模型（如 Kosmos-2）处理视觉观察和语言指令，提取上下文感知的语义动作 Token ( $\hat{t}_{act}$ )。
具身空间模型 (Embodied Spatial Model, ESM)： 负责从 RGB 图像（可选深度图和相机姿态）中提取3D 结构特征，生成富含几何先验的空间 Token ( $T_{spl}$ )。
空间增强动作头 (Spatial-Enhanced Action Head)： 将语义 Token 和空间 Token 融合，直接生成机器人动作。

2.2 关键组件详解

具身空间模型 (ESM)：
- 基于空间基础模型： 借鉴了 DUSt3R、VGGT 等空间基础模型的思路，将场景编码为 Token 序列以进行整体 3D 重建。
- 多模态融合能力： ESM 设计了一个可选的注入机制。
  - RGB-only： 仅输入图像，利用基础模型学习到的几何先验进行推理。
  - RGB-D/姿态： 当存在深度图 ( $D_t$ ) 或相机姿态 ( $P$ ) 时，通过随机条件策略 (Stochastic Conditioning) 将它们注入 ESM。
  - 优势： 这种设计使得模型在训练时可以利用高质量 3D 数据，而在推理时即使没有深度传感器也能保持鲁棒性，实现了模态迁移性。
空间增强动作头 (Spatial-Enhanced Action Head)：
- 脑科学启发： 受大脑分工启发（VLM 负责高层语义推理，小脑负责精细运动控制），FALCON 不将空间 Token 注入 VLM 骨干，而是直接注入动作头。
- 融合策略：
  1. 将 ESM 输出的空间 Token 通过最大池化压缩为向量，再投影到 VLM 特征空间。
  2. 使用元素级加法 (Element-wise Addition) 将投影后的空间特征与语义动作 Token 融合。
  3. 融合后的特征输入到动作预测器（MLP 或 LSTM）生成动作序列。
- 优势： 这种设计避免了破坏 VLM 预训练的语义 - 语言对齐，同时让动作决策直接受益于详细的几何线索。

2.3 训练策略

采用两阶段后训练 (Two-stage Post-training) 策略：

阶段一 (特征对齐)： 冻结 VLM 和 ESM，仅优化轻量级适配器 (Adapter)。使用零初始化确保空间 Token 初始贡献最小，稳定地将空间特征对齐到 VLM 特征空间。
阶段二 (联合微调)： 解冻 VLM 和适配器，进行联合微调，使 VLM 能够隐式地利用空间线索优化语义特征，同时保持语言理解能力。

3. 主要贡献 (Key Contributions)

从空间到动作的新范式： 提出了一种将丰富 3D 空间 Token 直接注入动作头而非 VLM 骨干的架构，有效解决了空间表示与语言对齐之间的冲突。
具身空间模型 (ESM)： 设计了一个灵活的模块，能够利用基础模型从纯 RGB 图像中提取强几何先验，并可选择性地融合深度/姿态信息，显著提升了模态迁移性（Modality Transferability）。
SOTA 性能与鲁棒性： 在三个仿真基准（CALVIN, SimplerEnv）和 11 个真实世界任务中，FALCON 均取得了最先进 (SOTA) 的性能，特别是在处理物体尺度变化、高度变化、空间提示条件 (Spatial-prompt) 以及少样本适应任务中表现卓越。

4. 实验结果 (Results)

仿真基准 (CALVIN & SimplerEnv)：
- 在 CALVIN 长程任务 (ABCD→D) 中，FALCON 的平均任务完成长度 (Avg. Len.) 达到 4.53，超越了所有基线模型（包括依赖点云的 3DDP 和 3D Diffuser Actor）。
- 在 SimplerEnv 的 WidowX 和 Google Robot 平台上，FALCON 在多个复杂操作任务（如“将勺子放在毛巾上”、“打开顶层抽屉放苹果”）中取得了最高成功率，显著优于 OpenVLA、RoboVLM 和 SpatialVLA。
真实世界实验 (Real-World)：
- 基础任务： 在 9 个包含杂乱场景的任务中，FALCON 平均成功率为 70.0%，比次优模型 SpatialVLA (44.4%) 高出 25.6%。
- 少样本适应 (Few-shot)： 在未见过的物体、背景和指令描述下，FALCON 展现了极强的泛化能力。例如在“打开抽屉放面包”任务中，面对未见过的物体，FALCON 成功率高达 80%，而其他模型接近 0%。
- 空间理解能力： 在物体高度变化（杯子高度改变）和尺度变化（大/小积木堆叠）任务中，FALCON 表现出对几何关系的精准理解，避免了碰撞或过早释放等错误。
消融实验：
- 注入位置： 将空间 Token 注入 VLM 骨干会导致性能下降，证明注入动作头是更优策略。
- 融合方式： 元素级加法 (Element-wise Addition) 优于 Cross-Attention 和 FiLM 门控，因其简单且无需额外参数。
- 模态迁移： 仅用 RGB 训练的 FALCON 在测试时加入深度信息可进一步提升性能；反之，用 RGB-D 训练的模型在去掉深度输入时依然保持鲁棒。

5. 意义与影响 (Significance)

解决 3D 感知瓶颈： FALCON 证明了无需昂贵的专用 3D 传感器，仅通过利用空间基础模型的先验知识，即可赋予 VLA 强大的 3D 空间推理能力。
提升部署灵活性： 其模态迁移特性使得机器人策略可以在不同传感器配置（从纯 RGB 到 RGB-D）的硬件上无缝部署，极大地降低了实际应用的门槛。
架构设计的启示： 将几何感知与语义推理在架构上解耦（VLM 负责语义，动作头负责几何融合），为未来设计更强大的具身智能体提供了新的设计思路，避免了多模态对齐中的“灾难性遗忘”问题。

总结： FALCON 通过巧妙结合空间基础模型的几何先验与 VLM 的语义能力，并采用创新的“空间增强动作头”架构，成功弥合了 2D 感知与 3D 操作之间的鸿沟，为构建通用、鲁棒且适应性强的人形机器人策略奠定了坚实基础。