Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 MolmoSpaces 的全新项目，你可以把它想象成是机器人世界的“超级乐高”和“全能训练场”。

为了让你更容易理解，我们用一些生活中的比喻来拆解这个复杂的科学项目：

1. 核心问题：机器人为什么“笨”？

想象一下，你教一个机器人做早餐。你在自家厨房里教它：

冰箱在左边，微波炉在右边。
杯子是红色的，放在架子上。
只要它学会了，它就能完美地做早餐。

但是，如果你把它带到朋友家，或者去一家餐厅，情况就变了：

冰箱可能在右边，微波炉可能坏了。
杯子可能是蓝色的，或者根本不在架子上。
机器人可能会因为“没见过这种布局”而彻底卡住，甚至把杯子打碎。

这就是机器人面临的**“长尾问题”**：现实世界有无数种变化（不同的房间、不同的物体、不同的指令），而现有的机器人训练数据太少，就像只让机器人背熟了“标准答案”，却不会做“变式题”。

2. MolmoSpaces 是什么？

MolmoSpaces 就是一个巨大的、完全开放的虚拟机器人训练宇宙。它由三个主要部分组成：

🏠 23 万个“虚拟房间” (MolmoSpaces-Scenes)
- 比喻：以前，机器人只能在几个固定的“样板间”里练习。MolmoSpaces 提供了 23 万个不同的房间，从普通的卧室、厨房，到奇怪的猫咖、博物馆，甚至是由 AI 随机生成的“未来风格”房间。
- 作用：让机器人见识过各种奇葩布局，这样无论把它扔到现实世界的哪个角落，它都能适应。
🧸 13 万个“虚拟玩具” (MolmoSpaces-Objects)
- 比喻：房间里堆满了 13 万个物体，从普通的苹果、杯子，到可以打开的冰箱门、可以转动的抽屉。这些物体不仅有名字，还有“物理性格”（比如重量、摩擦力、能不能抓起来）。
- 作用：机器人可以在这里练习抓取各种形状、材质和重量的东西，而不仅仅是练习抓标准的方块。
🤲 4200 万个“完美抓握点” (MolmoSpaces-Grasp)
- 比喻：想象一下，对于每一个杯子，有人已经帮机器人试过了 4200 种拿法，并标记了哪些拿法最稳、不会掉。
- 作用：这相当于给机器人提供了一本“万能抓握指南”，让它知道怎么拿最稳，而不是靠运气去碰。

3. 它是怎么工作的？（模拟器与真实世界的桥梁）

以前，科学家担心在电脑里练得再好，到了现实世界也会“水土不服”。

比喻：就像在模拟器里玩赛车游戏，手感再好，真车开起来可能完全不同。
MolmoSpaces 的突破：他们使用了非常逼真的物理引擎（就像给虚拟世界装上了真实的“重力”和“摩擦力”）。
结果：论文发现，机器人在这个虚拟环境里的表现，和它在真实世界里的表现高度一致（相关性高达 96%）。这意味着，我们可以在这个虚拟世界里疯狂测试和训练机器人，而不用担心它到了现实世界会“翻车”。

4. 这个“训练场”能做什么？

研究人员用这个系统建立了一个考试系统 (MolmoSpaces-Bench)，用来测试各种最新的机器人 AI 模型。

考试题目：包括“去拿那个杯子”、“把杯子放到碗旁边”、“打开冰箱门”、“把灯关掉”等 8 种基础任务，甚至包括复杂的“做沙拉”（需要打开冰箱、拿生菜、切菜等一连串动作）。
发现：
- 新的 AI 模型确实比旧的好，但它们也很“脆弱”。比如，如果你把指令从“打开冰箱”改成“把冰箱门拉开”，有些旧模型就听不懂了。
- 如果机器人的起始位置稍微偏一点，或者摄像头被挡住了一点，很多模型就会失败。
- 这告诉我们要训练更强大的机器人，必须让它们经历更多样化的“折磨”。

5. 为什么这很重要？

开源共享：就像把“乐高积木”和“说明书”免费发给全世界。任何科学家、学生或公司都可以下载这些数据和工具，用来训练自己的机器人。
加速进步：以前，训练一个机器人可能需要几个月去搭建场景、收集数据。现在，有了 MolmoSpaces，大家可以直接在现成的“超级训练场”里开始工作，大大加快了机器人变聪明的速度。

总结

MolmoSpaces 就像是给机器人教育界建了一座“超级大学”。

它有23 万个不同的教室（场景）。
它有13 万种不同的教具（物体）。
它有4200 万份标准答案（抓握数据）。
最重要的是，在这里学到的本事，真的能用到现实生活中去。

通过这个项目，科学家们希望未来的机器人不再是只会做单一任务的“笨蛋”，而是能像人一样，适应各种环境、处理各种突发状况的“全能助手”。

Each language version is independently generated for its own context, not a direct translation.

MolmoSpaces 技术总结

1. 研究背景与问题 (Problem)

随着机器人学习（Robot Learning）的进步，特别是视觉 - 语言 - 动作（VLA）模型的发展，通用机器人策略正朝着零样本（Zero-shot）部署迈进。然而，评估这些策略的性能面临巨大挑战：

长尾分布问题：现实世界中的场景布局、物体几何形状和任务指令存在无限的变化（长尾效应），现有的机器人基准测试（Benchmarks）往往规模小、多样性不足，无法覆盖这些真实环境的复杂性。
评估基础设施匮乏：要衡量策略在如此广泛分布上的泛化能力，需要大规模、多样化的评估基础设施，仅靠物理实验（成本高、速度慢、难以复现）无法满足。
现有模拟器的局限性：现有的模拟器或基准测试通常场景数量有限（几十到几百个）、缺乏真实的物理交互（如“魔法抓取”）、不支持长视野（Long-horizon）任务，或者无法在多个主流模拟器（如 MuJoCo, Isaac, ManiSkill）之间通用。
Sim-to-Real 鸿沟：缺乏能够与真实世界性能高度相关的模拟评估基准，导致在模拟中表现良好的策略在现实中可能失效。

2. 方法论 (Methodology)

为了解决上述问题，作者提出了 MolmoSpaces，这是一个完全开源的、大规模机器人导航与操作生态系统。其核心方法论包括以下几个关键组成部分：

2.1 大规模场景与资产 (Scenes & Objects)

场景多样性：构建了超过 23 万 个多样化的室内环境。
- 来源包括：手工制作的单房间场景（MSCrafted）、程序生成的住宅（MSProc）、结合 Objaverse 物体的程序生成场景（MSProcObja）、基于 LLM 生成的多类型场景（MSMultiType，涵盖博物馆、咖啡馆等非住宅环境）以及真实世界的数字孪生（MSTwin）。
- 支持从单房间到多房间长视野任务的评估。
丰富物体资产：包含超过 13 万 个高质量刚体和可动（Articulated）物体模型。
- 源自 AI2-THOR 和 Objaverse，经过严格的物理参数调整（质量、密度、摩擦等）。
- 包含约 4.8 万个可交互物体，并标注了丰富的语义和物理元数据。
跨模拟器支持：所有资产和场景均经过处理，可无缝加载到 MuJoCo、IsaacSim 和 ManiSkill 中，确保物理仿真的高保真度。

2.2 大规模抓取数据集 (MolmoSpaces-Grasp)

生成了超过 4200 万 个标注的抓取姿态（6-DoF），覆盖 4.8 万个物体。
生成流程：
- 针对刚体和可动物体分别设计流水线。
- 基于 Robotiq 2F-85 夹爪几何形状进行反极采样（Antipodal Sampling）。
- 鲁棒性验证：对刚体进行扰动测试，对可动物体进行关节驱动可行性测试（需能驱动关节 70% 以上行程）。
- 原位测试（In-situ Testing）：在包含场景几何的上下文中进行碰撞检测和抓取执行，剔除因遮挡或空间限制导致失败的抓取，确保抓取的实用性。

2.3 模块化实验框架

支持灵活组合场景、任务、机器人（静态/移动、单臂/双臂）和相机配置。
提供多种机器人模型（如 Franka FR3, Rainbow RB-Y1）和传感器设置（RealSense, ZED, GoPro 等）。
支持手动遥操作（TeleDex）和基于脚本的策略控制。

2.4 MolmoSpaces-Bench 基准测试套件

定义了 8 种基础任务，涵盖导航、操作和移动操作：
1. Navigate-to（导航至目标）
2. Pick（抓取）
3. Pick-and-place（抓取并放置）
4. Pick-and-place-next-to（抓取并放置到旁边）
5. Pick-and-place-color（带颜色区分的抓取放置）
6. Open（打开可动物体，如抽屉、冰箱）
7. Close（关闭可动物体）
8. Open-door（开门）
零样本评估：所有评估均在未见过的场景和物体上进行，不对策略进行微调。
长视野任务生成：利用 LLM 将基础任务组合成复杂的长视野任务（如“做沙拉”：打开冰箱 -> 取生菜 -> 放入碗中）。

3. 关键贡献 (Key Contributions)

MolmoSpaces 生态系统：首个提供超大规模（23 万 + 场景，13 万 + 物体，4200 万 + 抓取）、高保真物理、跨模拟器兼容的开源机器人研究平台。
MolmoSpaces-Bench：一个包含 8 类任务的新基准套件，专门用于评估通用机器人策略在零样本设置下的泛化能力，并提供了详细的失败模式分析工具。
Sim-to-Real 强相关性验证：通过实验证明，该基准测试的模拟结果与真实世界（RoboArena, CAP）的表现具有极高的相关性（抓取任务 Pearson R = 0.96, Spearman ρ = 0.98），确立了其作为真实世界性能代理的有效性。
分布偏移与敏感性分析：利用大规模数据揭示了当前 VLA 模型（如 $\pi$ 系列）对提示词措辞（Prompt phrasing）、初始关节位置、相机遮挡等分布偏移的敏感性，为改进模型提供了具体方向。
开源与可扩展性：所有资产、代码和工具均开源，支持社区生成自定义数据集和基准，推动机器人学习研究的规模化发展。

4. 实验结果 (Results)

Sim-to-Real 相关性：
- 在“抓取”（Pick）任务上，模拟基准得分与真实世界成功率的相关系数高达 0.96 (Pearson) 和 0.98 (Spearman)。
- 在“打开”（Open）和“关闭”（Close）任务上也观察到了显著的正相关性。
- 这表明高保真模拟可以可靠地预测真实世界的性能。
策略性能评估：
- 评估了包括 $\pi$ 系列模型（ $\pi_0, \pi_0$ -FAST, $\pi_{0.5}$ ）和 CAP 模型在内的多种 SOTA 策略。
- 结果显示，新一代模型（如 $\pi_{0.5}$ ）在大多数任务上优于早期版本，但在面对分布偏移时仍表现出脆弱性。
敏感性分析发现：
- 提示词敏感性：提示词措辞的微小变化会导致某些策略（特别是早期 VLA 模型）成功率大幅下降（例如，使用 DROID 数据集中高频的动词短语可提升 $\pi_0$ 的性能）。
- 初始状态敏感性：机器人初始关节位置的偏移会显著降低性能。
- 视觉敏感性：手腕相机（Wrist camera）的遮挡对性能影响极大（成功率从 28% 降至 2%），表明策略高度依赖近距离视觉输入。
- 抓取偏好：不同模型表现出不同的抓取偏好（ $\pi_{0.5}$ 偏好顶部抓取，CAP 偏好侧面抓取），这影响了它们在特定物体（如杯子 vs. 瓶子）上的表现。

5. 意义与影响 (Significance)

推动通用机器人发展：MolmoSpaces 提供了一个能够覆盖现实世界“长尾”分布的评估基础设施，使得研究人员能够更严格地衡量和推动通用机器人策略的泛化能力。
加速算法迭代：通过高保真且与真实世界强相关的模拟，研究人员可以在大规模数据上快速迭代算法，而无需依赖昂贵且缓慢的物理实验。
揭示模型缺陷：该生态系统不仅用于排名，更能通过控制变量实验（如扰动光照、遮挡、提示词）深入诊断模型的失败模式，指导未来的模型改进方向（如增强对提示词的理解、提高对初始状态的鲁棒性）。
社区赋能：开源的资产和工具降低了机器人研究的门槛，允许社区生成多样化的训练数据和基准，加速从“特定任务”向“通用智能”的演进。

综上所述，MolmoSpaces 通过构建一个超大规模、物理真实且开源的生态系统，解决了机器人评估中规模不足和多样性缺失的关键瓶颈，为下一代通用机器人策略的训练、评估和部署奠定了坚实基础。

MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation