Compose by Focus: Scene Graph-based Atomic Skills

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让机器人变得更聪明、更灵活的新方法。为了让你轻松理解，我们可以把机器人想象成一个刚学会做菜的学徒厨师，而这项技术就是教他如何从“只会做一道菜”进化到“能应对复杂宴席”的秘诀。

1. 核心问题：为什么机器人会“晕菜”？

想象一下，你教一个机器人（学徒厨师）做一道简单的菜：“把桌上的胡萝卜放进篮子里”。

训练时：桌子上只有胡萝卜和篮子，干干净净，非常完美。机器人学会了这个动作。
考试时：你突然把桌子弄乱了，上面堆满了茄子、玉米、玩具车、甚至还有一个正在发光的台灯（这些就是论文里说的“干扰项”或“杂乱的场景”）。

这时候，传统的机器人（就像那些只盯着整张图片看的旧方法）会彻底懵圈。因为它的大脑（视觉策略）被满桌子的杂物淹没了，它分不清哪个是胡萝卜，哪个是茄子，甚至不知道手该往哪伸。它要么抓错了东西，要么直接撞翻了台灯。

这就好比一个只背过“在空地上跑步”的人，突然被扔进拥挤的早高峰地铁里，他根本不知道该怎么迈步。

2. 解决方案：给机器人戴上“专注眼镜”

这篇论文的作者（来自哈佛和密歇根大学）想出了一个绝妙的主意：不要看整个画面，只看跟任务有关的东西。

他们给机器人装上了一副**“场景图（Scene Graph）”眼镜**。这副眼镜有两个神奇的功能：

自动过滤（聚焦）：当机器人接到“把胡萝卜放进篮子”的指令时，这副眼镜会自动把桌子上所有的茄子、玉米、玩具车都变成“透明”的，或者把它们从视野里抹去。
建立关系（连线）：它只保留**“手”、“胡萝卜”和“篮子”**这三个关键角色，并在它们之间画上连线，告诉机器人：“手要抓胡萝卜，然后放进篮子里”。

打个比方：

旧方法：就像让你在一场嘈杂的摇滚音乐会上听清一个人的低语，背景全是噪音，你根本听不清。
新方法：就像给你戴上了降噪耳机，并且只把那个说话人的声音放大，其他所有噪音瞬间消失。机器人现在只关注“胡萝卜”和“篮子”的关系，完全无视旁边的玩具车。

3. 技术核心：如何做到“聚焦”？

为了实现这种“聚焦”，论文用了三个步骤，就像给机器人请了三位超级助手：

超级眼（Grounded-SAM）：这是一个能看懂图片的 AI，它负责在乱糟糟的桌子上把“胡萝卜”圈出来，把“篮子”圈出来，忽略其他东西。
超级脑（VLM/ChatGPT）：这是一个语言模型，它负责理解指令。比如它知道“胡萝卜”和“篮子”是任务主角，而旁边的“玩具车”是无关紧要的。它会把任务拆解成一个个小步骤。
超级手（扩散策略 + 图神经网络）：这是机器人的“肌肉记忆”。它不再看整张乱糟糟的照片，而是看着上面提到的那个精简版的关系图（只有手、菜、篮子），然后计算出完美的动作。

4. 实验结果：从“单科状元”到“全能选手”

论文在模拟环境和真实世界中做了大量测试，结果非常惊人：

旧方法（只看图）：在单一任务（只放一个胡萝卜）时表现不错，但一旦场景变乱，或者需要连续做几个动作（比如先放胡萝卜，再放茄子），成功率直接暴跌到 50% 以下，甚至完全失败。
新方法（场景图聚焦）：
- 在乱糟糟的桌子上，它依然能精准地抓住目标。
- 它能把简单的动作像搭积木一样组合起来，完成复杂的长任务（比如“把所有蔬菜都放进篮子”）。
- 在真实世界的蔬菜采摘和工具使用实验中，它的成功率高达 97%，而最好的竞争对手（包括一些大模型）只有 20%-50%。

5. 总结：为什么这很重要？

这篇论文的核心思想是：机器人不需要记住世界上所有的情况，它只需要学会“如何关注重点”。

以前，为了让机器人学会在乱桌子上干活，我们需要收集海量的数据，把桌子弄乱一万种样子让它练习，这既费钱又费时（就像让厨师在每一种可能的厨房布局里都练一遍）。

现在，通过**“场景图”这种结构化的方法，机器人学会了“抓重点”**。它不需要见过每一种乱法，只要它知道“手、菜、篮子”的关系，它就能举一反三，在任何乱糟糟的环境里完成任务。

一句话总结：
这项技术让机器人学会了**“在混乱中保持专注”**，通过忽略无关的干扰，只关注任务核心，从而像人类专家一样，灵活地组合各种技能，完成复杂的长任务。

Each language version is independently generated for its own context, not a direct translation.

论文标题

Compose by Focus: Scene Graph-based Atomic Skills
（通过聚焦进行组合：基于场景图的原子技能）

1. 研究背景与问题定义 (Problem)

核心挑战：通用机器人需要具备组合泛化能力（Compositional Generalization），即能够将多个已学习的“原子技能”（Atomic Skills）组合起来，解决复杂的长视野（Long-horizon）任务。
现有痛点：
- 以往研究主要关注如何规划（Planner）来序列化已学习的技能，但忽略了单个技能本身的鲁棒性。
- 传统的视觉 - 运动策略（Visuomotor Policies）通常基于原始 RGB 图像或 3D 点云。当场景发生变化（如出现干扰物、背景杂乱）导致分布偏移（Distribution Shift）时，这些策略往往失效。
- 即使使用大规模预训练模型（如 $\pi_0$ ），在面对需要组合多个技能且场景复杂的任务时，泛化能力依然不足。
核心假设：为了使技能具备可组合性，技能执行必须是**“聚焦（Focused）”**的——即只关注与当前任务相关的物体和关系，而忽略场景中的“干扰项（Distractors）”。

2. 方法论 (Methodology)

作者提出了一种基于**场景图（Scene Graph）**的技能学习框架，将视觉输入转化为结构化的语义图，并结合扩散策略（Diffusion Policy）进行训练。

A. 场景图构建 (Scene Graph Construction)

输入转换：不直接使用原始图像，而是利用视觉基础模型（如 Grounded-SAM）和视觉 - 语言模型（VLM，如 ChatGPT）将视觉数据转换为动态的语义 3D 场景图。
节点（Nodes）：
- 仅包含任务相关的实体（如机械手、目标物体、目标容器、必要的障碍物）。
- 利用 Grounded-SAM 分割物体，提取点云，并通过轻量级 MLP（DP3 Encoder）编码为向量表示。
边（Edges）：
- 捕捉物体间的动态关系（如“抓取”、“旁边”、“内部”、“避免”）。
- 利用 VLM 根据 RGB 图像推断语义关系。
优势：这种表示法过滤了无关的视觉噪声，使策略专注于任务上下文。

B. 多技能策略训练 (Multi-skill Policy Training)

图神经网络（GNN）：使用两层图注意力网络（GAT）处理场景图，提取节点特征并聚合为全局图表示（Global Mean Pool）。
条件扩散策略（Conditional Diffusion Policy）：
- 将图特征（ $F$ ）、技能描述文本特征（ $P$ ，通过 CLIP 编码）以及机器人位姿（ $Q$ ）作为条件。
- 训练一个去噪网络（ $\epsilon_\theta$ ），将高斯噪声逐步去噪为动作序列（ $A_t$ ）。
- 训练数据：仅使用单个原子技能的专家演示（孤立场景），从未在训练集中见过技能组合或杂乱场景。

C. 测试时的技能组合 (Test-time Skill Composition)

高层规划：利用 VLM（如 ChatGPT-4V）将长视野任务分解为一系列子目标（Sub-goals）。
动态子图构建：对于每个子目标，系统动态构建对应的“子场景图”（Sub-scene Graph），仅包含该步骤相关的物体和关系。
执行：训练好的策略根据当前的子场景图特征和子目标描述，预测动作并执行。

3. 主要贡献 (Key Contributions)

提出基于场景图的策略输入：利用 VLM 和视觉基础模型构建结构化的场景图作为行为克隆（Behavior Cloning）的输入，实现了可解释且通用的技能学习。
集成扩散学习与图表示：将场景图与基于扩散的模仿学习框架结合，在仿真和真实世界中均展示了显著优于基线的性能。
解决分布偏移问题：证明了通过“聚焦”相关物体和关系，可以极大地提高策略在杂乱场景和长视野任务中的鲁棒性，无需收集海量的组合演示数据。

4. 实验结果 (Results)

A. 仿真实验 (Simulation)

任务：基于 ManiSkill2 设计了 5 类多技能长视野任务（如：按颜色排序、积木堆叠、工具使用、避障等），涵盖 13 种原子技能。
对比基线：2D/3D 扩散策略（Diffusion Policy, DP3）、大规模预训练模型（ $\pi_0$ ）。
关键发现：
- 原子技能：所有方法在单一技能上表现均较好。
- 技能组合：基线方法在组合任务中成功率大幅下降（平均下降 50%-70%），甚至完全失败。
- 本文方法：在组合任务中保持了高成功率（0.78 - 0.93），证明了其强大的组合泛化能力。
- 消融实验：证明了 3D 表示、图结构（而非简单的点云拼接）以及 GNN 处理对于技能组合至关重要。

B. 真实世界实验 (Real-world)

任务 1：蔬菜采摘：在杂乱场景中采摘多种蔬菜并放入篮子。
- 结果：基线方法在组合任务中成功率接近 0（0.0 - 0.2），而本文方法达到 0.97。
任务 2：工具使用：使用 L 形工具推拉方块，并需避开障碍物。
- 结果：基线方法成功率低（0.075 - 0.6），本文方法达到 0.9。
- 鲁棒性：即使遇到训练未见过的障碍物（如从木棍变为砖块），策略仍能成功规划避障轨迹。

5. 意义与结论 (Significance & Conclusion)

数据效率：该方法打破了传统长视野任务需要指数级组合演示数据的瓶颈。只需训练原子技能，即可通过场景图实现灵活组合。
鲁棒性：通过显式建模物体关系并过滤干扰，显著提升了策略在分布偏移（Distribution Shift）下的表现。
架构创新：建立了一个连接高层规划（VLM）与底层执行（扩散策略）的统一框架，利用场景图作为自然接口，实现了“通过聚焦进行组合（Compose by Focus）”的范式。
局限性：依赖 VLM 和视觉基础模型（如 Grounded-SAM）进行实时图构建，存在计算开销和分割误差的风险，但通过聚焦子图缓解了部分问题。

总结：这篇论文提出了一种通过结构化场景图来增强机器人技能组合能力的新范式。它证明了将视觉输入转化为“任务相关”的语义图，结合扩散策略，是解决长视野、复杂场景下机器人操作任务的关键路径。