Choose What to Observe: Task-Aware Semantic-Geometric Representations for Visuomotor Policy

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让机器人变得更“聪明”、更“抗干扰”的新方法。为了让你轻松理解，我们可以把机器人学习干活的过程想象成一个刚入职的实习生在学做咖啡。

🎭 核心问题：实习生被“花哨的装修”搞晕了

想象一下，你雇佣了一个实习生（机器人）来学做咖啡（执行任务）。

训练时：你在一个白色的桌子、放着白色杯子的环境下教他。他学得很快，动作很标准。
现实时：你把他派到一家新开的咖啡馆。那里的桌子是红色的，杯子是蓝色的，背景里还堆满了乱七八糟的杂志。
结果：这个实习生彻底懵了！他盯着红色的桌子发呆，或者被杂志吸引，完全忘了要拿那个蓝色的杯子。

在机器人领域，这叫**“过拟合”**。机器人死记硬背了训练时的“样子”（比如背景颜色、物体纹理），一旦环境稍微变一下（比如换个背景色、换个物体颜色），它就彻底不会干活了。

💡 解决方案：给机器人戴上一副“智能滤镜”

这篇论文的作者说：“别怪机器人笨，是它看到的‘原始画面’太干扰了。”

他们不想重新训练机器人（那太贵、太慢），也不想给机器人换更强大的大脑（那太复杂）。他们想了一个绝妙的办法：在机器人看到世界之前，先帮它把画面“净化”一下。

这就好比给实习生戴上了一副**“任务专用眼镜”。透过这副眼镜，世界不再是五颜六色的，而是变成了只有“关键信息”的简笔画**。

🛠️ 这副“眼镜”是怎么工作的？（两个步骤）

作者设计了两种观察模式，就像眼镜的两个档位：

1. 档位一：L0（“填色画模式”）

原理：机器人戴上眼镜后，它不再看复杂的照片。系统会自动识别出“我要拿的杯子”和“我的机械手”。
操作：
- 把杯子涂成鲜艳的红色。
- 把机械手涂成鲜艳的蓝色。
- 把桌子上所有无关的东西（背景、杂志、杂乱的线）全部涂成灰色。
效果：机器人看到的画面就像一张简单的填色画。它不需要管背景是红是绿，它只需要知道：“哦，那里有个红色的目标，我要把蓝色的手伸过去。”
比喻：就像你在玩“找不同”游戏时，把背景全部涂黑，只把要找的东西高亮显示。

2. 档位二：L1（“填色画 + 3D 立体感模式”）

原理：有些任务光知道“在哪里”还不够，还得知道“有多远”或“形状多深”。比如要把一个盖子盖严，或者把东西塞进缝隙里。
操作：在“填色画”的基础上，系统会给那个“红色的杯子”加上深度信息（就像给平面的红色涂上阴影，让它看起来有立体感）。
效果：机器人不仅知道目标在哪，还能感知目标的立体形状和距离。
比喻：就像从看“平面地图”升级到了看"3D 导航”，既知道路标颜色，也知道路有多宽、坑有多深。

🚀 为什么这个方法这么厉害？

不用重新教（零成本）：
这副“眼镜”是戴在机器人眼睛前面的，而不是换掉它的大脑。所以，原本训练好的机器人（不管是用 Flow Matching 还是 SmolVLA 算法），直接戴上这副眼镜就能用，不需要重新训练。
抗干扰能力超强：
在论文的实验里，他们故意把桌子颜色变了、把背景弄乱了、甚至把物体颜色换了。
- 普通机器人：看到红桌子就傻眼，成功率从 98% 跌到 1%。
- 戴了“眼镜”的机器人：不管桌子多乱，它看到的永远是“红杯子 + 蓝手”，成功率依然保持在 90% 以上。
真机验证有效：
作者不仅在电脑模拟里试了，还把它装在了真实的Franka 机械臂上。在真实的实验室里，背景变了、光线变了，机器人依然能稳稳地完成任务。

🌟 总结

这篇论文的核心思想就是：与其让机器人去适应千变万化的世界，不如让世界在机器人眼里变得简单、统一。

就像给机器人提供了一个**“去噪”的视角**，让它只关注“我要做什么”，而忽略“周围长什么样”。这种方法简单、高效，而且不需要给机器人换更贵的芯片，就能让它从“温室里的花朵”变成“风雨无阻的实干家”。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心痛点：
现有的从演示数据中学习视觉运动策略（Visuomotor Policies）的方法，往往过度拟合原始 RGB 图像中的无关视觉因素（nuisance visual factors），如背景纹理、物体颜色、光照变化等。这导致策略在面对分布外（Out-of-Distribution, OOD）的外观变化（例如背景改变、物体重着色、场景杂乱）时，表现极其脆弱（brittle），性能大幅下降。

现有方法的局限：

大多数研究侧重于扩大模型容量（如扩散模型、Flow Matching、VLA 系统）或进行数据增强。
策略通常直接消费原始 RGB 观测，导致输入分布中充斥着与任务无关的噪声。
现有的鲁棒性提升方法通常需要修改策略架构或进行额外的微调，缺乏一种通用的、即插即用的观测接口解决方案。

本文目标：
在不修改或微调策略架构（Policy Backbone）的前提下，通过显式控制策略“看到”什么，构建一个任务感知的观测接口，将视觉输入规范化为共享表征，从而显著提升策略对 OOD 外观变化的鲁棒性。

2. 方法论 (Methodology)

本文提出了一种任务感知的语义 - 几何观测接口，利用基础视觉模型（Foundation Models）将原始 RGB 图像转换为标准化的观测表示。该接口包含两个层级的观测设计：

A. 核心流程

输入： 原始 RGB 图像 $I_t$ 和开放词汇的任务描述 $c$ （例如：“机器人夹爪”、“目标物体”）。
分割 (Segmentation)： 使用 SAM3 (Segment Anything Model 3) 根据文本提示生成目标物体和机器人/夹爪的二值掩码（Masks）。
观测构建： 基于掩码构建标准化的观测图像。

B. 两级观测设计

L0 观测 (Seg-repaint / 语义重绘):
- 原理： 将场景重绘为“标签着色”的规范图像。
- 实现： 使用 SAM3 分割出机器人/夹爪和目标物体。将背景设为恒定颜色（如黑色），机器人/夹爪和目标物体分别赋予固定的语义颜色（如红色、绿色）。
- 效果： 消除了纹理、颜色等无关外观变化，仅保留任务相关实体的空间布局。
- 输入格式： 标准的 3 通道图像。
L1 观测 (Seg+Depth / 几何注入):
- 原理： 在 L0 的基础上，针对需要精细几何结构的任务，注入单目深度信息。
- 实现： 使用 Depth Anything 3 估计单目深度图。将深度图归一化后，仅覆盖（overwrite）目标物体所在的掩码区域，背景保持 L0 的语义颜色。
- 效果： 在保留语义简化的同时，恢复了关键物体的几何形状和空间结构信息。
- 输入格式： 依然是标准的 3 通道图像（深度图被复制为 3 通道覆盖在目标区域），无需修改现有的视觉编码器。

C. 策略训练

该观测接口是策略无关 (Policy-agnostic) 的。
论文主要结合 Flow Matching Policy (FMP) 进行训练，但也验证了其在 SmolVLA 上的有效性。
关键点： 基础模型（SAM3 和 Depth Anything 3）仅在训练集（In-Distribution）上使用轻量级 LoRA 进行微调，以适应特定基准的视觉统计特性，绝不使用 OOD 数据进行感知适应。

3. 主要贡献 (Key Contributions)

任务感知的语义 - 几何观测接口： 提出了一种基于分割重绘（L0）和可选深度注入（L1）的观测规范化方法。该方法将原始 RGB 转换为标准 3 通道图像，既抑制了外观噪声，又保留了任务相关的结构和几何信息。
无需修改策略架构： 该方法作为预处理接口，可直接与现有的视觉编码器（如 ResNet, ViT）和策略骨干网络（如 FMP, VLA）配合使用，无需重新设计网络结构。
系统性的鲁棒性评估： 在 RoboMimic、ManiSkill、RLBench 仿真基准以及真实的 Franka 机械臂上，针对受控的外观变化（物体颜色、背景颜色、场景杂乱）进行了广泛评估。
实证结果： 证明了该方法在保持分布内（ID）性能的同时，显著提升了分布外（OOD）的鲁棒性，且无需额外的策略微调。

4. 实验结果 (Results)

实验在多个基准和真实机器人上进行了验证，对比了原始 RGB (Org)、L0 和 L1 三种观测方式。

A. 仿真基准结果

RoboMimic (Lift 任务):
- 现象： 原始 RGB 在物体重着色（OOD-Obj）和背景变色（OOD-Bg）下性能急剧下降（例如背景变色时成功率从 98.7% 跌至 18.4%）。
- 结果： L0 将 OOD 平均成功率提升至 89.6% - 90.7%。L1 带来微小提升，表明对于简单的抓取任务，语义过滤已足够。
ManiSkill (YCB 抓取 - 杂乱场景):
- 现象： 原始 RGB 在引入杂乱背景时性能崩溃（从 98% 跌至 15%）。
- 结果： L0 和 L1 均表现出极强的鲁棒性，OOD 平均成功率分别达到 93.3% 和 94.0%，证明抑制无关区域是解决杂乱干扰的关键。
RLBench (桌面颜色变化):
- 现象： 原始 RGB 在桌面颜色变化下几乎失效（如 CloseMicrowave 任务从 80.7% 跌至 7.3%）。
- 结果： L0 显著稳定了性能（恢复至 73%-86%）。L1 在需要精细空间结构的任务（如 CloseMicrowave）上进一步将成功率提升至 96.7% (ID) 和 90%+ (OOD)。

B. 真实机器人实验 (Franka Arm)

任务： ReachX (到达标记) 和 CloseCabinet (关闭柜子)。
结果：
- ReachX: 原始 RGB 在背景变化下成功率从 61.7% 跌至 ~23%；L0 保持在 81.7% - 83.3%。
- CloseCabinet: 原始 RGB 从 85% 跌至 ~46%；L1 保持在 75% - 78.3%。
结论： 无需测试时适应（Test-time adaptation），仅通过观测接口即可显著减少真实世界的外观变化带来的性能损失。

C. 消融实验 (Ablations)

机器人/夹爪掩码的重要性： 如果只分割目标物体而不包含机器人自身（Target-only），性能会崩溃（Lift 任务从 98.7% 跌至 7.3%）。证明将机器人视为任务相关实体至关重要。
LoRA 微调的必要性： 预训练的 SAM3 在 OOD 设置下无法正确分割机器人（IoU 为 0），经过 LoRA 微调后，分割质量大幅提升（IoU > 99%）。
通用性： 该方法在 SmolVLA 模型上同样有效，证明了其不依赖于特定的策略架构（如 Flow Matching）。
对比 S2Diffusion： 本文的 L1（重绘 + 覆盖）优于简单的通道拼接（S2-style），证明了规范化观测比单纯的多通道输入更有效。

5. 意义与总结 (Significance)

范式转变： 本文提出了一种“控制策略所见”（Control what the policy sees）的新思路，而非单纯依赖扩大模型规模或数据增强。通过观测接口的规范化，从根本上解决了视觉分布偏移的问题。
即插即用 (Plug-and-Play)： 该方法不需要重新训练策略骨干网络，也不改变现有的视觉编码器架构，具有极高的实用性和迁移性。
鲁棒性提升： 实验表明，通过语义和几何信息的规范化，策略可以忽略无关的外观变化（如颜色、纹理、背景），专注于任务核心的空间结构和几何关系，从而在真实世界的复杂环境中实现更可靠的部署。
未来方向： 强调了在构建鲁棒视觉运动策略时，重新审视和设计观测接口的重要性，为未来的机器人学习提供了互补于“大模型”路径的有效方案。