Grounding Bodily Awareness in Visual Representations for Efficient Policy Learning

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让机器人“更懂自己身体”的新方法，叫作 ICon（Inter-token Contrast，令牌间对比）。

为了让你轻松理解，我们可以把机器人学习抓东西的过程想象成一个刚学做饭的新手厨师在厨房里学做菜。

1. 核心问题：厨师太“分心”了

想象一下，这个新手厨师（机器人）面前有一张复杂的厨房照片（视觉输入）。照片里有：

他自己（手、手臂、围裙）。
环境（桌子、炉灶、背景里的冰箱、墙上的画）。

以前的学习方法（传统的视觉模型）就像是一个没有主见的学徒。当他看照片时，他试图把照片里所有东西（包括背景里的冰箱和墙上的画）都记在脑子里，然后直接决定手该怎么动。

后果：因为照片里太多无关紧要的信息（比如背景在变，但手怎么动没变），学徒很容易“晕头转向”，学得很慢，或者换个厨房（换个机器人）就不会做菜了。他分不清哪些是“我的手”，哪些是“别人的东西”。

2. 解决方案：ICon —— 给厨师戴上“特制眼镜”

这篇论文提出的 ICon，就像是给这个学徒戴上了一副智能特制眼镜。这副眼镜能帮他把照片里的信息强行分成两堆：

“我”的部分（Agent）：我的手、我的手臂。
“世界”的部分（Environment）：桌子、杯子、背景。

它是怎么做到的呢？
这就用到了论文里的两个核心“魔法”：

魔法一：把照片切成小方块（Token）并“点名”

现在的 AI 模型（Vision Transformer）看照片不是像人眼那样整体看，而是把照片切成很多小方块（就像马赛克）。

ICon 会给每个小方块贴个标签：如果是“我”身上的，就标红；如果是“环境”的，就标蓝。
关键点：它强迫 AI 明白，标红的小方块们应该长得像“一家人”（聚在一起），标蓝的小方块们应该像“另一家人”，而且这两家人要互相保持距离，不能混在一起。
比喻：就像在聚会上，教练大声喊：“所有穿红衣服的站左边，穿蓝衣服的站右边，中间留条河，谁也不许跨过去！”这样，教练（AI）就能一眼看清谁是自己人，谁是外人。

魔法二：远点采样（Farthest Point Sampling）—— 拒绝“扎堆”

为了让这种“分家”更彻底，ICon 在挑选代表时，特意使用了一种叫远点采样的技巧。

普通做法：随机抓几个红衣服的人。结果可能抓到的全是挤在角落里的几个人，代表性不强。
ICon 的做法：它像玩“抓人游戏”一样，抓了第一个红衣服的人后，下一个一定要抓离他最远的红衣服人。
比喻：这就好比你要描述“整个操场”的样子，你不能只盯着操场中间的一群人看，你得从最东边抓一个，再跑到最西边抓一个。这样你得到的“操场印象”才是全面、立体的，不会漏掉任何角落。

魔法三：多层级融合（Multi-level Contrast）—— 从“看皮”到“看骨”

普通的模型可能只在最后一步才去区分“我”和“环境”。但 ICon 告诉模型：从第一层就开始区分！

比喻：就像学画画，新手先学画轮廓（浅层），再学画细节（深层）。ICon 要求模型在画轮廓的时候就要分清哪里是手，哪里是桌子；画细节的时候也要分清。这样，最后画出来的画（学到的策略）才最精准。

3. 效果如何？

论文在 8 个不同的机器人任务（比如关微波炉、关抽屉、叠杯子）上做了测试，结果非常棒：

学得更快、更好：戴上这副“眼镜”的机器人，学做菜（完成任务）的成功率更高，而且更稳定。
换人也能用（迁移能力强）：这是最厉害的地方。如果用“弗兰克”机器人（Franka）学会了关抽屉，然后把它教给“基诺瓦”机器人（Kinova），ICon 的方法能让新机器人很快上手。
- 比喻：以前的方法像是“死记硬背”了弗兰克的手长什么样；ICon 的方法像是教会了机器人理解“手”这个概念。所以，哪怕换了一只手（换了机器人），只要知道“手”要动，它就能立刻学会。
训练更稳：有些旧方法（比如试图把图片重新画一遍）会让训练过程像坐过山车，忽高忽低。ICon 让训练过程像坐高铁一样平稳。

总结

简单来说，这篇论文就是教机器人在视觉世界里学会“分清你我”。

以前机器人看世界是“一团乱麻”，什么都记；现在通过 ICon，机器人学会了把“自己”和“世界”在脑子里分开。这样，它就能更专注地学习如何控制自己的身体去完成任务，哪怕换了身体（机器人），也能迅速适应。

这就好比一个优秀的舞者，无论舞台背景怎么变，他都能清晰地感知到自己的肢体动作，从而跳出完美的舞蹈。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心挑战：在机器人操作任务中，学习有效的视觉表示是一个根本性挑战。现有的端到端（End-to-End）视觉 - 运动策略学习框架（如强化学习或模仿学习）中，视觉编码器与策略网络联合优化。由于优化目标单一，模型容易收敛到忽略“任务无关”线索的瓶颈，导致代理（机器人本体）自身的身体动态信息（如肢体位置、运动状态）在视觉特征中被过滤掉。
现有方法的局限：
- 虽然已有工作尝试通过辅助任务（如重建 RGB 图像或代理掩码）来解耦代理与环境，但重建损失（Reconstruction Loss）往往会破坏策略学习的训练稳定性。
- 缺乏一种自然且高效的方法，能从原始像素中直接提取出解耦的“代理 - 环境”表示，同时不牺牲策略性能。
研究目标：探索如何利用视觉表示中的**身体感知（Visual Proprioception）**线索，使机器人能够灵活适应自身的身体动力学，从而提升策略学习的效率和泛化能力。

2. 方法论 (Methodology)

论文提出了一种名为 Inter-token Contrast (ICon) 的对比学习方法，专门应用于视觉 Transformer (ViT) 的 Token 级表示。

2.1 核心思想

ICon 旨在强制在特征空间中分离**代理特定（Agent-specific）的 Token 和环境特定（Environment-specific）**的 Token。通过这种显式的解耦，模型被隐式地鼓励关注与机器人身体相关的信息，而非整个场景的无关细节。

2.2 关键组件与流程

Token 级代理掩码 (Token-level Agent Masks)：
- 利用分割模型（如 SAM）生成像素级的机器人二值掩码。
- 将像素级掩码映射到 ViT 的 Patch/Token 级别。如果某个 Patch 中代理像素的比例超过阈值 $\beta$ ，则标记为代理 Token，否则为环境 Token。
Inter-token 对比损失 (Inter-token Contrastive Loss)：
- 查询构建 (Query)：分别计算代理 Token 和环境 Token 的平均特征向量，作为查询 $q_a$ 和 $q_e$ 。
- 键选择 (Key Selection)：
  - 引入 最远点采样 (Farthest Point Sampling, FPS) 算法到 2D 域。
  - 在代理区域和环境区域分别进行 FPS 采样，选取空间分布最分散的 Token 作为正负样本键（Keys）。
  - 优势：相比随机采样，FPS 确保采样到的特征能覆盖代理或环境的多样化结构，避免特征聚集在局部。
- 损失计算：使用 InfoNCE 损失函数。
  - 对于代理查询 $q_a$ ，代理 Keys 为正样本，环境 Keys 为负样本。
  - 对于环境查询 $q_e$ ，反之亦然。
  - 最终目标函数为两个对称 InfoNCE 损失之和。
多层级对比 (Multi-level Contrast, MLC)：
- 不仅应用于 ViT 的最后一层，而是应用于所有编码器层。
- 通过加权求和（深层权重更大）融合各层的对比损失，以实现更彻底的代理 - 环境解耦。
训练框架：
- 将 ICon 作为辅助目标集成到 Diffusion Policy（一种先进的模仿学习算法）中。
- 总损失函数： $L = L_{diffusion} + \lambda L_{ICon}$ 。
- 在训练过程中，对图像和对应的掩码应用相同的数据增强。

3. 主要贡献 (Key Contributions)

ICon 框架：提出了一种基于 ViT Token 级表示的对比学习方法，显式地解耦了代理与环境的视觉特征，引入了身体感知的归纳偏置。
2D 域的最远点采样 (FPS)：首次将 FPS 引入 2D 图像 Token 采样，确保了采样特征的空间多样性和代表性，提升了特征解耦的质量。
多层级设计 (MLC)：提出融合 ViT 多层对比损失的策略，解决了单层解耦不彻底的问题。
实证效果：证明了该方法不仅能提升单一机器人的策略性能，还能显著促进不同形态机器人之间的策略迁移（Few-shot Transfer）。

4. 实验结果 (Results)

实验在 RLBench 和 Robosuite 两个基准测试的 8 个操作任务（涉及 3 种不同机器人：Franka, Kinova, KUKA）上进行。

策略性能提升：
- 在 RLBench 的 5 个任务和 Robosuite 的 3 个任务中，集成 ICon 的 Diffusion Policy (ICon-Diff-C/T) 均表现优于基线（Diff-C, Diff-T）和对比方法（Crossway-Diff-C，基于重建损失）。
- 例如，在 "Open Box" 任务中，ICon-Diff-C 比 Diff-C 提升了 21.3% 的成功率；在 "Close Microwave" 任务中提升了 11.3%。
- 在长视野任务（如 "Put Rubbish in Bin"）中，基线 CNN 策略完全失败，而 ICon 增强的 Transformer 策略仍能取得一定成功。
跨机器人迁移能力 (Transferability)：
- 在从 Franka 机器人迁移到 Kinova 和 KUKA IIWA 的少样本微调实验中，ICon 增强的策略在 Lift 和 Stack 任务中均表现出更高的成功率。
- 这表明 ICon 学习到的表示更通用，减少了对特定机器人外观的过拟合。
训练稳定性 (Training Stability)：
- 与使用重建损失的 Crossway-Diff-C 相比，ICon 在训练过程中表现出更稳定的性能（平均成功率与最高成功率的差距更小）。
- 重建损失容易导致训练波动，而 ICon 作为对比损失，能更稳健地引导特征学习。
消融实验：
- 阈值 $\beta$ ：设为 0.5 时效果最好，过高或过低均导致性能下降。
- 采样数量： $N_a=10, N_e=50$ 在训练时间和解耦效果之间取得了最佳平衡。
- FPS 与 MLC：移除 FPS（改用随机采样）或移除多层级对比（MLC）均会导致性能显著下降，证明了这两项设计的关键性。

5. 意义与局限性 (Significance & Limitations)

意义

理论价值：验证了在视觉表示中显式引入“身体感知”归纳偏置对于机器人操作策略学习的重要性。
技术突破：提供了一种无需重建图像、基于对比学习的高效解耦方法，解决了端到端学习中身体信息易丢失的问题。
应用前景：显著提升了策略在不同机器人形态间的迁移能力，为构建通用机器人策略奠定了基础。

局限性

计算开销：最远点采样 (FPS) 在前向传播过程中引入了显著的计算开销，在大规模数据集训练时效率较低。
仿真限制：目前实验仅在仿真环境中进行，尚未在真实物理世界（Real-world）中验证，缺乏对真实噪声和干扰的评估。

总结

该论文通过 ICon 方法，成功地将机器人的身体感知扎根于视觉 Transformer 的表示学习中。通过对比代理与环境 Token 的特征，ICon 不仅提升了单一任务的学习效率，还显著增强了策略在不同机器人间的泛化能力和训练稳定性，为解决复杂机器人操作中的视觉表示学习问题提供了新的思路。