Contact-Grounded Policy: Dexterous Visuotactile Policy with Generative Contact Grounding

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为**“接触接地策略”（Contact-Grounded Policy, 简称 CGP）**的新技术，它让机器人手变得像人类一样灵巧，能够完成那些需要精细触觉的任务（比如翻盒子、开罐子、甚至抓鸡蛋）。

为了让你更容易理解，我们可以把传统的机器人控制比作**“蒙眼开车”，而 CGP 则是给机器人装上了“超级直觉”**。

1. 核心痛点：为什么以前的机器人手不够“灵”？

想象一下，你试图用筷子夹起一块豆腐，或者在盘子上擦掉一滴水。

传统机器人：就像是一个只看地图的司机。它知道“手应该移动到 X 坐标，手指应该弯曲 Y 度”。它只盯着视觉（眼睛）和预设的轨迹走。一旦豆腐滑了一下，或者盘子有点歪，它因为感觉不到“滑”和“压”，就会继续按原计划执行，结果要么把豆腐捏碎，要么擦不到污渍。
问题所在：以前的机器人虽然也有触觉传感器，但它们只是把触觉数据当作“额外的参考信息”（就像司机偶尔看一眼后视镜），并没有真正理解**“我的动作如何改变了接触状态”**。

2. CGP 的解决方案：从“猜位置”到“猜感觉”

CGP 的核心思想是：不要只预测手要去哪里，要预测手摸起来会是什么感觉。

它把任务分成了两步，就像是一个**“预言家”和一个“翻译官”**：

第一步：预言家（扩散模型）

这个 AI 模型会看着现在的画面和手感，然后**“脑补”**出未来几秒会发生什么。

它不仅仅预测：“我的手会移动到这里”。
它同时预测：“我的手移动到这里时，指尖会感觉到什么样的压力和纹理”。
比喻：这就像你闭着眼睛摸一个苹果，你能在脑海里“预演”手指划过苹果表皮的感觉。如果感觉不对（比如太滑了），你就知道手的位置可能不对。

第二步：翻译官（接触一致性映射）

这是 CGP 最天才的地方。

预言家给出了“理想的感觉”和“理想的手部状态”。
但是，机器人低层的控制器（就像机器人的肌肉神经）只听得懂具体的“关节指令”。
翻译官的作用：它把“理想的感觉”翻译成“肌肉指令”。它会计算：“为了摸到那个理想的感觉，我的关节现在应该调整多少度？”
比喻：就像你告诉一个盲人朋友：“我们要摸到那个光滑的苹果皮”。翻译官会立刻告诉盲人朋友：“把手向左移 2 厘米，手指稍微放松一点”。这样，盲人朋友就能精准地摸到苹果皮，而不是乱抓。

3. 生活中的类比：学骑自行车

传统方法：教练告诉你：“左脚踩踏板，右脚踩踏板，眼睛看前方 10 米。”如果你歪了，教练还是让你继续按这个指令做，结果你摔倒了。
CGP 方法：
1. 预测：你感觉到车把有点歪，身体重心不稳（触觉/状态预测）。
2. 映射：你的大脑立刻意识到：“为了保持平衡（接触一致性），我需要把身体向右倾斜，同时左手稍微用力。”
3. 执行：你瞬间调整了动作，稳稳地骑过去了。

CGP 就是让机器人拥有了这种**“身体感”**。它不是死板地执行坐标，而是根据“摸起来的感觉”来实时调整动作。

4. 它做到了什么？（实验成果）

论文中展示了几个高难度任务，CGP 都表现优异：

翻盒子：在手里把盒子翻个面，需要手指配合滑动。
抓鸡蛋：不能捏碎，要刚好抓住。
擦盘子：需要手指在盘子上滑动并施加适当的压力。
开罐子：需要旋转并感知阻力。

在这些任务中，CGP 的成功率远高于那些只看眼睛（视觉）或者只看触觉但不懂怎么调整（传统触觉策略）的机器人。

5. 为什么它这么快？（技术小秘密）

触觉数据（比如指尖上的几百个传感器）数据量非常大，像高清视频一样，直接处理太慢。

压缩技术：CGP 用了一种类似“压缩文件”的技术（VAE），把复杂的触觉数据压缩成一个小小的“核心代码”（潜空间）。
比喻：就像把一部 4K 电影压缩成一个几 MB 的文本描述，AI 只需要处理这个“文本描述”就能理解电影情节，然后再在需要时“解压”还原出画面。这让机器人能在毫秒级时间内做出反应。

总结

Contact-Grounded Policy (CGP) 就像是给机器人装上了一套**“触觉直觉系统”**。

它不再只是机械地执行“移动到 A 点”，而是学会了**“为了摸到这种感觉，我应该怎么动”**。通过预测未来的触觉反馈，并将其实时翻译成具体的动作指令，它让机器人手变得像人类一样，能够灵活、温柔且精准地处理那些充满摩擦、滑动和不确定性的精细任务。

这就好比机器人从**“只会按图纸施工的木匠”，进化成了“能凭手感修好古董的工匠”**。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心挑战：
多指灵巧手（Multi-finger hands）的接触丰富型操作（Contact-rich manipulation）是机器人领域的重大挑战。与刚性末端执行器不同，灵巧操作涉及多个接触点，这些接触点随时间和物体几何形状、摩擦状态及滑移而动态演变。

现有方法的局限性：

抓取为中心（Grasp-centric）： 侧重于生成稳定的抓取构型，但一旦抓取建立，往往限制了手指的后续运动，难以处理需要连续重配置和主动接触调节的任务（如手内操作、工具使用）。
强化学习（RL）： 虽然在模拟中能发现复杂策略，但在“仿真到现实”（Sim-to-Real）的迁移中面临巨大困难，尤其是涉及视觉和触觉观测时，且需要繁琐的奖励工程设计。
模仿学习（Imitation Learning）： 虽然利用人类演示很有前景，但现有的视觉运动（Visuomotor）或视觉触觉（Visuotactile）策略通常存在以下核心缺陷：
- 仅预测运动学轨迹，缺乏显式的接触语义。
- 将触觉信号仅作为额外的观测输入，而非建模接触状态或动作输出与底层控制器动态的交互。
- 导致预测的输出与物理环境不一致（例如产生滑移或过度刚性的交互），无法被底层的顺应性控制器（Compliance Controller）忠实执行。

核心问题： 如何设计一种策略，不仅能预测未来的接触演化，还能将这些预测转化为底层控制器可执行的、符合物理接触一致性的目标状态？

2. 方法论 (Methodology)

作者提出了 接触接地策略（Contact-Grounded Policy, CGP），这是一种监督学习框架，将灵巧操作重新定义为“接触接地”问题。CGP 的核心思想是：不直接使用触觉信号作为观测，而是通过预测“实际机器人状态”与“触觉反馈”的耦合轨迹，并利用学习到的**接触一致性映射（Contact-Consistency Mapping）**将其转换为控制器可执行的目标状态。

2.1 核心组件

CGP 由两个耦合的组件构成：

条件扩散模型（Conditional Diffusion Model, $\pi_\theta$ ）：
- 功能： 在压缩的潜在空间中，预测未来时间步的实际机器人状态（ $\hat{x}$ ）和触觉反馈（ $\hat{u}$ ）的耦合轨迹。
- 输入： 历史观测序列（视觉图像、当前触觉、机器人状态）。
- 输出： 未来时间步的潜在状态和触觉潜在表示。
- 触觉压缩： 为了高效处理高维触觉数据（如密集触觉阵列或视觉触觉图像），使用 KL 正则化的变分自编码器（VAE）将原始触觉观测压缩为紧凑的潜在表示（Latent Space），并在该空间内进行扩散生成。
接触一致性映射（Contact-Consistency Mapping, $M_\phi$ ）：
- 功能： 将预测的“状态 - 触觉”对 $(\hat{x}, \hat{u})$ 转换为底层顺应性控制器可执行的目标机器人状态（ $\hat{a}$ ）。
- 原理： 基于观察：在特定的传感器和顺应性控制器设置下，接触可以通过三元组 $(x_t, u_t, a_t)$ 表示。该映射学习从 $(x, u)$ 到 $a$ 的隐式关系，使得当控制器跟踪目标 $a$ 时，能够复现观测到的接触交互 $u$ 。
- 残差设计： 映射输出相对于当前实际状态的残差（Offset），而非直接回归绝对状态，以提高训练稳定性和鲁棒性。

2.2 执行流程

在推理阶段（Inference）：

扩散模型采样生成未来时间步的潜在轨迹（实际状态 + 触觉）。
接触一致性映射将每一步的预测对 $(\hat{x}, \hat{u})$ 转换为可执行的目标状态 $\hat{a}$ 。
底层控制器（如 PD 控制器或阻抗控制器）跟踪该目标状态。
采用滚动时域（Receding-horizon）方式，每执行几步后重新规划。

3. 关键贡献 (Key Contributions)

接触接地策略框架（CGP Framework）：
- 提出了一种新的范式，将触觉信号从“辅助观测”转变为“接触状态建模”的核心。
- 通过预测耦合的机器人状态和触觉反馈，并利用学习到的映射将其转化为控制器目标，实现了接触演化的实时执行。
- 在多种灵巧操作任务中（手内操作、精细抓取、工具使用），CGP 的表现优于传统的视觉运动扩散策略和视觉触觉扩散策略基线。
高效的接触接地触觉预测：
- 设计了集成在 CGP 中的潜在触觉预测模型。
- 利用 KL 正则化 VAE 压缩触觉观测，在紧凑的潜在空间中进行预测。
- 实验证明，KL 正则化不仅稳定了生成过程，还显著提升了下游策略的性能，且该设计同时适用于密集触觉阵列和基于视觉的触觉传感器（如 Digit360）。
广泛的实验验证：
- 在仿真（Tesollo DG-5F 手 + 密集触觉阵列）和真实机器人（Allegro V5 手 + Digit360 传感器）上进行了验证。
- 涵盖了从易碎物体抓取（鸡蛋）到复杂工具使用（开罐子、擦盘子）等多种高难度任务。

4. 实验结果 (Results)

4.1 任务成功率

在 5 个接触丰富的灵巧操作任务中，CGP 均取得了最高的成功率：

手内翻转盒子 (In-Hand Box Flipping): CGP 66.0% vs 视觉触觉基线 58.0%。
易碎鸡蛋抓取 (Fragile Egg Grasping): CGP 74.8% vs 视觉触觉基线 70.0%。
擦盘子 (Dish Wiping): CGP 58.4% vs 视觉触觉基线 43.6%（提升显著，因为该任务高度依赖持续的接触调节）。
开罐子 (Jar Opening): CGP 93.3% vs 视觉触觉基线 66.7%。
真实机器人手内翻转: CGP 80.0% vs 视觉触觉基线 60.0%。

4.2 接触一致性验证

时间对齐分析： 实验显示，CGP 预测的触觉反馈与实际执行后观测到的触觉反馈在时间上高度对齐。这证明了 CGP 不仅仅是预测了“可能”的触觉，而是生成了机器人能够可靠执行以复现该接触演化的目标。
手配置预测： 在隔离测试接触一致性映射时，模型能够准确预测未见过的抓取构型，证明了该映射能够捕捉跨物体和接触模式的通用接触结构。

4.3 消融实验

输入模态： 仅使用状态或仅使用触觉都会导致预测误差显著增加，证明了“状态 + 触觉”耦合的必要性。
VAE 设计： 移除 KL 正则化虽然略微降低了重建误差，但导致潜在空间结构混乱，进而严重损害了扩散策略的生成稳定性和最终任务成功率。
推理效率： 尽管涉及触觉预测和映射，CGP 的推理延迟与纯视觉或视觉触觉的扩散策略基线相当，满足实时性要求。

5. 意义与局限性 (Significance & Limitations)

意义

理论突破： 解决了模仿学习中“高层意图”与“底层接触控制”之间的鸿沟。它不再将触觉视为被动的观测，而是主动建模接触状态与控制器动态的交互。
通用性： 该方法同时适用于密集触觉阵列和基于视觉的触觉传感器，展示了良好的传感器适应性。
性能提升： 在需要精细接触调节的复杂任务中（如擦盘子、开罐子），性能提升尤为显著，证明了接触接地对于灵巧操作的关键作用。

局限性与未来工作

特定性（Specificity）： 接触一致性映射依赖于特定的传感器配置和顺应性控制器参数。如果更换传感器或控制器，通常需要重新训练或进行适配，跨传感器/跨控制器的泛化性目前仍是一个挑战。
单任务训练： 当前工作是在单任务训练和评估协议下进行的。未来需要探索跨任务联合训练（Cross-task co-training），以构建能处理更广泛接触行为分布的通用策略。
未来方向： 通过条件化控制器参数和机器人物理参数，以及跨传感器联合训练，有望实现更好的系统迁移能力。

总结

这篇论文提出了一种创新的 Contact-Grounded Policy (CGP)，通过生成式模型预测接触演化，并利用学习到的映射将其转化为可执行的控制器目标。这种方法有效地解决了灵巧操作中接触状态难以建模和执行的问题，在仿真和真实机器人上均取得了显著优于现有基线的性能，为未来实现高保真、接触丰富的灵巧操作提供了重要的技术路径。