Each language version is independently generated for its own context, not a direct translation.
这篇论文介绍了一种名为 SCDP 的新方法,它让人形机器人(比如 Unitree G1)能够像人一样,仅凭自己身上的“感觉”就能学会走路和运动,而不需要依赖外部昂贵的摄像头或复杂的定位系统。
为了让你更容易理解,我们可以把这项技术想象成教一个蒙着眼睛的杂技演员如何在舞台上表演。
1. 核心难题:为什么以前的机器人“走不动”?
- 以前的做法(全知视角): 想象一个杂技演员,他的头上戴着一个超级头盔,头盔里装着 GPS、陀螺仪和外部摄像头。他能瞬间知道自己离舞台边缘还有多远、身体倾斜了多少度、速度有多快。有了这些“上帝视角”的数据,他就能完美地走钢丝。
- 现实问题: 在实验室里这没问题,但到了真实世界(比如家里、街上),你不可能给机器人装这种头盔。一旦去掉这些外部数据,机器人就“瞎”了,直接摔倒。
- 现在的挑战(局部视角): 我们只能给机器人装上它自己身上的传感器(就像人的内耳前庭、肌肉感觉和关节角度),告诉它“我的腿弯了多少”、“我的脚踩到了什么”,但不告诉它“我在哪”、“我走多快”。这就好比让那个杂技演员蒙上眼睛,只靠脚底的感觉来走钢丝。
2. 解决方案:SCDP 的“蒙眼训练法”
这篇论文提出的 SCDP(传感器条件扩散策略)就像是一位天才教练,他发明了一套独特的训练方法,让机器人学会“脑补”出那些看不见的信息。
核心秘诀一:混合观察训练(“蒙眼做题,睁眼批改”)
- 比喻: 想象你在教一个学生做数学题。
- 平时训练时: 你只给他看题目(机器人的传感器数据,比如关节角度),但他必须把答案(包含速度、位置等完整信息)写出来。
- 关键点: 虽然学生看不到“标准答案”里的位置信息,但他必须通过题目里的线索去猜出答案。
- 结果: 经过成千上万次的练习,学生的大脑里建立了一套强大的“推理模型”。即使以后考试时(真实世界)只给他看题目,他也能凭借经验“脑补”出完整的答案,而不再需要老师直接告诉他答案。
- 技术术语: 这就是论文说的“混合观察训练”(Mixed-Observation Distillation)。模型在训练时,输入是“残缺”的传感器数据,但监督信号(老师给的正确答案)却是“完整”的。这强迫模型学会从局部推断整体。
核心秘诀二:限制去噪(“不许作弊”)
- 比喻: 在上面的训练中,学生可能会偷懒。比如,题目里其实偷偷藏了一点点关于速度的线索,学生直接利用这个线索猜出速度,而不是真正学会推理。
- SCDP 的做法: 教练把题目里所有关于“速度”的线索都涂黑(这就是“限制去噪”)。学生必须完全依靠“我刚才走了几步”、“身体晃动了多少”这些上下文信息,来推算出速度是多少。
- 结果: 机器人不再依赖不稳定的速度传感器,而是学会了像人一样,通过身体的平衡感和运动惯性来感知速度。
核心秘诀三:上下文对齐(“保持语境一致”)
- 比喻: 就像学外语,如果平时练习时用的句子结构很乱,考试时突然变了一种结构,学生就会懵。
- SCDP 的做法: 确保训练时的“语境”(过去的动作和状态)和真实世界里的“语境”完全一致。这样机器人就不会因为环境的一点点变化而“精神分裂”,导致动作变形。
3. 实际效果:蒙眼也能走天下
论文在仿真环境和真实的 Unitree G1 机器人上做了测试,效果惊人:
- 速度控制: 机器人能完美地执行“向前走”、“向左转”、“后退”等指令,成功率高达 99%。哪怕有人推它一把(干扰),它也能像人一样调整重心,稳稳站住。
- 动作模仿: 机器人能模仿复杂的舞蹈动作(基于 AMASS 数据集),成功率达到 93%。
- 无需外部设备: 整个过程不需要任何外部摄像头、动作捕捉系统或复杂的定位算法。机器人只靠身上的传感器,就能在 50 次/秒的频率下实时运行。
4. 总结:这意味着什么?
这就好比我们终于教会了机器人像人一样“凭感觉走路”。
- 以前: 机器人必须依赖昂贵的“外置眼镜”(外部定位),一旦眼镜坏了或环境太暗,它就废了。
- 现在(SCDP): 机器人学会了“心眼”。它通过身上的传感器,结合大脑里强大的推理能力,自己就能感知世界。
这项技术让机器人真正具备了在复杂、非结构化环境(如家庭、灾难现场)中独立行动的能力,不再需要人类在背后时刻盯着它的定位数据。这是人形机器人走向实用化的一大步。
Each language version is independently generated for its own context, not a direct translation.
SCDP 论文技术总结:基于混合观测蒸馏的人形机器人部分观测步态学习
1. 研究背景与问题定义 (Problem)
核心挑战:
当前的人形机器人扩散模型(Diffusion Policies)控制方法主要依赖于特权观测(Privileged Observations),即需要获取全局位置、朝向、基座速度(vpelvis)以及刚体位置等完整状态信息。然而,在真实机器人部署中,获取这些信息通常需要复杂且不可靠的状态估计管线(如外部动捕系统或复杂的滤波器),这限制了其在实际场景中的应用。
具体问题:
- 部分可观测性(POMDP):真实机器人仅能获取本体感知传感器数据(如关节角度、角速度、重力向量等),缺乏全局几何信息。
- 性能退化:现有的扩散策略在移除特权输入(特别是基座速度反馈)后,性能会急剧下降,甚至在简单的遥控行走任务中发生灾难性失败。
- 现有局限:传统的“教师 - 学生”蒸馏方法通常针对反应式策略(Observation → Action),难以处理从离线数据中蒸馏生成式轨迹规划器(State-Action Trajectories)在部分观测下的隐式状态推断问题。
2. 方法论 (Methodology)
作者提出了 SCDP (Sensor-Conditioned Diffusion Policies),一种基于扩散模型的蒸馏框架,旨在仅利用机载本体感知传感器实现人形机器人的全身控制。其核心思想是解耦感知与监督(Decouple Sensing from Supervision)。
2.1 核心架构:混合观测蒸馏 (Mixed-Observation Distillation)
- 训练策略:在训练过程中,模型仅以机载传感器历史数据(Ot)为条件进行输入,但监督目标却是包含特权状态(St,如全局位置和速度)的未来轨迹。
- 目的:这种不对称性迫使模型学习从局部、不完整的观测中隐式推断全局身体动力学(Global Body Dynamics),从而在部署时无需显式的状态估计。
2.2 关键技术组件
- 受限去噪 (Restricted Denoising):
- 问题:模型可能利用训练数据中部分加噪的速度项作为捷径,导致无法真正学会从上下文推断速度。
- 方案:在去噪输入中剔除基座线速度(vpelvis),但在监督目标中保留它。这强制模型必须根据历史上下文(如关节运动、重力变化)来推断速度,从而实现无速度反馈的控制。
- 上下文分布对齐 (Context Distribution Alignment):
- 问题:传统方法在训练时使用“噪声状态 + 噪声动作”作为上下文,而部署时是“干净状态”,导致分布不匹配。
- 方案:训练时直接使用(噪声状态,噪声动作)对作为上下文输入,确保训练与推理时的因果结构一致,减少分布偏移。
- 上下文感知注意力掩码 (Context-Aware Attention Masking):
- 方案:在上下文窗口内启用双向注意力(允许状态与历史动作相互关注),仅在预测视界(Prediction Horizon)内保持因果约束。这有助于模型更好地聚合历史信息以推断潜在动力学。
- 专家策略 (MMP):
- 使用基于强化学习(PPO)训练的多运动跟踪策略(Multi-Motion Policy)作为教师,生成高质量的专家轨迹数据用于蒸馏。
3. 主要贡献 (Key Contributions)
- 混合观测训练框架:首次提出在扩散模型中通过“传感器输入 + 特权状态监督”的方式,实现了从部分观测到全局动力学隐式推断的迁移。
- 无速度反馈控制:通过“受限去噪”技术,成功消除了对机载速度估计的依赖,解决了部分观测下速度控制不稳定的难题。
- 分布对齐与注意力机制:提出了上下文分布对齐和双向注意力掩码,有效解决了训练 - 部署不匹配问题,并增强了隐式状态估计能力。
- 实机验证:在 Unitree G1 人形机器人上以 50 Hz 的频率成功部署,无需外部动捕或状态估计,实现了鲁棒的行走和运动跟踪。
4. 实验结果 (Results)
实验在仿真(IsaacLab)和真机(Unitree G1)上进行,对比了特权观测基线、仅本体感知基线及现有扩散方法。
4.1 仿真性能
- 速度控制任务:
- 在扰动恢复、遥控行走和航点导航任务中,SCDP(无速度反馈)取得了 99% - 100% 的成功率。
- 性能与使用特权观测的基线方法(Privileged Baselines)相当,且远优于仅使用本体感知的传统扩散模型(后者成功率通常低于 60%)。
- 运动参考跟踪 (AMASS):
- 在 AMASS 测试集上,SCDP 的跟踪成功率达到 93%。
- 全局位置误差(MPJPE-G)显著低于行为克隆(BC)基线,且接近专家上限。
4.2 实机部署
- 硬件:Unitree G1 人形机器人。
- 频率:控制回路运行在 50 Hz(推理在远程工作站 RTX 5090 上,通过 ONNX Runtime 实现 105 Hz 吞吐量)。
- 表现:展示了稳健的行走、转向和抗扰动能力,无需任何外部传感器或状态估计模块。
4.3 消融实验 (Ablation Studies)
- 混合观测训练:是系统成功的基石,移除后成功率降至 1.4%。
- 受限去噪:对于无速度反馈的控制至关重要。
- 上下文分布对齐:移除后性能从 97.8% 降至 9.7%,证明了其对消除分布偏移的关键作用。
- 上下文长度:4-8 步的上下文长度最佳,过长的历史(16 步)会导致误差累积。
5. 意义与展望 (Significance)
- 打破部署瓶颈:SCDP 证明了扩散模型可以在完全缺乏全局状态估计的情况下,仅凭机载传感器实现高性能的人形机器人控制。这极大地降低了真实世界部署的硬件和计算门槛。
- 隐式状态估计:该方法展示了深度学习模型具备从局部观测中“学会”推断全局状态(如速度、位置)的潜力,为部分可观测马尔可夫决策过程(POMDP)下的复杂控制提供了新范式。
- 通用性:框架同时适用于速度指令控制和复杂的运动参考跟踪任务,展现了强大的泛化能力。
- 未来方向:论文指出未来将探索无需特权状态的 Sim-to-Real 微调、长时程运动跟踪的漂移校正机制,以及更复杂的接触式操作和复杂地形场景。
总结:SCDP 通过创新的混合观测蒸馏策略,成功解决了人形机器人扩散控制在部分观测下的核心难题,实现了从仿真到真机的高鲁棒性迁移,是人形机器人自主控制领域的一项重要进展。