SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

本文提出了传感器条件扩散策略(SCDP),通过混合观测蒸馏技术,使双足机器人仅依靠机载传感器即可在无需显式状态估计的情况下,实现媲美全状态观测基线的鲁棒运动控制与真实部署。

Milo Carroll, Tianhu Peng, Lingfan Bao, Chengxu Zhou, Zhibin Li

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 SCDP 的新方法,它让人形机器人(比如 Unitree G1)能够像人一样,仅凭自己身上的“感觉”就能学会走路和运动,而不需要依赖外部昂贵的摄像头或复杂的定位系统。

为了让你更容易理解,我们可以把这项技术想象成教一个蒙着眼睛的杂技演员如何在舞台上表演。

1. 核心难题:为什么以前的机器人“走不动”?

  • 以前的做法(全知视角): 想象一个杂技演员,他的头上戴着一个超级头盔,头盔里装着 GPS、陀螺仪和外部摄像头。他能瞬间知道自己离舞台边缘还有多远、身体倾斜了多少度、速度有多快。有了这些“上帝视角”的数据,他就能完美地走钢丝。
    • 现实问题: 在实验室里这没问题,但到了真实世界(比如家里、街上),你不可能给机器人装这种头盔。一旦去掉这些外部数据,机器人就“瞎”了,直接摔倒。
  • 现在的挑战(局部视角): 我们只能给机器人装上它自己身上的传感器(就像人的内耳前庭、肌肉感觉和关节角度),告诉它“我的腿弯了多少”、“我的脚踩到了什么”,但不告诉它“我在哪”、“我走多快”。这就好比让那个杂技演员蒙上眼睛,只靠脚底的感觉来走钢丝。

2. 解决方案:SCDP 的“蒙眼训练法”

这篇论文提出的 SCDP(传感器条件扩散策略)就像是一位天才教练,他发明了一套独特的训练方法,让机器人学会“脑补”出那些看不见的信息。

核心秘诀一:混合观察训练(“蒙眼做题,睁眼批改”)

  • 比喻: 想象你在教一个学生做数学题。
    • 平时训练时: 你只给他看题目(机器人的传感器数据,比如关节角度),但他必须把答案(包含速度、位置等完整信息)写出来。
    • 关键点: 虽然学生看不到“标准答案”里的位置信息,但他必须通过题目里的线索去出答案。
    • 结果: 经过成千上万次的练习,学生的大脑里建立了一套强大的“推理模型”。即使以后考试时(真实世界)只给他看题目,他也能凭借经验“脑补”出完整的答案,而不再需要老师直接告诉他答案。
  • 技术术语: 这就是论文说的“混合观察训练”(Mixed-Observation Distillation)。模型在训练时,输入是“残缺”的传感器数据,但监督信号(老师给的正确答案)却是“完整”的。这强迫模型学会从局部推断整体。

核心秘诀二:限制去噪(“不许作弊”)

  • 比喻: 在上面的训练中,学生可能会偷懒。比如,题目里其实偷偷藏了一点点关于速度的线索,学生直接利用这个线索猜出速度,而不是真正学会推理。
  • SCDP 的做法: 教练把题目里所有关于“速度”的线索都涂黑(这就是“限制去噪”)。学生必须完全依靠“我刚才走了几步”、“身体晃动了多少”这些上下文信息,来推算出速度是多少。
  • 结果: 机器人不再依赖不稳定的速度传感器,而是学会了像人一样,通过身体的平衡感和运动惯性来感知速度。

核心秘诀三:上下文对齐(“保持语境一致”)

  • 比喻: 就像学外语,如果平时练习时用的句子结构很乱,考试时突然变了一种结构,学生就会懵。
  • SCDP 的做法: 确保训练时的“语境”(过去的动作和状态)和真实世界里的“语境”完全一致。这样机器人就不会因为环境的一点点变化而“精神分裂”,导致动作变形。

3. 实际效果:蒙眼也能走天下

论文在仿真环境和真实的 Unitree G1 机器人上做了测试,效果惊人:

  • 速度控制: 机器人能完美地执行“向前走”、“向左转”、“后退”等指令,成功率高达 99%。哪怕有人推它一把(干扰),它也能像人一样调整重心,稳稳站住。
  • 动作模仿: 机器人能模仿复杂的舞蹈动作(基于 AMASS 数据集),成功率达到 93%
  • 无需外部设备: 整个过程不需要任何外部摄像头、动作捕捉系统或复杂的定位算法。机器人只靠身上的传感器,就能在 50 次/秒的频率下实时运行。

4. 总结:这意味着什么?

这就好比我们终于教会了机器人像人一样“凭感觉走路”

  • 以前: 机器人必须依赖昂贵的“外置眼镜”(外部定位),一旦眼镜坏了或环境太暗,它就废了。
  • 现在(SCDP): 机器人学会了“心眼”。它通过身上的传感器,结合大脑里强大的推理能力,自己就能感知世界。

这项技术让机器人真正具备了在复杂、非结构化环境(如家庭、灾难现场)中独立行动的能力,不再需要人类在背后时刻盯着它的定位数据。这是人形机器人走向实用化的一大步。