DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

DemoDiffusion 提出了一种无需特定任务训练或人机配对数据即可实现单样本人类模仿的机器人操作新方法,该方法通过运动学重定向将人类手势转化为粗略轨迹,并利用预训练扩散策略将其修正为符合机器人动作分布的可行轨迹,在 8 项真实世界任务中取得了 83.8% 的平均成功率。

Sungjae Park, Homanga Bharadhwaj, Shubham Tulsiani

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DemoDiffusion 的新方法,它的核心目标非常直观:让机器人只需看一次人类的操作演示,就能学会做同样的任务,而且不需要重新训练,也不需要人类手把手教它(不需要配对数据)。

为了让你更容易理解,我们可以把机器人想象成一个**“刚入职的学徒”,把这项技术想象成一种“超级导师 + 修正液”**的组合魔法。

1. 核心痛点:机器人为什么学不会?

想象一下,你教一个机器人怎么“关上笔记本电脑”。

  • 方法 A(直接模仿): 你给机器人看视频,让它把机械手直接挪到和你手一样的位置。
    • 结果: 机器人和人手结构不一样(比如人手有 27 个关节,机械手只有 6 个),直接挪位置往往会导致机械手“卡住”或者抓空,就像让一个穿高跟鞋的人去模仿芭蕾舞者的动作,虽然姿势像,但根本站不稳。
  • 方法 B(从头学起): 让机器人自己在电脑里试错几百万次。
    • 结果: 太慢了,而且如果在现实世界里试错,可能会把桌子砸坏,或者把昂贵的电脑弄坏。
  • 方法 C(通用大模型): 给机器人一个已经训练好的“通才”大脑(比如论文里用的 Pi-0),告诉它“去关电脑”。
    • 结果: 这个“通才”大脑虽然见过很多关电脑的视频,但面对你特定的桌子、特定的电脑角度,它可能会迷路,或者抓错了东西(比如把旁边的杯子关上了)。

2. DemoDiffusion 的解决方案:两步走策略

DemoDiffusion 就像是一个**“聪明的中间人”**,它结合了上述两种方法的优点,分两步走:

第一步:画个“草图” (运动学重定向)

  • 比喻: 就像你让机器人先**“照猫画虎”**。
  • 做法: 系统先提取你视频中手的动作,强行把人的手型“映射”到机器人的机械手上。
  • 效果: 这就像给机器人画了一个粗糙的草图。虽然这个草图大概知道手要往哪动(比如“往左下移动”),但因为机器人和人身体结构不同,这个草图可能画歪了,或者画到了墙上(不可行)。但这至少给了机器人一个大方向

第二步:用“修正液”精修 (扩散策略去噪)

  • 比喻: 这是最精彩的部分。想象机器人手里拿着一支笔,在刚才那个“粗糙的草图”上,用一种**“智能修正液”**进行涂抹和修正。
  • 做法: 这里用到了**“扩散模型”(Diffusion Policy)。你可以把它想象成一个“经验丰富的老工匠”**。
    • 系统先给那个粗糙的草图加一点“噪音”(故意把它弄乱一点,模拟不确定性)。
    • 然后,让那个训练好的“通才”老工匠(预训练的扩散策略)看着这个乱糟糟的草图,结合当前的环境(比如电脑的位置、桌子的样子),一步步把“噪音”去掉,把线条修直。
    • 关键点: 老工匠不会完全抛弃你的草图(它保留了你的意图),但它会修正那些机器人做不到的动作(比如避开障碍物、调整抓握力度)。

3. 为什么这个方法很厉害?

  • 不需要重新训练: 就像你不需要教老工匠怎么拿笔,他只需要看着你的草图,用他的经验去微调。
  • 一次学会 (One-Shot): 只要看一次人类演示,机器人就能在真实世界里干活。
  • 容错率高: 即使你演示的时候手抖了一下,或者摄像头看的位置有点偏,那个“老工匠”也能把动作修正回来。

4. 实验结果:真的有用吗?

论文在现实世界中测试了 8 种不同的任务,比如:

  • 关上笔记本电脑
  • 关上微波炉门
  • 把篮子拖走
  • 用抹布擦桌子
  • 拿起泰迪熊

成绩对比:

  • 直接模仿(草图): 成功率只有 52.5%(经常抓空或撞坏东西)。
  • 通用大模型(老工匠自己干): 成功率只有 13.8%(经常找不到目标或做错了)。
  • DemoDiffusion(草图 + 修正): 成功率高达 83.8%

甚至在某些连“通用大模型”完全不会的任务上(比如拿起特定的玩具熊),DemoDiffusion 也能成功,因为它利用了人类演示中的关键信息。

总结

DemoDiffusion 就像是一个**“翻译官 + 质检员”
它先把人类的动作“翻译”成机器人能看懂的粗糙指令,然后让一个经验丰富的 AI 质检员,根据现场情况,把这些指令
“润色”**成完美、安全、可执行的机器人动作。

这意味着,未来我们普通人只需要拿起手机录一段视频,展示怎么给机器人下指令,机器人就能立刻学会,而不需要工程师花几天几夜去写代码或收集数据。这大大降低了机器人进入家庭和服务行业的门槛。