Iterative On-Policy Refinement of Hierarchical Diffusion Policies for Language-Conditioned Manipulation

本文提出了 HD-ExpIt 框架,通过利用环境反馈构建自强化循环,对语言条件分层扩散策略进行迭代微调,从而在无需显式代理模型的情况下弥合规划器与控制器之间的能力差距,并在 CALVIN 基准测试中实现了从 scratch 训练的最先进性能。

Clemence Grislain, Olivier Sigaud, Mohamed Chetouani

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让机器人更聪明、更听话的新方法,我们叫它 HD-ExpIt

为了让你轻松理解,我们可以把训练一个能听懂人话的机器人,想象成教一个“新手管家”(机器人)如何完成复杂的家务

1. 以前的难题:老板和员工的“鸡同鸭讲”

以前的机器人训练方法通常是这样分工的:

  • 高层规划师(老板):负责看你的指令(比如“把桌上的杯子移到左边”),然后在大脑里规划出一系列中间目标(比如:先伸手、再抓杯子、再移过去)。
  • 底层控制器(员工):负责具体的动作,比如控制机械臂的电机怎么转动,才能真的把杯子移过去。

问题出在哪?
以前的“老板”太理想化了。它生成的计划往往超出了“员工”的能力范围

  • 比喻:老板对员工说:“你去把那个像羽毛一样轻的杯子,用‘闪电般’的速度移到左边。”
  • 结果:员工(底层控制器)根本做不到“闪电般”的速度,或者杯子太重了,一抓就碎。
  • 这就叫**“规划与执行的脱节”**。以前为了修补这个漏洞,人们试图加一个“中间人”或者让老板和员工共享同一个“大脑”,但这就像让两个人强行共用一个语言系统,既复杂又容易出错,而且他们只能死记硬背以前看过的录像(离线数据),遇到新情况就傻眼了。

2. HD-ExpIt 的绝招:在实战中“边做边学”

这篇论文提出的 HD-ExpIt 框架,核心思想是:别光在教室里死读书,要派他们去实战,失败了就改,成功了就记下来。

它把训练过程变成了一个自我强化的循环

第一步:老板的“脑洞大开”(利用扩散模型的随机性)

这里的“老板”是一个基于扩散模型(一种能生成高质量图片的 AI)的规划器。

  • 比喻:以前的老板只会照着书念。现在的老板像是一个充满想象力的画家。当你让他画“把杯子移到左边”时,他不会只画一种方案,而是会随机生成几十种不同的移动路径(就像画家画了 10 种不同的草图)。
  • 这种“随机性”不再是缺点,反而成了一种搜索工具。它能自动尝试各种可能的路径。

第二步:员工的“实战演练”与“筛选”

  • 老板把生成的几十种草图(计划)都交给员工去试。
  • 员工在真实环境中尝试执行。
  • 关键一步:如果员工发现某个计划根本做不到(比如杯子飞出去了),这个计划就被淘汰。如果员工成功完成了任务,这个计划就被保留下来,作为“成功案例”。
  • 比喻:就像老板让实习生试做 10 道菜,只有那 1 道真正好吃且没把厨房炸了的,才会被记入“成功菜单”。

第三步:把“成功案例”喂回去(蒸馏)

  • 系统把这些“成功案例”(老板的草图 + 员工的成功动作)收集起来,重新喂给老板和员工学习。
  • 神奇的效果
    • 老板学会了:“哦,原来这种‘闪电速度’的员工做不到,下次我别画这种计划了,我要画那种员工能稳稳拿住的。”(老板开始懂员工的极限了)。
    • 员工也学会了:“原来在这种新情况下,这样操作是对的。”(员工的能力也提升了)。

3. 为什么这个方法很厉害?

  1. 不再死板:以前的方法只能学训练数据里有的东西。HD-ExpIt 通过不断尝试和筛选,能发现训练数据里没有的新解法
  2. 自动对齐:不需要人为去设计复杂的“中间人”或者强行统一语言。通过“试错 - 反馈”的循环,老板自然而然地学会了根据员工的实际能力来下命令。
  3. 越练越强:这是一个滚雪球的过程。每多练一轮,老板的计划更靠谱,员工的执行更精准,两者配合得天衣无缝。

4. 实验结果:真的有用吗?

作者在两个著名的机器人测试环境(CALVIN 和 Franka-3Blocks)上做了测试:

  • 结果:经过几轮这样的“实战训练”,机器人的成功率大幅提升。
  • 具体表现:在需要连续完成 5 个复杂任务的长链条测试中,使用 HD-ExpIt 的机器人,其成功率比只靠死记硬背(离线数据)训练的机器人翻了一倍多,甚至超过了目前市面上最顶尖的其他方法。

总结

简单来说,HD-ExpIt 就是给机器人设计了一套**“模拟考 - 复盘 - 再考”**的机制。

它不再强迫机器人死记硬背标准答案,而是利用 AI 的创造力去尝试各种可能性,只保留那些真正行得通的方案,然后让机器人把这些经验刻在脑子里。这样,机器人不仅学会了怎么做,还学会了怎么根据队友的能力来制定计划,最终变成了一个真正能听懂人话、干得了活儿的智能管家。