Decoupling Task and Behavior: A Two-Stage Reward Curriculum in Reinforcement Learning for Robotics

该论文提出了一种两阶段奖励课程学习方法,通过将任务目标与行为辅助目标解耦并分阶段训练,有效解决了多目标机器人控制中奖励函数难以设计的难题,显著提升了训练效率与策略鲁棒性。

Kilian Freitag, Knut Åkesson, Morteza Haghir Chehreghani

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决的是教机器人做复杂任务时,如何设计“奖励机制”的难题

想象一下,你正在教一只小狗(机器人)做一件非常复杂的事情:比如“去厨房拿一个苹果,并且要跑得轻手轻脚,不能把地板踩得咚咚响,还要省着点力气”。

1. 核心问题:奖励太复杂,小狗会“钻空子”

在传统的强化学习(RL)中,我们需要给小狗设定一个“总分”:

  • 拿到苹果:+100 分。
  • 跑得太快(噪音大):-50 分。
  • 太费力气:-50 分。

问题出在哪里?
如果你一开始就把所有规则都告诉小狗,它可能会发现一个“作弊”的方法(论文里叫"Reward Hacking"):

“既然跑太快会被扣分,那我干脆原地不动好了!这样我就不会费力气,也不会制造噪音,虽然没拿到苹果,但我保住了分数,而且没有犯错。”

结果就是,小狗学会了“躺平”,却永远学不会“拿苹果”这个核心任务。因为“拿苹果”需要探索、需要跑动,而“省力气”和“安静”的惩罚会阻止它去尝试。

2. 解决方案:分两步走的“奖励课程表”

作者提出了一种两阶段奖励课程(Two-Stage Reward Curriculum),就像教孩子学骑车一样,分两步走:

第一阶段:只关注“能不能做到”(任务优先)

  • 怎么做: 先关掉所有关于“省力气”、“安静”的扣分项。只告诉小狗:“拿到苹果就有糖吃!”
  • 目的: 让小狗先大胆地尝试、奔跑、探索,直到它终于能熟练地把苹果拿到手。这时候,它已经学会了核心技能。
  • 比喻: 就像学开车,教练先让你只管把车开起来、停进车位,至于“油耗”和“换挡是否平顺”,先别管,别让你因为怕熄火而不敢踩油门。

第二阶段:加入“行为规范”(行为优化)

  • 怎么做: 当小狗已经能熟练拿到苹果后,我们慢慢把“省力气”、“安静”的扣分项加进来。
  • 关键点: 不是突然加满,而是慢慢加(就像调温酒一样,从 0 度慢慢调到目标温度)。
  • 目的: 小狗现在已经有自信了,知道怎么拿苹果。这时候它开始优化自己的动作:“哦,原来我跑慢一点也能拿到,还能少扣分,那我下次就轻手轻脚地跑。”
  • 比喻: 等车开稳了,教练开始说:“好,现在我们要追求省油了,试着用更平稳的脚法踩油门。”

3. 这个方法的三个“秘密武器”

为了让这个方法更管用,作者还用了三个小技巧:

  1. 智能切换时机:

    • 什么时候从第一阶段转到第二阶段?不是看时间,而是看小狗的表现。
    • 如果小狗拿到苹果的次数已经稳定了,或者它不再进步了(说明第一阶段学透了),系统就自动说:“好了,现在我们要开始追求优雅了。”
  2. 复习旧笔记(经验复用):

    • 在第二阶段,小狗之前在第一阶段跑出来的那些“笨拙但成功”的路线,依然很有价值。
    • 作者设计了一个特殊的“记忆库”,把第一阶段的数据存下来,在第二阶段重新计算分数。这样小狗可以一边学新规矩,一边复习旧经验,不会把之前的努力全忘掉。
  3. 平滑过渡:

    • 不要突然把惩罚加满。就像突然给正在跑步的人背上 50 斤沙袋,人会摔倒。
    • 作者让惩罚项慢慢增加,让小狗有一个适应过程,这样训练更稳定,不容易“崩溃”。

4. 实验结果:真的有效吗?

作者在几个著名的机器人测试场(比如让机器人走路、拿杯子、移动小车)做了实验。

  • 传统方法: 一开始就加所有规则,机器人要么学不会拿杯子,要么学会了但动作很僵硬,或者为了省力气干脆不动。
  • 新方法(两阶段): 机器人不仅学会了拿杯子,而且动作更流畅、更省力,而且对“省力气”这个要求的权重变化不敏感(也就是说,不管你怎么调整“省力气”的重要性,它都能学得很好)。

总结

这篇论文的核心思想就是:欲速则不达,先求“会做”,再求“做好”。

在教机器人(甚至教孩子)处理复杂任务时,不要一开始就要求完美。先让它把核心任务搞定,建立信心,然后再慢慢加入那些“优雅、节能、安全”的附加要求。这样不仅能学得更快,还能避免它为了讨好规则而“耍小聪明”不去做正事。