Actor-Critic Pretraining for Proximal Policy Optimization

该论文提出了一种利用专家演示数据同时预训练策略(Actor)和价值(Critic)网络的近端策略优化(PPO)方法,通过行为克隆初始化策略网络并结合预训练策略的回报数据初始化价值网络,在 15 个机器人任务中显著提升了样本效率。

Andreas Kernbach, Amr Elsheikh, Nicolas Grupp, René Nagel, Marco F. Huber

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个机器人学习中的大难题:如何让机器人学得快一点,少摔几次跟头?

想象一下,你正在教一个刚出生的机器人宝宝走路或拿东西。

1. 传统的做法:盲目摸索(纯强化学习)

以前的方法(比如 PPO 算法)就像让机器人宝宝从零开始,完全靠“试错”来学习

  • 怎么学? 机器人自己乱动,做对了给糖吃(奖励),做错了挨骂(惩罚)。
  • 问题在哪? 这个过程太慢了!机器人可能需要摔几千次、撞坏几千次零件,才能学会怎么稳稳地拿起一个杯子。在现实世界里,这意味着昂贵的硬件磨损和漫长的时间。

2. 现有的改进:只教“动作”,不教“判断”(演员预训练)

后来,人们想出了一个办法:“模仿学习”

  • 怎么做? 先找一个专家(比如人类高手或另一个练好的机器人)演示一遍怎么拿杯子。让机器人先照着学,把“动作”(Actor)练熟。
  • 效果: 机器人不再是从零乱动,而是有了基础,学得快多了。
  • 缺点: 这就像只教了机器人“手怎么动”,但没教它“怎么判断现在的姿势对不对”。当机器人开始自己微调动作时,它容易“忘本”,甚至把之前学好的动作给练歪了(论文里叫“灾难性遗忘”)。

3. 这篇论文的突破:既教“动作”,又教“判断”(演员 - 评论家预训练)

这篇论文提出了一种**“双管齐下”的新方法,给机器人找了个全能教练**,同时训练它的**“手”(演员)“脑子”(评论家)**。

核心比喻:学开车

想象你在学开车:

  • 演员(Actor) = 你的手和脚(负责踩油门、打方向盘)。
  • 评论家(Critic) = 你的大脑判断力(负责评估“现在这个速度是不是太快了?”、“离前车是不是太近了?”)。

以前的方法(只预训练演员):
教练先让你看专家怎么开车(模仿),把你的手脚肌肉练熟了。然后让你上路,让你自己凭感觉去判断哪里该加速、哪里该刹车。结果你可能手脚很熟练,但判断力跟不上,容易出事故或者开偏。

这篇论文的方法(演员 + 评论家预训练):

  1. 第一步(模仿): 教练让你看专家开车,练熟你的手脚(预训练演员)。
  2. 第二步(关键创新): 教练让你开着练熟的车,在安全路段跑几圈,然后告诉你:“看,刚才那个动作,专家会给你打 90 分;这个动作,专家只给 60 分。”
    • 这步就是预训练评论家。它让机器人的“大脑”先学会如何正确评估自己现在的表现,而不仅仅是学会怎么动。
  3. 第三步(微调): 现在,机器人既有熟练的手脚,又有敏锐的判断力。它再去正式训练(强化学习)时,就能迅速理解奖励信号,不再需要盲目试错。

4. 论文里的两个“小发明”

为了让这个“全能教练”更好用,作者还加了两个小工具:

  • 延长步数限制(Extended Step Limit):
    • 比喻: 就像看一场电影,如果只让你看前 10 分钟就让你猜结局,你肯定猜不准。作者让机器人在预训练时,把“电影”看得更长一点,直到奖励变得微不足道为止,这样它才能算出更准确的“总分”。
  • 残差架构(Residual Architecture):
    • 比喻: 就像给机器人戴了一副**“防遗忘眼镜”**。在微调阶段,机器人可以学习新东西,但这副眼镜会时刻提醒它:“别忘了你当初模仿专家时那个最核心的本能!”这样既灵活,又不会练歪。

5. 结果怎么样?

作者在 15 个不同的机器人任务(比如让机器人走路、拿东西、推箱子)上做了测试:

  • 跟“从零开始”比: 省下了 86% 的练习时间(样本效率提升 86.1%)。
  • 跟“只练手脚”比: 又额外省下了 30% 的时间。
  • 结论: 这种“手脚 + 大脑”一起预训练的方法,让机器人学得更快、更稳,而且不容易把以前学好的东西忘掉。

总结

这篇论文的核心思想就是:不要只让机器人模仿动作,还要让它学会如何评价动作。 就像教学生,不仅要教他解题步骤(动作),还要教他怎么检查答案对错(判断),这样他考试(实际应用)时才能既快又准。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →