Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives

本文提出了一种名为 MMDDPG 的框架,通过引入平衡任务性能与干扰强度的分数目标函数,将训练过程构建为用户策略与对抗干扰策略之间的极小极大优化问题,从而在 MuJoCo 连续控制任务中实现了对外部扰动和模型不确定性的显著鲁棒性提升。

Taeho Lee, Donghwan Lee

发布于 2026-03-13
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 MMDDPG 的新方法,旨在让人工智能(AI)机器人在面对“意外”和“干扰”时,依然能表现得非常稳健。

为了让你更容易理解,我们可以把这篇论文的核心思想想象成一场**“特训营”,或者一个“太极推手”**的练习。

1. 背景:为什么机器人容易“翻车”?

想象一下,你训练了一个机器人(比如一个机械臂)去拿杯子。在训练室里,一切都很完美:地板很平,没有风,杯子也没变形。机器人学得很快,动作很帅。

但是,一旦把它放到现实世界(比如工厂或家里),情况就变了:

  • 意外干扰:有人不小心碰了它一下,或者地面有点滑。
  • 模型误差:机器人的零件磨损了,或者电机力度跟训练时不一样了。

这时候,原本在训练室里表现完美的机器人,可能会因为一点小干扰就手忙脚乱,甚至把杯子打碎。这就是论文要解决的问题:如何让机器人不仅学会“做事”,还能学会“抗揍”?

2. 传统方法的问题:对手太“狠”了

为了解决这个问题,以前的方法(比如 RARL)会引入一个**“捣乱者”(Adversary)**。

  • 训练过程:机器人(玩家)负责拿杯子,捣乱者负责制造干扰(比如推机器人一把)。
  • 目标:机器人要尽量拿稳,捣乱者要尽量把机器人推倒。

问题出在哪?
在这个“零和博弈”中,捣乱者为了赢,往往会变得过于疯狂。它可能会用巨大的力量去推机器人,导致机器人根本学不会任何东西,直接崩溃。这就好比一个教练在教学生,结果教练故意把学生打得鼻青脸肿,学生反而学不会怎么走路了。这种训练过程非常不稳定

3. 新方案 MMDDPG:引入“分数”规则

这篇论文提出的 MMDDPG 方法,给这场“特训”加了一条聪明的规则,也就是论文标题里的**“分数目标”(Fractional Objective)**。

我们可以用**“跑步比赛”**来打比方:

  • 旧规则(传统方法)

    • 选手(机器人):跑得越快越好。
    • 对手(干扰者):把选手绊倒得越狠越好。
    • 结果:对手直接往选手脸上扔大石头,比赛没法进行。
  • 新规则(MMDDPG 的分数目标)

    • 选手的目标是:(跑得越快)除以(对手扔石头的力度)
    • 对手的目标是:(把选手绊倒)除以(自己扔石头的力度)

这个规则妙在哪里?

  1. 限制对手:对手如果想把机器人搞垮,它必须付出巨大的“代价”(扔大石头)。如果它扔的石头太大,分母变大,它的“得分”反而可能不如扔个小石子。这迫使对手**“点到为止”**,只制造合理的干扰,而不是无脑乱搞。
  2. 平衡训练:机器人面对的是**“有分寸的干扰”**。它学会了如何在适度的干扰下保持平衡,而不是在毁灭性的打击下崩溃。

这就好比教练在教学生时,不再无脑推搡,而是根据学生的承受能力,施加恰到好处的阻力。这样学生既能练出真功夫,又不会受伤。

4. 实验结果:真的管用吗?

作者在 MuJoCo(一个著名的机器人模拟软件)里做了实验,测试了两种情况:

  1. 外部干扰:比如突然推机器人一把。
  2. 内部参数变化:比如机器人的关节变松了,或者电机变慢了。

结果非常惊人:

  • 传统的机器人(DDPG)和旧版对抗训练(RARL)在干扰下表现很差,要么摔得惨,要么动作变形。
  • MMDDPG 训练的机器人:就像练过**“太极”**一样。不管外界怎么推,或者自己身体哪里有点小毛病,它都能稳稳地完成任务,而且动作非常平滑,不会忽高忽低。

5. 总结

这篇论文的核心贡献就是发明了一种**“聪明的对抗训练法”**。

它不再让干扰者“无脑乱搞”,而是通过一种数学上的“分数平衡”,让干扰者学会**“适度捣乱”。这使得机器人能在一个既充满挑战、又不会崩溃的环境中,练就一身“金刚不坏”**的稳健本领。

一句话概括:
以前的训练是让机器人面对“疯子”对手,结果机器人学废了;现在的训练是让机器人面对“懂分寸”的对手,结果机器人练成了“太极宗师”,无论风雨都能稳稳当当。