Offline Multi-agent Reinforcement Learning via Sequential Score Decomposition

本文提出了一种新颖的离线多智能体强化学习框架,该框架通过采用顺序分数分解方法并结合基于扩散的生成模型,引导策略更新朝向高奖励且符合分布的区域,从而解决协作任务中的分布偏移和多模态协调挑战,在多种基准测试中实现了最先进的性能。

原作者: Dan Qiao, Wenhao Li, Shanchao Yang, Hongyuan Zha, Baoxiang Wang

发布于 2026-05-29✓ Author reviewed
📖 1 分钟阅读☕ 轻松阅读

原作者: Dan Qiao, Wenhao Li, Shanchao Yang, Hongyuan Zha, Baoxiang Wang

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你正在尝试教导一群机器人如何协作采摘苹果。你拥有一个庞大的视频库(数据集),展示了过去不同机器人团队完成这项工作的过程。有些团队共同摘取了红苹果,有些摘取了绿苹果,而有些则只是漫无目的地徘徊。

挑战在于,你无法再让机器人在现实世界中进行练习;你只能通过观看这些旧视频来教导它们。这被称为离线多智能体强化学习

问题:“困惑的合唱团”

过去,当研究人员试图从这些混杂的视频中教导机器人时,他们犯了一个大错。他们将每个机器人视为独立学习,忽略了其他机器人的动作。

想象一个合唱团,每个人都在唱着同一份乐谱上的不同歌曲。如果你根据各自的习惯告诉女高音唱“歌曲 A",告诉男低音唱“歌曲 B",结果将是一阵糟糕而混乱的噪音。在机器人世界中,这会导致协调失误。机器人可能会试图同时摘取两个不同的苹果,或者试图抓取视频中从未有人成功摘取的苹果。它们最终做出的行为,对单个机器人来说看似“还行”,但对整个团队而言却是灾难性的。

论文将这种现象称为"组合模式偏移"。这就像试图混合城堡、帐篷和摩天大楼的蓝图来建造一座房子。结果不是一座房子,而是一堆不匹配的砖块。

解决方案:OMSD(“指挥棒”)

作者提出了一种名为OMSD(基于序列分数分解的离线多智能体强化学习)的新方法。

以下是其工作原理,使用一个简单的类比:

1. “排队”策略(序列分解)
OMSD 不是让每个机器人根据自己的记忆决定该做什么,而是按照特定顺序询问它们,就像排队等待进入房间的人群一样。

  • 机器人 A 第一个行动,决定:“我要去摘红苹果。”
  • 机器人 B 看到机器人 A 的决定后想:“好吧,既然机器人 A 要去摘红苹果,我也应该去摘红苹果以提供帮助。”
  • 机器人 C 看到前两者的行动后也照此办理。

通过观察之前的机器人做出了什么决定,每个机器人都能学习到团队计划的上下文。这防止了它们意外选择摘取不同的苹果或漫无目的地游荡。

2. “扩散”魔法(分数函数)
为了实现这一点,研究人员使用了一种特殊的 AI,称为扩散模型。这就像一个“去噪器”或“去模糊器”。

  • 想象那些旧视频有些模糊且充满噪点。
  • 扩散模型就像一个智能过滤器,确切知道如何对数据进行“去噪”。它不仅仅是猜测一个随机动作,而是计算出一个“分数”或“方向”,指向团队在成功视频中实际采取的动作。
  • 它告诉机器人:“别往那边去(那是错误);往这边去(那是团队成功的地方)。”

3. “中央教练”(评论家)
当机器人按顺序学习具体动作时,有一位“中央教练”(集中式评论家)在观察整个团队。这位教练知道团队获得的总分。它告诉机器人:“嘿,那个摘红苹果的策略得分很高,继续这样做!”

为什么它更好

以前的方法试图通过孤立地观察机器人的个人习惯来教导它们。如果每个人都在做同样的事情,这种方法效果尚可;但当视频展示了多种不同的成功策略(多模态数据)时,这种方法就彻底失败了。

OMSD 通过以下方式解决了这个问题:

  • 尊重链条:它理解机器人 B 的动作取决于机器人 A 的动作。
  • 坚守车道:它确保机器人只执行视频中实际发生过的动作,防止它们尝试数据中不存在的、高风险的虚构动作。
  • 寻找最佳路径:它帮助团队找到能带来最高回报的特定“模式”或策略(例如摘红苹果还是摘绿苹果),而不会被视频库中的其他策略所迷惑。

结果

作者在各种机器人任务上测试了该方法,从简单的游戏到复杂的物理模拟(如机器人奔跑或捕猎)。

  • 在简单测试中:OMSD 学会了完美协调,而其他方法未能就计划达成一致。
  • 在复杂测试中:OMSD 始终优于现有的最佳方法,特别是在训练数据杂乱无章或展示了多种成功方式的情况下。

简而言之,OMSD 就像一位聪明的指挥家,他不仅告诉每位乐手演奏自己的部分,还通过让每位乐手倾听前一位并跟随指挥的引导,指导整个乐团和谐演奏,确保最终的演出是一场成功之作,而非灾难。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →