原作者： Dan Qiao, Wenhao Li, Shanchao Yang, Hongyuan Zha, Baoxiang Wang

发布于 2026-05-29✓ Author reviewed ⓘ

📖 1 分钟阅读☕ 轻松阅读

查看于 arXiv ↗PDF ↗

CC BY 4.0

原作者： Dan Qiao, Wenhao Li, Shanchao Yang, Hongyuan Zha, Baoxiang Wang

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，你正在尝试教导一群机器人如何协作采摘苹果。你拥有一个庞大的视频库（数据集），展示了过去不同机器人团队完成这项工作的过程。有些团队共同摘取了红苹果，有些摘取了绿苹果，而有些则只是漫无目的地徘徊。

挑战在于，你无法再让机器人在现实世界中进行练习；你只能通过观看这些旧视频来教导它们。这被称为离线多智能体强化学习。

问题：“困惑的合唱团”

过去，当研究人员试图从这些混杂的视频中教导机器人时，他们犯了一个大错。他们将每个机器人视为独立学习，忽略了其他机器人的动作。

想象一个合唱团，每个人都在唱着同一份乐谱上的不同歌曲。如果你根据各自的习惯告诉女高音唱“歌曲 A"，告诉男低音唱“歌曲 B"，结果将是一阵糟糕而混乱的噪音。在机器人世界中，这会导致协调失误。机器人可能会试图同时摘取两个不同的苹果，或者试图抓取视频中从未有人成功摘取的苹果。它们最终做出的行为，对单个机器人来说看似“还行”，但对整个团队而言却是灾难性的。

论文将这种现象称为"组合模式偏移"。这就像试图混合城堡、帐篷和摩天大楼的蓝图来建造一座房子。结果不是一座房子，而是一堆不匹配的砖块。

解决方案：OMSD（“指挥棒”）

作者提出了一种名为OMSD（基于序列分数分解的离线多智能体强化学习）的新方法。

以下是其工作原理，使用一个简单的类比：

1. “排队”策略（序列分解）
OMSD 不是让每个机器人根据自己的记忆决定该做什么，而是按照特定顺序询问它们，就像排队等待进入房间的人群一样。

机器人 A 第一个行动，决定：“我要去摘红苹果。”
机器人 B 看到机器人 A 的决定后想：“好吧，既然机器人 A 要去摘红苹果，我也应该去摘红苹果以提供帮助。”
机器人 C 看到前两者的行动后也照此办理。

通过观察之前的机器人做出了什么决定，每个机器人都能学习到团队计划的上下文。这防止了它们意外选择摘取不同的苹果或漫无目的地游荡。

2. “扩散”魔法（分数函数）
为了实现这一点，研究人员使用了一种特殊的 AI，称为扩散模型。这就像一个“去噪器”或“去模糊器”。

想象那些旧视频有些模糊且充满噪点。
扩散模型就像一个智能过滤器，确切知道如何对数据进行“去噪”。它不仅仅是猜测一个随机动作，而是计算出一个“分数”或“方向”，指向团队在成功视频中实际采取的动作。
它告诉机器人：“别往那边去（那是错误）；往这边去（那是团队成功的地方）。”

3. “中央教练”（评论家）
当机器人按顺序学习具体动作时，有一位“中央教练”（集中式评论家）在观察整个团队。这位教练知道团队获得的总分。它告诉机器人：“嘿，那个摘红苹果的策略得分很高，继续这样做！”

为什么它更好

以前的方法试图通过孤立地观察机器人的个人习惯来教导它们。如果每个人都在做同样的事情，这种方法效果尚可；但当视频展示了多种不同的成功策略（多模态数据）时，这种方法就彻底失败了。

OMSD 通过以下方式解决了这个问题：

尊重链条：它理解机器人 B 的动作取决于机器人 A 的动作。
坚守车道：它确保机器人只执行视频中实际发生过的动作，防止它们尝试数据中不存在的、高风险的虚构动作。
寻找最佳路径：它帮助团队找到能带来最高回报的特定“模式”或策略（例如摘红苹果还是摘绿苹果），而不会被视频库中的其他策略所迷惑。

结果

作者在各种机器人任务上测试了该方法，从简单的游戏到复杂的物理模拟（如机器人奔跑或捕猎）。

在简单测试中：OMSD 学会了完美协调，而其他方法未能就计划达成一致。
在复杂测试中：OMSD 始终优于现有的最佳方法，特别是在训练数据杂乱无章或展示了多种成功方式的情况下。

简而言之，OMSD 就像一位聪明的指挥家，他不仅告诉每位乐手演奏自己的部分，还通过让每位乐手倾听前一位并跟随指挥的引导，指导整个乐团和谐演奏，确保最终的演出是一场成功之作，而非灾难。

技术摘要：基于序列分数分解的离线多智能体强化学习

1. 问题陈述

离线多智能体强化学习（MARL）面临一个与单智能体离线 RL 截然不同的关键挑战：由在线与离线数据收集差异引起的分布偏移。虽然在线 MARL 通常通过交互适应收敛到单一协调的联合策略，但离线数据集往往是来自不同来源的多种合作行为的混合体。这导致了高度多模态的联合行为分布。

现有的离线 MARL 方法通常分为两类，两者在处理这种多模态性时都面临困难：

基于价值的方法：这些方法依赖于个体 - 全局最大化（IGM）和保守的价值估计。然而，当智能体使用独立的 $\epsilon$ -greedy 策略时，它们可能会选择分布外（OOD）的联合动作，这些动作质量低下且未被数据集覆盖。
基于策略的方法：这些方法通常通过行为正则化或集中式规划器来约束策略。一个常见的缺陷是假设联合行为策略可以分解为独立的边缘分布（ $\mu(a|s) = \prod \mu_i(a_i|s)$ ）。在多模态设置中，这种独立分解会导致“组合模式偏移”（CMS）。随着智能体被正则化向其自身的边缘分布靠拢，它们失去了与联合模式的对齐，导致联合策略落在数据集的高密度区域之外。这种不对齐引发了严重的分布偏移和协调不良。

2. 方法：OMSD

作者提出了基于序列分数分解的离线 MARL（OMSD），以解决多模态协调问题，而无需完整的联合策略模型或集中式规划器。

核心概念：序列分解

OMSD 不使用条件独立性假设，而是利用链式法则分解联合行为策略，将每个智能体的行为条件化于前序智能体的动作：
$\mu(a|s) = \prod_{i=1}^n \mu_i(a_i | s, a_{<i})$
其中 $a_{<i}$ 表示智能体 $i$ 之前所有智能体的联合动作。这种序列建模捕捉了智能体间的依赖关系，并为每个智能体的策略约束提供了精确的条件参考。

算法工作流程

OMSD 在集中式训练 - 去中心化执行（CTDE）框架下运行，包含三个主要阶段：

评论家预训练：使用离线隐式 Q 学习（IQL）学习集中式联合价值函数 $Q_{tot}(s, a)$ ，以提供奖励指导。
分数预训练：对于每个智能体 $i$ $i$ ，在离线数据集上训练一个条件扩散模型，以估计条件分数函数 $\nabla_{a_i} \log \mu_i(a_i | s, a_{<i})$ $\nabla_{a_{i}} lo g μ_{i} (a_{i} ∣ s, a_{< i})$ 。
- 关键的是，这些模型是并行训练的。
- 分数函数近似行为策略对数概率的梯度，充当行为正则化器。
策略优化：智能体使用结合集中式评论家信号和序列分数正则化的梯度来更新其策略：
$\nabla_{\theta_i} L_i = \mathbb{E} \left[ \nabla_{a_i} Q_{tot}(s, a) + \frac{1}{\beta} \nabla_{a_i} \log \mu_i(a_i | s, a_{<i}) \right] \nabla_{\theta_i} \pi_{\theta_i}$
- 序列条件化：在更新智能体 $i$ 期间，前缀动作 $a_{<i}$ 是从同一迭代中智能体 $1 $到$ i-1$ 最近更新的策略中采样的。
- 执行：尽管训练期间采用序列更新，但执行阶段完全去中心化。每个智能体基于其局部观察采取行动，因为序列依赖仅用于指导学习方向（分数正则化），而不用于运行时生成动作。
- 效率：该方法使用确定性的 DiLac 策略作为前缀动作，以避免噪声放大，并且在执行期间不需要迭代去噪采样，从而避免了基于扩散的演员通常具有高推理成本的问题。

3. 主要贡献

根本原因的识别：该论文识别出离线联合行为分布的多模态性质以及独立边缘分解的失效（导致组合模式偏移）是离线 MARL 中协调失败的主要原因。
OMSD 算法：开发了一种新框架，该框架序列分解行为策略，并利用基于扩散的条件分数作为行为正则化器。这种方法促进了协调的模式选择，而无需对完整联合策略进行建模或依赖集中式规划器。
最先进性能：大量实验表明，OMSD consistently 优于现有方法，特别是在具有挑战性的多模态场景中（例如中等质量数据集）。

4. 实验结果

作者在以下环境中评估了 OMSD：

玩具老虎机示例：一个具有两个最优模式的 2 智能体合作任务。OMSD 实现了与联合动作学习（BRPO-JAL）相当的性能，并显著优于独立学习（BRPO-IND）和朴素 CTDE 方法，后者未能避免 OOD 联合动作。
多智能体粒子环境（MPE）：任务包括合作导航、捕食者 - 猎物和世界。OMSD 在专家、中等和随机数据集上取得了最佳或次佳分数。值得注意的是，在“中等”和“随机”数据集（多模态性显著）上，OMSD 显示出显著的提升（例如，在捕食者 - 猎物随机数据集上提升了 70.6%）。
MaMuJoCo：涉及机器人部件作为智能体的高维连续控制任务（例如 HalfCheetah、Ant）。OMSD 优于 MA-CQL、CFCQL、MADiff 和 DoF 等基线，特别是在混合质量数据集上（例如，在 OMIGA 数据集上，相比最强基线平均提升了 73.9%）。

消融研究：

分数分解：OMSD consistently 优于使用独立分解的变体（BRPO-IND、BRPO-CTDE），证实了序列条件化的必要性。
顺序敏感性：发现该方法对智能体更新顺序具有鲁棒性，表明序列结构充当训练时的协调机制，而非僵化的归纳偏置。
密度估计器：扩散模型在捕捉复杂多模态结构方面优于更简单的估计器（GMMs、归一化流），特别是在专家和中等数据集上。

5. 意义与主张

该论文声称，模态感知协调对于鲁棒的离线 MARL 至关重要。通过利用序列分数分解，OMSD 成功地将策略更新与真实的联合行为分布对齐，避免了由独立正则化引起的分布偏移。

作者强调他们的方法：

避免 OOD 联合动作：通过对前缀动作进行条件化，智能体被引导至高价值、分布内的区域。
保持去中心化执行：与需要在运行时进行集中式规划或序列执行的方法不同，OMSD 智能体在部署期间独立行动。
可扩展性：条件分数模型的预训练可以在智能体之间完全并行化，使该方法适用于更大的团队。

这项工作被视为处理离线多智能体数据复杂性的重大进步，特别是解决了阻碍先前基于策略方法的“组合模式偏移”。作者承认了局限性，例如目前专注于连续动作空间以及对预训练集中式评论家质量的依赖。

Offline Multi-agent Reinforcement Learning via Sequential Score Decomposition