Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO

Each language version is independently generated for its own context, not a direct translation.

这篇文章讲述了一个关于**“两个 AI 机器人互相打架，结果却越练越笨”**的有趣故事。作者通过一个名为“领地涂鸦战争”（Territory Paint Wars）的小游戏，发现了人工智能训练中的一个巨大陷阱，并找到了简单的解决办法。

我们可以把这篇论文想象成**“如何教两个拳击手在擂台上真正变强，而不是只学会互相配合演戏”**。

1. 背景：两个 AI 在“抢地盘”

想象一个 $10 \times 10$ 的棋盘，有两个机器人（粉色和绿色）。

规则很简单：它们每走一步，就能把脚下的格子染成自己的颜色。如果它们把脚下的格子“锁住”，对手就再也抢不走了。
目标：250 步之后，谁占的格子多，谁就赢。
训练方法：让这两个机器人互相打（这叫“自我博弈”），赢了就奖励，输了就惩罚。

2. 第一阶段：为什么一开始它们连“随机乱动”的傻瓜都打不过？

作者一开始训练了一个 AI，结果发现它甚至打不过一个完全随机乱走的傻瓜（胜率只有 26.8%）。这就像你请了个职业教练，结果他教出来的学生连幼儿园小朋友都打不过。

作者像侦探一样，找出了5 个“低级错误”（就像做饭时把盐当成了糖）：

奖励分给错了：原本“锁住格子”的奖励给得太夸张了，导致 AI 觉得“只要疯狂锁格子”就能赢，完全忽略了占领地盘的重要性。
没有“最终判决”：游戏结束时，AI 不知道自己是赢了还是输了，就像考试完不知道分数，根本不知道努力有没有用。
记性太短（长程信用分配问题）：AI 只记得最后几步，忘了 200 步前做的关键决策。就像下棋时，只记得最后一步，忘了开局布局。
数据没“归一化”：输入给 AI 的数据有的很大（比如剩余步数 250），有的很小（比如坐标 0-9）。AI 的大脑被大数字“震晕”了，忽略了小数字里的重要信息。
裁判看错了：系统判断谁赢的时候，竟然看的是“谁拿的分数高”，而不是“谁占的地盘多”。因为前面的奖励分给错了，导致裁判判错了人。

修正这 5 个错误后，AI 突然变强了，对随机对手的胜率飙升到了 73.5%。

3. 第二阶段：最可怕的陷阱——“竞争性过拟合”

这才是论文最精彩的部分。作者继续训练这两个互相打架的 AI，结果发生了诡异的事情：

它们互相打架的胜率一直保持在 50%（看起来势均力敌，很完美）。
但是，当拿它们去测试随机乱动的傻瓜时，胜率竟然暴跌到了 21.6%！

这是什么情况？
这就好比两个拳击手在私下练习时，发现对方有个特定的“怪招”。于是，A 专门练了个“反 A 招”来对付 B，B 也专门练了个“反 B 招”来对付 A。

结果：它们俩互相打得很开心（50% 胜率），但它们已经完全忘记了怎么打普通人。它们变得太“偏科”了，只懂得怎么对付那个特定的对手。
隐蔽性：如果你只看它们互打的记录，根本发现不了问题，因为它们看起来还是势均力敌的。这就是作者发现的**“竞争性过拟合”**。

4. 解决方案：引入“陪练”

怎么打破这个死循环？作者想出了一个极简的妙招：“对手混合”（Opponent Mixing）。

做法：在 20% 的训练时间里，强行把其中一个 AI 的对手换成一个**“随机乱动的傻瓜”**。
效果：这就好比在两个职业选手互练时，偶尔塞进来一个乱挥拳的路人。这迫使职业选手不能只练“怎么对付那个特定的对手”，而必须练出通用的、能应对各种情况的拳法。
结果：AI 的通用能力瞬间恢复，对随机对手的胜率从 21.6% 回升到了 77.1%，甚至有的种子达到了 93.9%！

5. 核心发现：什么才是真正关键的？

作者做了一个“拆解实验”，把刚才的修复方案一个个去掉，看看哪个最重要：

去掉“长程记忆”（GAE）：AI 变回弱智，胜率只有 9.6%。👉 关键：没有长程记忆，AI 就学不会大局观。
去掉“数据归一化”：AI 再次陷入“过拟合”，胜率暴跌到 12.6%。👉 关键：数据格式不对，AI 就会学偏。
去掉“对手混合”：AI 再次陷入“过拟合”，胜率跌回 21.6%。👉 关键：没有多样化的对手，AI 就会“钻牛角尖”。
去掉“最终胜负奖励”：奇怪的是，AI 依然很强（胜率 87.1%）。👉 结论：只要平时每一步的奖励给对了，最后给不给“大奖”其实没那么重要。

总结与启示

这篇论文告诉我们一个深刻的道理：
在让 AI 互相学习（自我博弈）时，“势均力敌”并不等于“变强”。如果两个 AI 只是互相适应对方的怪招，它们可能会变得非常“偏科”，一旦遇到新对手就原形毕露。

解决办法很简单：不要只让它们互相打架，偶尔给它们安排一些**“水平参差不齐”的陪练**（比如随机对手），强迫它们保持通用的战斗力。

作者把这个游戏和代码开源了，希望其他研究者能利用这个“领地涂鸦战争”来检查他们的 AI 是不是也犯了同样的“偏科”错误。

一句话总结：
教 AI 打架，不能只让它和“老对手”互殴，偶尔得让它和“路人”练练手，不然它只会学会怎么对付那个老对手，却忘了怎么打天下。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义

背景：
竞争性多智能体强化学习（MARL）旨在通过自我博弈（Self-Play）训练出超越人类水平的智能体（如 AlphaGo、AlphaStar）。然而，在实践中，将单智能体 RL 算法（如 PPO）直接移植到竞争性多智能体环境中往往失败，甚至表现不如随机策略。这种失败通常归因于奖励设计、信用分配或训练不稳定等模糊原因，缺乏系统性的归因分析。

核心问题：
本文旨在通过构建一个最小化的竞争性环境，系统性地诊断并解决 PPO 在竞争性自我博弈中的具体失效模式。研究发现，即使修复了所有明显的实现错误，智能体仍会陷入一种隐蔽的失效状态——竞争性过拟合（Competitive Overfitting），导致其泛化能力（对抗随机对手）急剧下降，而自我博弈胜率却保持正常，从而无法被常规监控手段发现。

环境介绍：Territory Paint Wars

平台：Unity 2022.3 + Python（通过自定义 TCP 接口通信，无需 ML-Agents 依赖）。
规则：10x10 网格，两名智能体（粉色/绿色）同时行动。每步可移动或“锁定”当前格子（锁定后不可被夺回）。250 步后，控制格子多者获胜。
特点：引入了“锁定”机制，增加了策略深度和不可逆的决策承诺。

2. 方法论与失效模式诊断

作者首先训练了一个基准 PPO 智能体（v1），发现其对抗随机对手的胜率仅为 26.8%（远低于 50% 的随机水平）。通过受控的消融实验，作者识别并修复了 5 种实现层面的失效模式，随后发现了第 6 种 涌现的失效模式。

A. 五种实现层面的失效模式（Implementation Failure Modes）

这些是代码或算法配置上的具体错误，修复后（v2 版本）使智能体对抗随机对手的胜率提升至 73.5%。

奖励尺度爆炸（Reward-scale explosion）：
- 问题：累积的“锁定”奖励计算错误，导致单步奖励过大，累积回报达到 ±10,000，完全淹没了格子获取信号（+0.1）和胜负信号（±1）。
- 修复：改为仅对新锁定的格子给予奖励，将回报控制在合理范围（+5 到 +30）。
缺失终端信号（Missing terminal signal）：
- 问题：游戏结束时没有明确的胜负奖励，智能体无法将最终结果与策略关联。
- 修复：在最后一帧增加 ±1.0 的胜负奖励。
长程信用分配失效（Ineffective long-horizon credit assignment）：
- 问题：在 250 步的长程游戏中，使用纯蒙特卡洛（Monte Carlo, MC）回报，由于折扣因子 $\gamma=0.99$ ，第 1 步的优势值被衰减至 $0.99^{249} \approx 0.08$ ，导致早期决策（如开局占地）几乎得不到梯度信号。
- 修复：引入 GAE (Generalized Advantage Estimation)， $\lambda=0.95$ ，有效分配信用至整个回合。
未归一化的观测值（Unnormalised observations）：
- 问题：输入层混合了不同量级的特征（位置 0-9，剩余步数 0-250，棋盘状态 0-2），导致大数值特征主导梯度更新。
- 修复：将所有输入归一化到 [0, 1] 区间。
错误的胜负判定（Incorrect win detection）：
- 问题：胜负判定基于累积奖励（受上述奖励尺度 bug 污染），而非实际格子数。
- 修复：直接根据棋盘观测中的格子数量判定胜负。

B. 第六种失效模式：竞争性过拟合（Competitive Overfitting）

在修复上述 5 个问题后（v2 版本），智能体在训练 8,000 步时对抗随机对手胜率为 73.5%。但继续训练至 12,000 步时，胜率暴跌至 21.6%（甚至低于最初的 v1 基准）。

机制：两个智能体在自我博弈中协同适应（Co-adaptation）。它们过度特化于针对对方当前的特定策略，形成了一种狭窄的纳什均衡。这种策略对“分布外”的对手（如随机对手）完全失效。
隐蔽性：自我博弈胜率（Self-play Win Rate）在整个过程中始终保持在 50% 左右，因为双方都在同等程度地过拟合。常规监控无法发现此问题。

C. 解决方案：对手混合（Opponent Mixing）

方法：在训练过程中，以概率 $\epsilon=0.2$ （20%）将对手替换为均匀随机策略，其余 80% 仍为协同适应的对手。
原理：强制智能体学习能够泛化到不同对手（包括随机对手）的策略，防止过度特化。
效果：无需人口训练（Population-based training）或额外网络，仅通过这一行代码修改，将泛化胜率恢复至 77.1%（10 次实验均值），最佳种子达到 93.9%。

3. 关键实验结果

A. 胜率演变（Figure 2 & 3）

v1 (全 Bug): 26.8% (对抗随机)
v2 (修复 5 个 Bug): 峰值 73.5% $\to$ 崩溃至 21.6% (竞争性过拟合)
v3 (加入对手混合): 稳定在 77.1% ± 12.6% (10 次种子均值)

B. 消融实验（Ablation Study）

作者通过移除 v3 中的特定修复项，验证了各组件的必要性（基于种子 42 的单次运行）：

移除项	对抗随机胜率	变化 ( $\Delta$ )	结论
v3 完整 (10 种子均值)	77.1%	-	基准
- GAE (改用 MC)	9.6%	-67.5 pp	致命：早期决策无梯度，智能体学习有害策略。
- 观测归一化	12.6%	-64.5 pp	致命：加速了过拟合，导致泛化能力崩溃。
- 对手混合	21.6%	-55.5 pp	致命：直接复现了竞争性过拟合现象。
- 终端奖励	87.1%	+10.0 pp	非必需：仅移除终端奖励，智能体仍能通过密集步奖励（格子 + 锁定）学习到强泛化策略。
v1 基准 (全 Bug)	26.8%	-50.3 pp	原始失败状态

关键发现：

GAE、观测归一化、对手混合 是** individually critical（ individually 关键）**的。移除任意一项都会导致性能崩溃至低于原始 v1 基准。
终端奖励 是**互补性（Complementary）**而非必要性的。在密集步奖励（Tile gain + Lock bonus）存在的情况下，即使没有明确的胜负奖励，智能体也能学会强大的策略。

C. 监控失效

实验证明，在 v2 阶段，自我博弈胜率（Self-play WR）始终在 50% 附近波动，完全掩盖了泛化能力的崩溃。这强调了在竞争性自我博弈中，必须定期引入外部固定基准（如随机对手）进行评估。

4. 主要贡献

开源基准：发布了 Territory Paint Wars，一个基于 Unity-Python TCP 接口的轻量级竞争性 MARL 基准，无需 ML-Agents 依赖，便于复现。
系统性诊断：明确识别并修复了导致 PPO 在竞争性环境中表现不如随机策略的 5 种具体实现错误。
发现新失效模式：首次详细刻画了 竞争性过拟合（Competitive Overfitting） 现象，揭示了自我博弈胜率作为监控指标的局限性。
极简解决方案：提出了 对手混合（Opponent Mixing） 这一极简干预手段（单行代码），无需复杂的人口训练即可解决过拟合问题。
区分性归因：通过消融实验，区分了哪些修复是“生存必需”（GAE、归一化、多样性），哪些是“锦上添花”（终端奖励），为 MARL 调试提供了清晰的优先级指南。

5. 意义与启示

对实践者的警示：在竞争性 MARL 中，自我博弈胜率不是泛化能力的可靠指标。必须引入外部评估（External Evaluation）来检测过拟合。
算法选择的重要性：在长程竞争性游戏中，GAE 对于早期决策的信用分配至关重要，不能仅依赖蒙特卡洛回报。
训练稳定性：输入归一化不仅影响收敛速度，还隐式地起到了防止过拟合的正则化作用。
奖励设计：奖励的**尺度（Scale）**比符号（Sign）更容易被忽视，错误的尺度会导致梯度信号被完全淹没。
多样性的重要性：维持对手多样性（即使是简单的随机策略）是防止智能体陷入狭窄纳什均衡、保持泛化能力的关键。

总结：
这篇论文通过一个精心设计的“最小化”实验，揭示了竞争性多智能体强化学习中从基础实现错误到高级策略失效的完整链条。它不仅修复了 PPO 在该环境下的表现，更重要的是提供了一套诊断框架，帮助研究人员理解为什么简单的自我博弈往往无法产生鲁棒的智能体，并给出了低成本、高效率的解决方案。