Each language version is independently generated for its own context, not a direct translation.

这篇论文解决了一个在人工智能（AI）训练中的常见难题：为什么 AI 学了一段时间后，就会“卡”在一个水平上，再也无法进步了？

想象一下，你正在教一个机器人玩一个非常复杂的电子游戏。起初，它进步飞快，但很快，它的分数就停在了一个“及格线”上，无论怎么练，都达不到“满分”。这就叫学习停滞（Learning Stagnation）。

这篇论文的作者发现，对于目前最流行的训练算法之一（叫 PPO），这种停滞并不是因为机器人“太笨”或者“没探索够”，而是因为它的“学习节奏”乱了。

下面我用几个生活中的比喻来解释他们是怎么发现这个问题，以及怎么解决的。

1. 核心问题：步子迈得太大，摔得太惨

想象你在学骑自行车。

外循环（Outer Loop）： 是你骑出去试车的过程。你骑一段路，看看感觉怎么样。
内循环（Inner Loop）： 是你停下来，在脑子里复盘刚才骑得怎么样，然后调整姿势。

论文作者发现，PPO 算法在“试车”和“复盘”之间，存在一个**步长（Step Size）**的问题。

如果步长太大（比如你每次复盘都决定“我要立刻把车把转 90 度”），你的动作就会变得非常剧烈且不稳定。虽然你每次都在努力调整，但因为调整得太猛，你总是在原地打转，甚至摔跟头，永远学不会平稳骑行。
在数学上，这叫“在局部最优解附近震荡”。就像你在一个坑里跳来跳去，每次跳得都很高（梯度很大），但就是跳不出这个坑。

结论： 停滞不是因为没数据，而是因为每次更新策略时，改变得太激进了。

2. 解决方案：人多力量大，但得“细水长流”

既然步子迈大了会摔跤，那怎么办？通常有两个办法：

减小步长： 每次只改一点点（加强正则化）。
增加样本： 多收集一些数据，让每次复盘的依据更充分，这样你就不敢乱改，改得更稳。

作者发现，增加“平行环境”的数量（也就是同时让成千上万个机器人同时玩这个游戏）是解决这个问题的“银弹”。

比喻：从“单人单车”到“万人运动会”

以前的做法： 你只让2000个机器人同时玩。每次复盘，你只看了这 2000 个机器人的表现。因为样本少，噪音大（比如刚好有 10 个机器人摔倒了，你就以为大家都该摔），导致你做出的调整可能很偏激。
新的做法： 作者让100 万个机器人同时玩！
- 这就好比从“小范围试错”变成了“大规模人口普查”。
- 当样本量达到 100 万时，数据非常精准，噪音极小。
- 这时候，算法发现：“哦，原来大家其实都骑得很好，不需要大改。”于是，它自动变得更谨慎、更稳定。

神奇的效果： 只要把并行环境从几千个增加到100 万个，AI 就能打破那个“及格线”的天花板，一直进步，直到训练了一万亿次交互，性能还在稳步上升！

3. 关键发现：怎么“缩放”才是对的？

这里有一个巨大的陷阱。当你把机器人数量从 2000 增加到 100 万时，你不能简单地按比例放大所有设置，否则系统会崩溃。

作者发现了一个**“黄金食谱”**：

❌ 错误的做法： 机器人多了，我就把每次“复盘”的**批次大小（Minibatch Size）**也按比例放大，同时调整学习率。这就像让 100 万人一起听一个老师讲课，老师讲得太快，大家都听晕了，反而学得更差。
✅ 正确的做法（作者的食谱）：
1. 保持每次“复盘”的样本量不变（比如每次还是只分析 1 万个机器人的数据）。
2. 增加“复盘”的次数（因为总共有 100 万个机器人，所以我们要多分几次来复盘完这 100 万人）。
3. 保持学习率不变。

比喻：
想象你在批改作业。

旧方法： 以前你有 100 个学生，你一次批 100 本。现在你有 100 万个学生，你试图一次批 100 万本，结果手都断了，还批错了。
新方法： 不管学生有多少，你每次只批 100 本（保持批次大小不变）。但是，因为你学生多，你批的次数变多了。这样，你每次批改都很专注，而且总批改量巨大，教学质量自然稳步提升。

4. 实际效果：从“卡关”到“无限进化”

作者在两个领域验证了这个方法：

机器人走路： 在复杂的机器人控制任务中，原本训练到 100 亿步就停滞了，现在能稳定训练到更久，且性能更好。
Kinetix（开放世界游戏）： 这是一个没有固定目标、需要 AI 自己探索的游戏。以前的 AI 玩到一定程度就“摆烂”了。用了这个"100 万并行环境 + 正确缩放”的方法后，AI 的性能单调递增，一直玩到了一万亿步，表现远超之前的所有记录。

总结

这篇论文告诉我们一个深刻的道理：在训练超级 AI 时，“量”不仅仅是数量的堆砌，更改变了“质”的规律。

以前： 我们以为 AI 学不动是因为它笨，或者环境太难。
现在： 我们发现是因为我们太急躁（步长太大），或者数据太噪（样本太少）。
秘诀： 只要把并行环境（同时训练的数量）拉大到100 万级别，并且保持每次更新的小步幅不变（多跑几次，少改一点），AI 就能打破停滞，实现真正的“无限进化”。

这就好比，与其让一个人疯狂地练 100 年，不如让 100 万人每人练一年，并且每个人都在极其精准、稳定的指导下进行，最终整个群体能进化出惊人的能力。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：通过扩展到 100 万个并行环境防止 PPO 中的学习停滞

1. 研究背景与问题 (Problem)

在深度强化学习（RL），特别是广泛使用的近端策略优化（PPO）算法中，智能体（Agent）的性能经常会在达到理论最优回报之前陷入停滞（Plateaus），即性能长期停留在次优水平。

现有解释的局限性：以往研究常将停滞归因于探索不足（Exploration）、网络容量限制或优化困难（如塑性丧失/Primacy Bias）。然而，本文指出在密集奖励（Dense Reward）环境中，即使没有硬性的探索挑战，停滞依然会发生。
核心问题：随着并行化程度提高和计算预算增加（从数十亿到数万亿步），现有的 PPO 配置往往无法利用额外的经验，导致性能无法持续提升。

2. 核心方法论与理论模型 (Methodology)

2.1 将 PPO 重新建模为随机优化过程

作者提出了一种新的视角，将 PPO 的训练过程解耦为两个循环，并重点关注外层循环（Outer Loop）：

外层循环：当前策略在 $N$ 个并行环境中收集数据（Rollouts）。
内层循环：在收集到的离线数据集上进行多次小批量 SGD 更新（Minibatch SGD）。
类比：作者将外层循环的概念建模为标准的**随机优化（Stochastic Optimization）**问题。
- 步长（Step Size）：由策略相对于参考策略（Previous Policy）的更新幅度决定，受正则化强度（如 PPO 中的 $\epsilon$ 截断或 PPO-EWMA 中的中心质量 COM）控制。
- 噪声（Noise）：由采样批次与真实目标之间的差异决定，受收集的数据量（并行环境数量）影响。

2.2 停滞的成因分析

基于上述模型，论文指出 PPO 性能停滞的根本原因是：相对于更新噪声，外层步长过大。

当步长过大时，策略更新会在局部最优解附近剧烈震荡（Thrashing），导致损失函数无法下降，性能停滞。
这与随机梯度下降（SGD）中步长过大导致无法收敛的现象完全一致。

2.3 解决方案：扩展并行化与超参数调整策略

为了解决步长过大问题，理论上可以：

减小步长（增强正则化）。
减小噪声（增加每个更新步骤的数据量）。

核心发现：增加并行环境数量是同时实现上述两点的最简单且稳健的方法：

它增加了每个策略更新步骤的数据量（降低噪声）。
它增加了行为策略（Behavior Policy）的“年龄”（以环境交互步数计），从而间接降低了相对于参考策略的步长。

关键超参数调整策略（Recipe）：
当增加并行环境数量时，作者提出了一种保持内层优化动态不变的策略：

固定：学习率（Learning Rate）和小批量大小（Minibatch Size）。
增加：优化步数（Optimization Steps/Epochs 的总次数，即增加小批次的数量）。
对比：传统的做法是增加小批量大小并调整学习率（如平方根缩放规则），但这在 PPO 中往往导致训练不稳定或性能下降。

3. 关键贡献 (Key Contributions)

理论洞察：首次明确将 PPO 的停滞现象归因于“外层步长相对于更新噪声过大”，并将其与经典随机优化理论中的病理现象联系起来。
实证验证：
- 通过实验证明，在 PPO 中动态调整“外层步长”（通过改变 COM 或 $\epsilon$ ）可以诱导或恢复停滞，验证了模型的有效性。
- 证明了内层优化超参数（如学习率）无法补偿外层步长的不当设置。
提出扩展策略：
- 定义了数据 - 发散比（Data to Divergence Ratio, DDR），指出随着训练预算增加，需要提高 DDR 以避免过早停滞。
- 提出了在大规模并行化下保持 PPO 稳定的具体超参数调整方案（固定 Minibatch 和 LR，增加 Minibatch 数量）。
大规模实验验证：
- 在机器人控制任务（Isaac Gym）中，验证了该策略能显著缩小 PPO 与更复杂方法（SAPG）的差距，并提升 PPO 性能。
- 在开放世界物理环境 Kinetix 中，将 PPO 扩展到 100 万（1M） 个并行环境，实现了从 100 亿到 1 万亿（1 Trillion） 交互步数的单调性能提升，打破了之前的性能天花板。

4. 实验结果 (Results)

机器人控制（Isaac Gym）：
- 在 Allegro Hand 等任务中，将 Minibatch 大小从 Singla et al. (2024) 使用的 96k 改回默认的 16k（保持 LR 不变，增加 Minibatch 数量），PPO 性能显著提升，且与 SAPG 方法的差距缩小。
Kinetix 开放环境：
- 基线：标准配置（2048 并行环境）在约 100 亿步后性能停滞甚至下降。
- 扩展后：使用 1M 并行环境及推荐的超参数策略，智能体性能持续单调提升，直至 1 万亿步。
- 效率：在 128 个 GPU 上，成功实现了大规模并行训练，证明了该策略在计算资源充足时的可扩展性。
消融实验：
- 仅增加数据多样性（过滤更多环境）而不增加并行训练规模，无法防止停滞。
- 仅降低学习率虽能缓解停滞，但导致训练时间过长，不切实际。

5. 意义与影响 (Significance)

重新定义 RL 扩展性：挑战了“高并行化必然导致样本效率下降”的固有认知。论文表明，通过正确的超参数调整（特别是固定 Minibatch 大小），高并行化不仅能加速训练，还能通过降低噪声和步长来提升最终性能上限。
算法简化：无需设计复杂的新型算法（如 SFL 中的自动课程学习），仅通过调整现有成熟算法（PPO）的扩展策略，即可在开放环境中实现持续学习。
未来方向：为设计能够随计算资源增加而无限扩展的 RL 算法提供了理论基础和工程实践指南，特别是针对需要海量数据训练的开放世界（Open-ended）任务。

总结：该论文通过理论建模和大规模实验证明，PPO 的学习停滞是由于外层步长过大引起的。通过简单地增加并行环境数量，并配合“固定 Minibatch 大小、增加优化步数”的超参数策略，可以显著消除停滞，使 PPO 在万亿级交互规模下仍能保持单调性能提升。

Preventing Learning Stagnation in PPO by Scaling to 1 Million Parallel Environments