Preventing Learning Stagnation in PPO by Scaling to 1 Million Parallel Environments

Each language version is independently generated for its own context, not a direct translation.

🏃‍♂️ 問題：AI が「壁」にぶつかる理由

AI がゲームやロボット制御を学ぶ際、ある時点から成績が全く上がらなくなる「 plateau（高原）」という現象が起きることがあります。
これまでの研究では、「AI が探索不足だ」「脳（ニューラルネットワーク）が疲弊している」などが原因だと思われていました。

しかし、この論文の著者たちは**「違う！原因は『走り方』にある」**と気づきました。

🚗 例え話：暴走するレーシングカー

AI の学習プロセスを「レーシングカーがカーブを曲がりながらゴールを目指す」ことに例えてみましょう。

PPO（学習アルゴリズム）: カーブを曲がるための「ハンドル操作」。
外ループ（Outer Loop）: 実際の走行データを集めて、次どう舵を切るか決める「ドライバーの判断」。
内ループ（Inner Loop）: その判断に基づいて、エンジン（ニューラルネットワーク）を調整する「メカニックの作業」。

ここでの問題点：
ドライバー（AI）が**「次のカーブを曲がるために、ハンドルを切りすぎる」とどうなるでしょう？
車はカーブの中心を大きく外れ、反対側の壁に激突します。そして、また急いで戻そうとして、今度は反対側に飛び出し、また壁に激突する……これを「壁に激突して戻す」を繰り返す「振動」**状態になります。

これが AI の「学習停滞」です。

原因: ハンドル（学習ステップ）の切り方が強すぎる。
結果: 車はゴールに近づこうとしていますが、実際には同じ場所をグルグル回り、全く進んでいません。

💡 解決策：100 万台の車を同時に走らせる

では、どうすればこの「振動」を止め、スムーズにゴールまで進めるのでしょうか？

著者たちは、**「1 台の車を慎重に運転する」のではなく、「100 万台の車を同時に走らせて、その平均を取って運転する」**という発想に変えました。

🚌 例え話：大規模バス団

従来の方法（少人数）: 1 台のバスが走ります。路面の凸凹（ノイズ）がそのままバスに伝わり、運転手は慌ててハンドルを大きく切ります（振動）。
新しい方法（100 万台）: 100 万台のバスが同時に走ります。
- 一台一台の路面の凸凹は、100 万台の平均をとればほぼゼロになります（ノイズが相殺される）。
- 運転手は「路面は平らだ」と冷静に判断でき、ハンドルを優しく、少しずつ切ることができます。

この「100 万台の並列実行」が、AI の学習を劇的に安定させ、停滞を解消したのです。

🛠️ 重要な発見：「レシピ」の書き換え

ただ単に「並列数を増やせばいい」というわけではありません。ここが論文の核心部分です。

増やした並列数に合わせて、他の設定（ハイパーパラメータ）をどう変えるかが重要です。

🍳 料理の例え

間違ったレシピ: 材料（データ）を 100 倍にしたのに、「火加減（学習率）」も 100 倍にしてしまった。
- → 鍋が焦げて、料理は台無しになります（学習が不安定になる）。
正しいレシピ（この論文の提案）: 材料を 100 倍にしても、「火加減は変えず」、「調理回数（最適化ステップの数）」だけ増やす。
- → 材料が豊富なので、ゆっくり丁寧に何度も炒めれば、より美味しく（高性能に）なります。

著者たちは、**「並列環境を増やしたら、学習率やバッチサイズは変えず、処理する回数を増やせばいい」**というシンプルなルールを見つけ出しました。

🚀 結果：1 兆回以上の学習で記録更新

この方法を実際にテストした結果：

ロボット学習: 複雑なロボット操作タスクで、従来の方法では 100 億回で止まっていた性能が、1 兆回の学習まで一貫して向上し続けました。
Kinetix（オープンエンドな物理シミュレーション）: 従来の AI は 100 億回で「もうダメだ」と諦めていましたが、この方法を使えば、1 兆回の学習を経て、さらに高いレベルの性能を達成できました。

まるで、**「止まっていた時計が、100 万個の歯車（並列環境）を追加することで、再び正確に、そして無限に動き出した」**ようなものです。

📝 まとめ

この論文が伝えたかったことはシンプルです。

「AI が学習で止まってしまうのは、AI の能力不足ではなく、**『一度に受け取る情報が多すぎて、慌てて動きすぎているから』**だ。

だから、**『100 万台の環境で情報を集めて、慌てず騒がず、ゆっくり丁寧に学習させる』**という方法にすれば、AI は止まらずに、どこまでも成長し続けることができる。」

これは、AI 開発の未来において、「もっと大きな計算資源（GPU）を使えば、もっと賢い AI が作れる」という可能性を、具体的な「レシピ」を持って示した画期的な成果と言えます。

Each language version is independently generated for its own context, not a direct translation.

1. 問題定義：PPO における学習停滞のメカニズム

深層強化学習、特にオンポリシー法である PPO において、エージェントの性能が理論上の最適値に達する前に、サブオプティマルなレベルで停滞する「プラトー（Plateau）」現象は一般的です。既存の研究では、この原因を「探索不足」「ネットワークの容量不足」「最適化の難しさ（塑性の喪失など）」に求めてきました。

しかし、本論文は異なる視点からこの問題を捉えました。

核心仮説: PPO の学習停滞は、既知の探索や最適化の問題ではなく、**「サンプリングに基づく損失関数の推定値が、訓練の進行に伴い真の目的関数（True Objective）の代理として機能しなくなる」**ことに起因する。
モデル化: 著者は PPO の学習プロセスを「外ループ（Outer Loop）」と「内ループ（Inner Loop）」に分解し、特に外ループを標準的な「確率的最適化（Stochastic Optimization）」としてモデル化しました。
- 外ループ: 現在のポリシーで並列環境からデータを収集し、ポリシーを更新するステップ。
- 内ループ: 収集したデータに対してミニバッチ SGD（Adam 最適化など）を繰り返すステップ。
停滞のメカニズム: 確率的最適化の理論において、「更新ステップサイズ（Step Size）」が「更新ノイズ（Gradient Noise）」に対して大きすぎると、最適解の周りで振動し（Thrashing）、損失が減少しなくなることが知られています。PPO においても、外ループのステップサイズ（ポリシーの更新幅）が、収集したデータに基づく推定ノイズに対して相対的に大きすぎる場合、学習が停滞すると結論付けました。

2. 手法と分析

著者は、この「ステップサイズとノイズのバランス」という観点から、PPO のハイパーパラメータと並列化の関係を分析しました。

2.1 外ループのステップサイズとノイズの制御因子

PPO において、外ループのステップサイズとノイズを決定する主要な因子は以下の通りです。

正則化の強さ: 直前のポリシーからの KL 発散を制限するパラメータ（PPO のクリッピング閾値 $\epsilon$ や、PPO-EWMA における参照ポリシーの「重心（Center of Mass, COM）」。COM が小さい＝参照ポリシーが新しい＝正則化が弱い＝ステップサイズが大きい）。
バッチサイズ（並列環境数）: 1 回の更新ステップで収集する遷移（Transitions）の数。バッチサイズが大きいほど、勾配推定のノイズ（Update Noise）は減少します。
最適化エポック数: 1 バッチのデータに対して内ループで何回最適化を行うか。

2.2 データと発散の比率（DDR: Data to Divergence Ratio）

著者は、**「ポリシーからの KL 発散単位あたりのデータ点数」**という指標（DDR）を提案しました。

低 DDR: データが少なく、発散が大きい（正則化が弱い）。→ 更新ノイズが相対的に大きく、ステップサイズが大きすぎるため、早期にプラトーに陥る。
高 DDR: データが多く、発散が小さい（正則化が強い）。→ 学習が安定するが、進歩が遅い。
結論: 計算予算（総インタラクション数）が増えるにつれて、最適な DDR 値は増加する傾向がある。つまり、より多くのデータを集めるためには、正則化を強化するか、バッチサイズを増やす必要がある。

2.3 並列化スケーリングのレシピ

並列環境数（ $N_{env}$ ）を増加させた際、他のハイパーパラメータをどのように調整すべきかが課題でした。著者は以下の「安定性優先のレシピ」を提案しました。

推奨アプローチ: 並列環境数が増加しても、ミニバッチサイズ（Minibatch Size）と学習率（Learning Rate）を固定し、最適化ステップ数（ミニバッチの数）のみを増やす。
- これにより、内ループの最適化ダイナミクス（学習率やバッチサイズによる勾配の性質）を変えず、外ループのステップサイズとノイズのみを適切に調整できる。
非推奨アプローチ: ミニバッチサイズを並列環境数に比例して増やし、学習率をスケーリングする（例： $\sqrt{B}$ $B$ ルール）。
- 一部の環境では有効だが、PPO においては不安定化を招き、性能の低下やプラトーの早期化を招くことが実験で示された。

3. 主要な貢献

PPO 停滞の新たな解釈: PPO の学習停滞を「確率的最適化におけるステップサイズとノイズのミスマッチ」として定式化し、従来の「探索不足」や「ネットワーク容量」とは異なる解決策を示した。
並列化スケーリングの定式化: 並列環境数を増やすことが、外ループのステップサイズを小さくし、ノイズを減らす効果的な手段であることを示した。
実用的なスケーリングレシピ: 並列環境数を増やす際、**「ミニバッチサイズと学習率を固定し、ミニバッチ数（エポック数）を増やす」**という単純かつ堅牢な戦略を提案し、その有効性を検証した。
大規模スケーリングの実証: 複雑なオープンエンドな環境「Kinetix」において、PPO を100 万（1M）以上の並列環境にスケーリングすることに成功し、従来のプラトー（100 億インタラクション程度）を突破し、1 兆（1 Trillion）インタラクションまで単調な性能向上を実現した。

4. 実験結果

ロボティクスタスク（Isaac Gym）:
- 既存の手法（Singla et al., 2024）は、並列環境数増加に伴いミニバッチサイズを大きくし学習率を調整していたが、著者のレシピ（ミニバッチサイズ固定）に変更するだけで、PPO の性能が大幅に向上し、SAPG（新しい手法）との差も縮まった。
- 固定されたミニバッチサイズの方が、より多くの並列環境に対して安定して学習できた。
オープンエンド学習（Kinetix）:
- 従来の設定（2,048 並列環境）では、100 億インタラクション程度で性能が頭打ちになり、さらに学習を続けると性能が低下する現象が確認された。
- 著者のスケーリングレシピを用い、100 万並列環境までスケールさせた結果、性能は 1 兆インタラクションまで単調に向上し続けた。
- 特にタスクの多様性が高い「Large」設定において、この効果は顕著であった。

5. 意義と将来展望

計算資源の効率的活用: 近年、GPU 並列化により RL 環境での数十億〜兆単位のインタラクションが可能になっているが、アルゴリズムがプラトーに陥っていればこれらの計算資源は無駄になる。本論文の知見は、大規模な計算リソースを有効活用するための指針を提供する。
アルゴリズムの改良なしでの改善: 複雑な新しいアルゴリズムを開発するのではなく、既存の PPO のハイパーパラメータ設定（特に並列化とバッチ処理のバランス）を見直すことで、劇的な性能向上が得られることを示した。
将来の研究方向:
- 本研究は密な報酬（Dense Reward）環境での最適化に焦点を当てているため、スパース報酬や探索が困難なタスクへの適用が次の課題となる。
- 学習の停滞を防ぐための適応的ステップサイズ手法の開発も有望である。

結論

本論文は、PPO における学習停滞が「外ループのステップサイズと更新ノイズのバランスの崩れ」に起因することを示し、並列環境数の増加を適切に制御することで、このバランスを最適化できることを実証しました。特に、「ミニバッチサイズを固定し、並列環境数に応じたミニバッチ数を増やす」というシンプルなレシピは、PPO を 100 万並列環境、1 兆インタラクション規模まで安定して拡張することを可能にし、大規模強化学習の実用化に向けた重要なマイルストーンとなりました。