Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI（言語モデル）が賢くなるためのトレーニング方法」**について、非常に重要な新しい発見と改善策を提案したものです。

タイトルにある「エントロピー（Entropy）」とは、専門用語では「不確実性」や「多様性」を指しますが、ここでは**「AI の思考の幅」や「アイデアの多さ」**と考えるとわかりやすいです。

以下に、専門用語を避け、日常の比喩を使ってこの論文の核心を解説します。

🎯 核心となる問題：「AI が早すぎる決断をして、アイデアを失う」

AI をトレーニングする際、従来の方法（PPO や GRPO など）には大きな欠点がありました。それは**「AI がすぐに正解だと思い込み、他の可能性をすべて捨ててしまう」**という現象です。

🍕 比喩：ピザ屋さんのトレーニング

AI を「新しいピザのレシピを開発するピザ屋さん」だと想像してください。

最初の状態（探索）： 最初は「チーズだけ」「トマトだけ」「海苔とチーズ」など、ありとあらゆる組み合わせを試します。これが**「エントロピー（多様性）」が高い状態**です。
従来のトレーニング（エントロピー崩壊）： 先生（アルゴリズム）が「チーズとトマトの組み合わせが一番美味しい！」と褒めると、AI は**「もう他の組み合わせは全部無駄だ！」**と判断します。そして、すぐに「チーズとトマト」だけを作るようになります。
- 結果： 最初は「チーズとトマト」が成功しますが、もし「チーズと海苔」が実はもっと美味しい（あるいは新しい環境で必要）だったとしても、AI はもうそれを試そうとしません。「正解」に固執しすぎて、創造性が失われてしまいます。

この論文は、**「AI が学習する過程で、この『アイデアの多様性』を意図的に守り続けることが、最終的に最強の AI になる鍵だ」**と説いています。

🔍 なぜそうなってしまうのか？（2 つの要因）

論文では、AI がなぜ早々とアイデアを失ってしまうのか、2 つの理由を突き止めました。

1. 理論的な理由：「正解」への過剰な集中

AI は「正解」を見つけると、その確率を極端に上げようとします。これにより、他の「正解かもしれないが確率が低い」選択肢が排除されてしまいます。

比喩： 道案内で「一番近い道は A だ」と言われると、B や C の道はもう見向きもしなくなります。でも、もし A が工事中だったら？B が実は近道だったかもしれません。AI は A だけを見て、B を探さなくなってしまうのです。

2. 技術的な理由：「計算の精度」の問題（これが意外な発見！）

実は、AI の学習に使われる計算機の「数字の扱い方（数値精度）」が、この問題を悪化させていました。

比喩： 料理の味付けをする際、**「大さじ 1 杯」と「大さじ 1 杯と少し」**の区別が、計算機の精度が低いと「どちらも大さじ 1 杯」として扱われてしまいます。
- この論文では、**「BF16（低い精度）」**という計算方法を使うと、AI が「低い確率の選択肢」を「ゼロ」と誤って判断しやすくなり、結果としてアイデアを失うことがわかりました。
- 解決策： **「FP16（少し高い精度）」という計算方法に変えるだけで、AI は「少しの差」も感じ取り、多様なアイデアを維持できるようになりました。これは、「計算機のスイッチを一つ変えるだけで、AI の性格が変わる」**という驚くべき発見です。

💡 彼らが提案した解決策：2 つの新しい「魔法の道具」

この問題を解決するために、著者たちは 2 つの新しい方法を提案しました。

1. REPO（レポ）：「アイデアのバランス調整器」

AI が「正解だ！」と過剰に喜んだり、「間違いだ！」と過剰に悲しんだりしないように、**「あえて少しの不安定さ（多様性）」**を人工的に加える方法です。

比喩： AI が「チーズとトマト」に固執しすぎている時、**「でも、海苔も捨てたもんじゃないよ？」**と、あえてその選択肢の価値を少しだけ引き上げてあげます。これにより、AI は「チーズと海苔」も試すようになります。
特徴： 計算コストをかけずに、AI の「好奇心」を保ちます。

2. ADAPO（アダポ）：「柔軟なルール変更器」

AI が「正解」に近づきすぎた時、ルールを緩めて「もっと試して！」と促し、逆に「迷いすぎている」時はルールを厳しくする**「自動調整機能」**です。

比喩： 運転手（AI）がスピードを出しすぎたら（多様性が低すぎる）ブレーキを踏むのではなく、**「もっと曲がり角を探して！」**とナビゲーターが指示を変えます。逆に、迷いすぎたら「まっすぐ行け」と指示を厳しくします。
特徴： 状況に合わせて AI の「探索欲」をリアルタイムで調整します。

🏆 結果：どんな良いことがあった？

これらの方法を使うと、以下のような素晴らしい結果が得られました。

より賢い AI： 単一の正解だけでなく、多様な解決策を見つけられるようになり、テストの点数が大幅に上がりました。
新しい環境にも強い： 一度学習した AI を、全く新しい課題（例：数学からプログラミングへ）に挑戦させる際、「過去の学習で固まった思考」に囚われず、新しいことを素早く学べるようになりました。
- 比喩： 従来の AI は「日本料理の職人」になると、寿司しか作れなくなります。でも、この新しい方法で育てた AI は、「寿司も、パスタも、新しい料理も作れる」柔軟なシェフになります。
記録更新： 特定のテスト（AppWorld というアプリ操作の課題）では、従来の最高記録を大きく更新するスコアを達成しました。

📝 まとめ

この論文が伝えたいことはシンプルです。

「AI を賢くするには、正解に早くたどり着くことよりも、『正解を探す過程で、どれだけ多くの可能性を失わずに探索し続けるか』が重要だ」

AI の学習において、**「多様性（エントロピー）」という見えない指標を常に監視し、守り続けることが、真に創造的で賢い AI を作るための秘訣なのです。また、「計算機の精度を少し変えるだけで、AI の能力が劇的に変わる」**という、意外な技術的な発見も含まれています。

これは、AI のトレーニングを「正解を暗記させる勉強」から「創造性を育む探検」へと変えるための重要な一歩と言えます。

Each language version is independently generated for its own context, not a direct translation.

エントロピー保存強化学習（Entropy-Preserving Reinforcement Learning）の技術的概要

本論文は、言語モデルの推論能力を向上させるための強化学習（RL）における「エントロピーの崩壊（Entropy Collapse）」という深刻な課題を指摘し、これを解決するための理論的・実装的アプローチを提案したものです。ICLR 2026 に採択されたこの研究は、Apple と MIT の共同チームによって行われました。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細をまとめます。

1. 問題定義：エントロピー崩壊と探索の欠如

近年、言語モデルの推論能力向上にはオンライン方策勾配法（Policy Gradient）が標準的に用いられています（例：GRPO, PPO など）。しかし、これらのアルゴリズムには以下の重大な欠陥が観察されています。

エントロピーの崩壊: 学習プロセスにおいて、方策がすでに高確率で得られる解の周りに分布を急激に集中させ、他の正しいが確率の低い解を無視してしまう現象です。
探索能力の低下: エントロピー（不確実性）が低下すると、モデルは多様な解を探索する能力を失い、局所最適解に早期に収束してしまいます。
パフォーマンスのトレードオフ: 単一の正解率（pass@1）は向上する傾向がありますが、多様な解を生成する能力（pass@k）や、新しい環境への適応能力（連続学習）が著しく低下します。
実装上の要因: 理論的にはエントロピーを保存するはずのアルゴリズム（DAPO や GSPO など）であっても、数値精度（BF16 vs FP16）やフレームワークの挙動（FSDP2 の出力キャスト）などの実装詳細により、意図せずエントロピーが崩壊することがあります。

2. 手法と提案アルゴリズム

著者らは、エントロピーを能動的に監視・制御する必要性を主張し、理論分析に基づいた 2 つの主要なアプローチを提案しました。

A. 理論的洞察

エントロピー変化のメカニズム: 方策勾配更新におけるエントロピーの変化は、「行動の対数確率」と「その行動が得るアドバンテージ（優位性）」の相関によって支配されます。正のアドバンテージが高確率な行動に与えられると分布が鋭くなり、エントロピーが減少します。
クリッピングの役割: PPO のクリッピングはエントロピー変化を一定範囲に制限しますが、非対称クリッピング（DAPO）やシーケンスレベルのクリッピング（GSPO）は、エントロピーの減少を抑制し、増加を許容することで、結果としてエントロピーを保存する効果があります。

B. 提案アルゴリズム

エントロピーを明示的に制御するための 2 つの手法を提案しています。

REPO (Regulated Entropy Policy Optimization):
- 仕組み: 方策の対数尤度項をアドバンテージ関数に追加し、修正されたアドバンテージ $A_{REPO} = A - \beta \cdot L$ を使用します。
- 効果: $\beta > 0$ とすることで、低確率な行動の重みを増やし、エントロピーの減少を相殺します。
- 実装: 完全なログイットを計算する必要なく、サンプリングされたトークンの対数確率のみで推定可能（Cut Cross-Entropy と併用）なため、メモリ効率が高いです。
- 制御: 適応的なコントローラーを用いて、学習中のエントロピー水準に基づいて $\beta$ （または $\zeta$ ）を動的に調整します。
ADAPO (Adaptive DAPO):
- 仕組み: DAPO の非対称クリッピング閾値（ $\epsilon_{low}, \epsilon_{high}$ ）を動的に調整します。
- 効果: 観測されたエントロピーが初期値より低下した場合、 $\epsilon_{high}$ を増加させてエントロピーの増加を許容し、逆に上昇しすぎた場合は抑制します。これにより、エントロピーを目標値の周りに維持します。

C. 数値的精度の重要性（重要な発見）

BF16 の問題: 多くの LLM 学習スタック（FSDP2 など）では、モデル出力が BF16 にキャストされます。これにより、重要度重み（importance weight）の計算に乗法的な上方向のバイアスが生じ、結果として「エントロピー減少を促進する非対称クリッピング」が意図せず発生します。
解決策: 数値計算に FP16 を使用し、ログ確率の計算において BF16 による丸め誤差を回避する「クリッピング修正」を行うことで、DAPO などのアルゴリズムが本来持つエントロピー保存特性が正しく機能することが実証されました。

3. 主要な貢献

エントロピー動態の理論的分析: 方策勾配アルゴリズムがエントロピーに与える影響を数学的に定式化し、PPO、DAPO、GSPO の振る舞いを統一的に説明しました。
実装上の要因の特定: 数値精度（BF16 vs FP16）やフレームワークの出力キャストがエントロピー動態に決定的な影響を与えることを発見し、これを修正する具体的なガイドラインを提供しました。
新しいアルゴリズムの提案: REPO と ADAPO を提案し、これらがエントロピーを明示的に制御し、探索能力を維持することを示しました。
SOTA 性能の達成: 修正された数値設定とエントロピー保存手法を組み合わせることで、AppWorld ベンチマークにおいて当時の最高性能（Test Normal 79%, Test Challenge 71%）を達成しました。

4. 実験結果

ベンチマーク: AppWorld（インタラクティブなツール使用エージェント）と AIME（数学的推論）で評価を行いました。モデルは Qwen-3-8B と Qwen-3-32B を使用。
エントロピーと性能の相関: 学習全体を通じてエントロピーを維持するアルゴリズム（REPO, ADAPO）は、エントロピーが早期に崩壊するアルゴリズム（GRPO など）よりも高いテスト精度を示しました。
連続学習（Sequential Learning）: 一度学習したモデルを別のタスクでさらに学習させる際、エントロピーが崩壊したモデルは探索能力を失い性能が低下しますが、エントロピーを維持したモデルは高い適応性を保ちました。
数値精度の影響: FP16 学習とクリッピング修正を適用した DAPO は、BF16 環境ではエントロピー崩壊を起こしていたものが、急激なエントロピー増加と安定した学習を示すようになりました。
RLOO の復権: 数値的な修正を行うことで、厳密なオンポリシー法である RLOO が、オフポリシー法（GRPO, DAPO）を上回る性能を発揮し、AppWorld で SOTA を更新しました。

5. 意義と結論

本論文は、強化学習における「探索（Exploration）」の重要性を再確認し、それを定量的に制御する枠組みを提供しました。

理論的意義: エントロピー動態がアルゴリズムの性能と探索能力を決定づける主要因であることを示し、単なる報酬最大化だけでなく、エントロピーの管理が RL 学習パイプラインの第一級の関心事であるべきだと主張しました。
実用的意義: 数値精度やフレームワーク設定といった「地味な」実装詳細が、アルゴリズムの振る舞いを根本的に変える可能性を明らかにしました。これは、大規模言語モデルの RL 学習を安定させ、再現性を高める上で極めて重要です。
将来への展望: 提案されたエントロピー制御手法（REPO, ADAPO）は、非同期学習（スループット重視）と厳密なオンポリシー学習（性能重視）の両方のパラダイムに適用可能であり、より創造的で多様な推論能力を持つ言語モデルの開発に寄与すると期待されます。

要約すれば、この論文は「エントロピーを保存することが、言語モデルの推論能力を最大化し、継続的な学習を可能にする鍵である」という洞察に基づき、理論、実装、アルゴリズムの 3 側面から包括的な解決策を提示した画期的な研究です。

Entropy-Preserving Reinforcement Learning