Each language version is independently generated for its own context, not a direct translation.

この論文は、人工知能（AI）の「学習」におけるある大きな矛盾を解決するための、画期的な新しいアプローチを提案しています。

タイトルを直訳すると**「発散（ダイバージェンス）の選び方：強化学習における『多様性の崩壊』を防ぐ、見落とされていた鍵」**となります。

これを日常の言葉と面白い例え話を使って解説しますね。

🎭 物語の舞台：天才的な「模写」の罠

まず、この論文が扱っている問題状況を想像してください。

AI（大規模言語モデル）に、数学の問題や SQL（データベースの言語）を解くように教えるとき、私たちは「強化学習（RL）」という方法を使います。これは、AI が正解したらご褒美（報酬）を与え、間違ったら罰を与える、いわば**「しつけ」**のようなものです。

📉 問題点：「正解」に固執しすぎる AI

これまでの一般的なしつけ方（Reverse-KL divergence という技術）では、AI は**「一番確実な正解」**だけを極端に好きになるように訓練されてしまいました。

結果： 1 回で正解する確率（Pass@1）は上がります。
しかし： 10 回試して「どれか 1 つでも正解」する確率（Pass@k）は下がってしまいます。

🍕 例え話：ピザ屋さんの悲劇

これをピザ屋さんに例えてみましょう。

元の AI（ベースモデル）：
最初は「ペパロニ」「マルゲリータ」「チーズ」「野菜」など、様々な種類のピザを美味しく作れる天才シェフでした。
従来のしつけ（Reverse-KL）：
店長が「一番売れるのはペパロニだ！他のピザは作らないで！」と厳しく指導しました。
- 結果： シェフはペパロニを完璧に作れるようになりました（Pass@1 向上）。
- 悲劇： しかし、マルゲリータや野菜ピザの作り方を完全に忘れてしまいました（多様性の崩壊）。
- さらに悪いこと： 店長が「ペパロニ以外作っていいよ」と言っても、シェフはもう「ペパロニしか作れない」という状態に陥り、新しい客の要望（未知の問題）に応えられなくなります（忘却）。

💡 解決策：新しい「しつけ」の哲学

この論文の著者たちは、「AI が多様な答えを出せるようにするには、『ご褒美の与え方』ではなく、『罰（制約）の与え方』を変えるべきだ」と気づきました。

彼らが提案したのが、**「DPH-RL（多様性保持ハイブリッド RL）」**という新しい方法です。

🔄 2 つのエリアに分けた学習

この方法は、AI に教える問題を「2 つのエリア」に分けます。

🌟 得意なエリア（Dpef）：
AI がすでに正解を知っている問題。
- 新しいしつけ： ここでは「忘れないように」と厳しく指導します。AI に「元の多様な答え方を思い出して、それを維持しなさい」と言います。
- 例え： 「ペパロニ以外のピザの作り方も、ちゃんと覚えておきなさい！」と、元のレシピ帳（初期の知識）を常に参照させます。
🚀 挑戦するエリア（Dexp）：
AI がまだ正解を知らない難しい問題。
- 新しいしつけ： ここでは「自由に試行錯誤して」と許可します。
- 例え： 「新しいメニュー開発は、自由にやってみて！失敗してもいいから、いろんな味を試して！」と、制限をなくします。

🔑 キーワード：「多様性をカバーする罰」

従来の方法（Reverse-KL）は「AI が元のシェフと違うことをしたら罰する」という**「狭い道へ誘導する」罰でした。
しかし、この新しい方法（Forward-KL や JS 発散）は、「AI が元のシェフの『多様なレシピ』をカバーしていない時に罰する」という「広い道を守る」**罰です。

効果： AI は「ペパロニ」だけでなく、「マルゲリータ」や「野菜」も作れる状態を維持したまま、新しい「ピザ」も開発できるようになります。

🏆 実験結果：何が起きたか？

彼らはこの方法を、数学や SQL の問題でテストしました。

従来の AI（GRPO など）：
得意な問題では正解率が上がりましたが、「知らない問題」や「少し違う問題」になると、急にできなくなりました（忘却）。また、10 回試しても正解する確率は下がりました。
新しい AI（DPH-RL）：
- 得意な問題： 従来の AI と同じくらい、あるいはそれ以上に正解しました。
- 未知の問題： 従来の AI が「忘れた」問題でも、高い正解率を維持しました。
- 多様性： 10 回試して「どれか 1 つ」正解する確率（Pass@k）が、劇的に向上しました。

まるで、**「ペパロニも完璧に作れるし、新しいメニューも次々と生み出し、昔のレシピも忘れずに持っている」**という、究極の天才シェフが誕生したような結果です。

🚀 まとめ：なぜこれが重要なのか？

この論文が示したのは、**「AI を賢くする時、正解に近づけることだけを考えず、『多様な答えを忘れないように守る』という視点を持つことが重要だ」**ということです。

従来の考え方： 「正解に近づけろ！他のことは気にするな！」
この論文の考え方： 「正解に近づけつつ、『元々持っていた多様な能力』をリハーサル（復習）し続けろ！」

この「リハーサル」の仕組みを、数学的な「発散（Divergence）」という概念を使って巧妙に実装したのが、この研究の最大の功績です。

一言で言えば：

「AI に『正解』だけを追い求めさせず、『多様な可能性』を忘れないように守る新しいしつけ方を発見した！」

これにより、AI はより柔軟で、どんな状況でも頼れる「賢いパートナー」になれるはずです。

Each language version is independently generated for its own context, not a direct translation.

論文「THE CHOICE OF DIVERGENCE: A NEGLECTED KEY TO MITIGATING DIVERSITY COLLAPSE IN REINFORCEMENT LEARNING WITH VERIFIABLE REWARD」の技術的サマリー

この論文は、検証可能な報酬を用いた強化学習（RLVR）において、大規模言語モデル（LLM）のファインチューニング時に発生する「多様性の崩壊（Diversity Collapse）」と「破滅的忘却（Catastrophic Forgetting）」の問題を解決するための新たなアプローチを提案しています。

1. 背景と問題提起

近年、数学やコーディングなどのタスクにおいて、LLM の推論能力を向上させるために RLVR が広く採用されています。しかし、RLVR による調整には以下の深刻なパラドックスが存在します。

Pass@1 の向上と Pass@k の低下: 単一の試行で正解する確率（Pass@1）は向上するものの、複数の試行を許容した際の正解率（Pass@k）は、ベースモデルに比べて停滞したり、逆に劣化したりします。
多様性の喪失: モデルが特定の正解パスに過剰に適合（Overfitting）し、他の有効な解法を生成する能力を失います。
破滅的忘却: 学習中に以前習得したスキルや、学習データ分布から外れたタスク（Out-of-Domain）に対する汎化性能が著しく低下します。

既存の手法では、エントロピー制御やハイパーパラメータの調整などが試みられてきましたが、KL 発散（Kullback-Leibler Divergence）の選択という根本的な要素が軽視されていました。特に、コミュニティでは標準的にReverse-KL 発散（ $D_{KL}(\pi_\theta || \pi_{ref})$ ）が使用されていますが、これは「モード探索（Mode-seeking）」の性質を持ち、確率分布のピーク（最も確からしい解）に収束させるため、結果として多様性を圧縮し、上記の問題を悪化させていると論文は主張しています。

2. 提案手法：DPH-RL (Diversity-Preserving Hybrid RL)

著者は、発散項を単なる制約ではなく、「多様性を維持するための能動的なメカニズム」として再定義し、DPH-RLフレームワークを提案しました。

2.1 核心的なアイデア

Mass-Covering 発散の採用: Reverse-KL の代わりに、分布全体をカバーする性質を持つForward-KL（ $D_{KL}(\pi_{ref} || \pi_\theta)$ $D_{K L} (π_{r e f} ∣∣ π_{θ})$ ）やJensen-Shannon (JS) 発散を使用します。
- Forward-KL の効果: 参照分布（初期モデル）が高確率で生成する解を、新しいモデルが見逃した場合に大きなペナルティを与えます。これにより、モデルは参照モデルが持っていた多様な解のセット（モード）をすべてカバーするように強制され、知識の再演習（Rehearsal）が行われます。
データ分割戦略: 学習データを以下の 2 つのサブセットに分割します。
1. $D_{pef}$ (Near-Perfect): 参照モデルですでに高い成功率を持つ問題。ここでは発散項（Forward-KL や JS）を損失関数に追加し、既存の能力を維持・再演習させます。
2. $D_{exp}$ (Exploration): 参照モデルが苦手とする問題。ここでは発散項を除去し、報酬信号のみに基づいて貪欲に探索させます。

2.2 実装の効率性

Generator 実装: 従来のオンライン RL では、KL 項の計算のために参照モデル（ $\pi_{ref}$ ）を推論させる必要があり、計算コストが高かったです。DPH-RL は、事前サンプリング（Pre-sampling）により参照モデルからのサンプルを静的なデータセットとして保持し、学習ループ内で参照モデルを呼び出さない「Generator 関数」ベースの発散計算を採用しています。これにより、参照モデルを不要とし、GRPO と同等のトレーニング効率を実現しています。

3. 理論的保証

TRPO（Trust Region Policy Optimization）の単調性向上保証を拡張し、提案手法がより強力な性能向上の下限を保証することを示しました。

参照モデルが正解する領域（ $D_{pef}$ ）では、発散正則化項が「専門家としての行動」を促進し、理論的な下限にプラスのボーナス項（ $\epsilon_f$ ）が加算されます。
これにより、既知の正解を維持しつつ、未知の領域での探索を可能にする、より効率的な収束が保証されます。

4. 実験結果

数学推論（AIME, MATH 等）と SQL 生成（Bird, Spider）のタスクにおいて、Llama-3.1-8B と Qwen2.5-Math-7B などのモデルで評価を行いました。

Pass@1 と Pass@k の同時改善:
- 既存の GRPO や DAPO は、Pass@1 は向上するものの Pass@k が低下する傾向が見られました。
- 対照的に、DPH-F（Forward-KL）や DPH-JS（JS 発散）は、Pass@1 と Pass@k の両方をベースモデルより向上させました。
- 例：Bird データセット（SQL）において、DPH-JS は GRPO より Pass@8 で 4.3% 高いスコアを達成しました。
Out-of-Domain (OOD) 性能の維持:
- SQL で学習したモデルを数学タスクで評価した際、GRPO や DAPO は性能が大幅に低下しましたが、DPH-RL はベースモデルに近い性能を維持しました。これは「破滅的忘却」が抑制されていることを示しています。
スタイル多様性の保持:
- 可視化実験（Figure 4）により、Reverse-KL を使用するとモデルの出力スタイルが単一化（94% が 1 つのスタイル）するのに対し、Forward-KL を使用すると多様なスタイルが維持されることが確認されました。
32B モデルでの有効性:
- OmniSQL-32B などの大規模モデルにおいても同様の効果が確認され、Greedy 推論の精度が既存のオープンソースモデルを上回る結果となりました。

5. 結論と意義

この研究は、RLVR における「発散（Divergence）の選択」が、モデルの多様性と汎化性能を決定づける重要な鍵であることを示しました。

パラダイムシフト: KL 発散を単なる「制約」としてではなく、「多様性を維持するための再演習メカニズム」として再定義しました。
実用的な貢献: 追加の参照モデルを必要とせず、既存の RL 基盤（GRPO など）にプラグインとして導入可能なため、実装コストが低く、即座に応用可能です。
将来展望: 不完全なデータからの学習と推定バイアスの軽減など、さらなる課題への対応が今後の課題として挙げられています。

総じて、DPH-RL は、LLM の推論能力を高める際に「正解率」と「多様性」のトレードオフを解消し、より汎用的で堅牢なモデル構築を可能にする画期的な手法です。

The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward