Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI（大規模言語モデル）に論理的な思考（推論）を教えるとき、なぜ『正解』ばかり探すようになると、逆に『多様なアイデア』が失われてしまうのか」**という問題を解き明かし、その解決策を提案したものです。

タイトルにある**「Whatever Remains Must Be True（残ったものはすべて真実である）」**は、シャーロック・ホームズの名言「不可能なものを消去すれば、残ったものがどんなにあり得なくても、それが真実だ」から来ています。この論文は、この「消去法」の考え方を AI 学習に応用しています。

以下に、専門用語を排し、身近な例えを使って解説します。

1. 問題：AI が「偏屈」になってしまう現象

最近の AI は、数学の問題やパズルを解くために、**「正解かどうかを即座にチェックできる先生（検証者）」**と一緒に学習しています。これを「強化学習（RL）」と呼びます。

しかし、この方法には大きな落とし穴がありました。
AI は「正解」を見つけると、**「あ、この答えが正解だ！じゃあ、他の答えは全部捨てて、この正解のパターンだけを極端に繰り返せばいいんだ！」**と学習してしまいます。

比喩：
料理教室で、先生が「このレシピ（正解）は完璧だ！」と褒めたとします。
従来の AI は、「じゃあ、他のどんな材料や調理法も無視して、このレシピだけを 100 回も 100 回も練習する」ようになります。
結果として、**「その 1 つの料理は完璧に作れるようになった（精度が高い）」けれど、「他の料理の作り方をすっかり忘れた（多様性が失われた）」**状態になります。
難しい問題（新しい料理）が出たとき、この「偏った AI」は、その 1 つのレシピしか使えないので、全く答えられなくなってしまいます。

2. 原因：「逆 KL 分散」という魔法の杖

なぜ AI がこうなるのか？
論文は、AI が使っている学習のルール（数学的な距離の測り方）に原因があると指摘しています。

従来のルール（Reverse KL）：
「正解の山（モード）」に AI を引き寄せるルールです。
**「正解の山の上にいるなら OK。山から少しずれても、他の山（他の正解）には行かなくていい」**という感覚です。
これだと、AI は「一番高い山（一番確率の高い正解）」に集中して、他の「低い山（別の正解）」を無視してしまいます。

3. 解決策：「α-DPG」という新しい学習法

この論文の提案は、**「正解の山を全部守りながら、AI を訓練する」**というものです。

彼らは、**「正解かどうかだけをチェックして、不正解を消し去る（フィルタリングする）」**というシンプルなルールを定義しました。
そして、AI が「元の AI（ベースモデル）」の性格を失わずに、この「正解だけが残った世界」に馴染むように調整する新しい方法を考え出しました。

新しいルール（α-DPG）：
ここでは、**「α（アルファ）」というつまみ（スライダー）**を使います。
- つまみを「正解重視」側に回す（αに近い値）：
  従来の AI と同じように、正解の精度を極限まで高めます。
- つまみを「多様性重視」側に回す（αが小さい値）：
  「正解なら何でも OK！元の AI が持っていた多様なアイデアを全部残そう！」という方向に動きます。
- つまみを「中間」に置く：
  正解の精度と、多様なアイデアの両方をバランスよく手に入れます。
比喩：
従来の AI は「正解の山」だけを登る登山家でした。
新しい AI は、**「正解の森全体」**を歩き回る登山家です。
「α（アルファ）」というコンパスを回すことで、「今日は山頂（正解）を目指そう」か、「今日は森の隅々まで探索しよう」かを自由に選べるようになります。

4. 実験結果：数学の証明で実証

彼らは、この方法を「Lean（リーン）」という、数学の証明を厳密にチェックするシステムを使ってテストしました。

結果：
- 従来の方法（正解重視）は、1 回で正解を出す確率（精度）は高いですが、256 回試しても正解が出ない問題が増えました（多様性の欠如）。
- 新しい方法（α-DPG）は、「正解の精度」と「多様な正解を見つける力（カバレッジ）」の両方を、他のどんな方法よりも優れたバランスで達成しました。
- 特に、αを小さく設定したモデルは、**「どんなに難しい問題でも、何らかの正解を見つけ出す力」**が圧倒的に高まりました。

5. まとめ：残ったものはすべて真実

この論文の核心は、**「正解をフィルタリングして残すこと自体は素晴らしいが、それを『正解だけ』に絞り込む学習ルールが、AI の創造性を殺していた」**という発見です。

彼らは、**「正解のリストから不正解を消し去り、残ったすべての正解を、元の AI が持っていた多様な性格のまま尊重する」**という新しい学習法を提案しました。

結論：
AI に「正解」を教えるとき、「正解の山」だけを見るのではなく、「正解の森」全体を愛でるような学習をさせることで、AI はより賢く、より創造的になり、どんな難しい問題にも柔軟に対応できるようになるのです。

「不可能なものを消去すれば、残ったものはすべて真実である」
この言葉通り、不正解を消し去った後に残った「多様な正解たち」を、AI にそのまま受け入れさせることが、次世代の AI 開発の鍵となりました。

Each language version is independently generated for its own context, not a direct translation.

論文「Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity」の技術的サマリー

本論文は、推論タスクにおける大規模言語モデル（LLM）の微調整において、強化学習（RL）が引き起こす「多様性の喪失」問題を解決し、精度と多様性のトレードオフを制御可能な新しいフレームワーク「DMVR（Distributional Matching with Verifiable Rewards）」を提案する研究です。特に、Lean 定理証明アシスタントを用いた形式数学の分野で、最先端の性能を達成しています。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳述します。

1. 問題定義：強化学習による多様性の喪失

近年、推論タスクにおける LLM の調整には、検証可能な報酬（Verifiable Rewards）を用いた強化学習（RLVR: Reinforcement Learning from Verifiable Rewards、例：PPO, GRPO）が事実上の標準となっています。しかし、近年の研究では以下の問題が指摘されています。

多様性の低下（Mode Collapse）: RLVR で調整されたモデルは、正解を高い確率で出力するようになりますが、出力の多様性が著しく低下します。
原因の特定: この現象は、RLVR が**逆 KL ダイバージェンス（Reverse KL Divergence）**を最適化することに起因します。逆 KL は「モード探索（Mode-seeking）」または「ゼロフォース（Zero-forcing）」の性質を持ち、ターゲット分布（正解）の特定のモード（高確率領域）に確率質量を集中させ、他の可能性のある正解を無視する傾向があります。
結果: モデルは特定の解に偏り、ベースモデルが持っていた多様な正解の候補を「忘却」してしまいます。

2. 提案手法：DMVR と $\alpha$ -DPG

著者らは、RLVR の問題を「ターゲット分布の定義」ではなく、「その分布を近似するためのダイバージェンス（発散度）の選択」に起因すると再定義し、以下のアプローチを提案しました。

2.1. 明示的なターゲット分布の定義

理想的なターゲット分布 $p_x(y)$ を以下のように定義します。

検証器（Verifier） $v(y, x)$ が「正解（1）」と判定する出力のみを残す。
正解の相対的な確率分布は、ベースモデル $\pi_{base}$ のそれを維持する。
数式的には $p_x(y) \propto \pi_{base}(y|x) \cdot v(y, x)$ となります。
この分布は、正解を保証しつつ、ベースモデルが持つ多様性を最大限に保持する唯一の分布です。

2.2. $\alpha$ -ダイバージェンスによる制御

このターゲット分布にモデルを近づける際、どのダイバージェンスを使用するかを制御可能にします。

逆 KL ( $\alpha \to 1$ ): モード探索的。精度は高いが多様性は低い（従来の RLVR に相当）。
順 KL ( $\alpha \to 0$ ): マスカバリング的（Mass-covering）。多様性は高いが、低品質な領域にも確率を割り当ててしまうため精度が低下する可能性がある。
$\alpha$ -ダイバージェンス: これらの極端な性質を滑らかに補間するパラメータ $\alpha$ を導入します。

2.3. $\alpha$ -DPG アルゴリズム

提案手法は、 $f$ -DPG（Distributional Policy Gradient）アルゴリズムを $\alpha$ -ダイバージェンスに適用した $\alpha$ -DPGです。

擬似報酬（Pseudo-reward）の設計: $\alpha$ の値に応じて、ターゲット分布とモデル分布の比率に基づいた擬似報酬を計算し、方策勾配法で更新を行います。
安定化: 低 $\alpha$ 値での分散爆発を防ぐため、擬似報酬にクリッピングを適用します。
DMVR フレームワーク: 検証器ベースのターゲット分布を明示的に定義し、任意のダイバージェンスで最適化する一般化された枠組みを構築しました。

3. 主要な貢献

DMVR フレームワークの導入: 検証器に基づいて明示的に定義されたターゲット分布を近似することでモデルを学習する新しい枠組みを提案。
RL による多様性喪失のメカニズムの解明: RLVR が逆 KL を最適化することで、ターゲット分布の多様性を無視して特定のモードに集中してしまうことを理論的に示した。
精度と多様性のトレードオフ制御: $\alpha$ -DPG により、順 KL と逆 KL の間で滑らかに補間し、精度（Pass@1）とカバレッジ（Pass@k）のバランスをパラメータ $\alpha$ で制御可能にした。
Lean ベンチマークでの SOTA 達成: 定理証明タスクにおいて、カバレッジ（Pass@256）において既存のすべての手法を上回る性能を達成し、精度とカバレッジのパレートフロンティア上にモデルを配置することに成功した。

4. 実験結果

実験は、形式数学の定理証明タスク（Lean 4）および DeepSeek-Prover-V1.5-SFT モデルを用いて行われました。

精度 vs 多様性のパレートフロンティア:
- $\alpha$ が低い場合（例：0.25）: 非常に高いカバレッジ（Pass@256）を達成し、ベースモデルや多様性を維持する既存手法（Pass@k 学習など）を上回ります。精度（Pass@1）もベースモデルより向上しています。
- $\alpha$ が高い場合（例：0.999）: 精度（Pass@1）は従来の RL 手法（GRPO など）と同等かそれ以上の性能を示しつつ、通常よりも高いカバレッジを維持します。
- 結論: $\alpha$ -DPG は、単一の手法で精度と多様性の両極端をカバーし、パレートフロンティア全体を支配するモデル群を生成できます。
問題難易度の変化:
- 従来の GRPO や $\alpha \approx 1$ のモデルは、中程度の難易度の問題を「易しい」に変える一方で、難問を「未解決」にしてしまう傾向（二極化）が見られました。
- 一方、 $\alpha=0.25$ のモデルは、難問を解けるように保ちつつ、一部の易化を実現する、より保守的かつ堅牢な挙動を示しました。
多様性の分析:
- 証明で使われる「戦術（Tactics）」や「前提（Premises）」の多様性（シャノンエントロピー等）を測定した結果、高い多様性が Pass@256 と正の相関、Pass@1 と負の相関を持つことが確認されました。
- 驚くべきことに、RL 学習後のモデルが生成する解は、ベースモデルの分布下でも高い確率で発生するものであり、RL が「全く新しい解」を発見したわけではなく、既存の解を再重み付けしていることが示唆されました。

5. 意義と結論

本論文は、LLM の推論能力向上における RL の役割を再考する重要な示唆を与えています。

RL の限界と可能性: RL 自体が新しい能力を生み出すのではなく、ベースモデルに既に存在する正解を「フィルタリング」して再重み付けしているに過ぎないことを示しました。
ダイバージェンスの重要性: 多様性の喪失はターゲット分布そのものではなく、それを近似する際に使われる「ダイバージェンス（逆 KL）」に起因します。
実用的な制御: $\alpha$ -DPG を用いることで、タスクの要件（単一の正解が必要か、多様な解の探索が必要か）に応じて、精度と多様性のバランスを柔軟に調整できます。

特に、定理証明やコード生成など、正解が一意ではない、あるいは稀な解の探索が重要なタスクにおいて、このアプローチは従来の RLVR よりも遥かに効果的であることが実証されました。今後の研究として、他のタスクへの一般化や、トレーニング中の $\alpha$ の動的変化（カリキュラム学習）によるさらなる性能向上が期待されます。

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

1. 問題：AI が「偏屈」になってしまう現象

2. 原因：「逆 KL 分散」という魔法の杖

3. 解決策：「α-DPG」という新しい学習法

4. 実験結果：数学の証明で実証

5. まとめ：残ったものはすべて真実

論文「Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity」の技術的サマリー

1. 問題定義：強化学習による多様性の喪失

2. 提案手法：DMVR と α\alphaα-DPG

2.1. 明示的なターゲット分布の定義

2.2. α\alphaα-ダイバージェンスによる制御

2.3. α\alphaα-DPG アルゴリズム

3. 主要な貢献

4. 実験結果

5. 意義と結論

関連論文

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach

2. 提案手法：DMVR と $\alpha$ -DPG

2.2. $\alpha$ -ダイバージェンスによる制御

2.3. $\alpha$ -DPG アルゴリズム