Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

本論文は、強化学習による推論モデルの多様性欠如を解決するため、正解を保持した目標分布をα\alpha-ダイバージェンスで近似し、精度と多様性のトレードオフを制御する新しい手法を提案し、Lean 定理証明ベンチマークでcoverage 軸において既存手法を上回る性能を達成したことを示しています。

Germán Kruszewski, Pierre Erbacher, Jos Rozen, Marc Dymetman

公開日 2026-03-09
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI(大規模言語モデル)に論理的な思考(推論)を教えるとき、なぜ『正解』ばかり探すようになると、逆に『多様なアイデア』が失われてしまうのか」**という問題を解き明かし、その解決策を提案したものです。

タイトルにある**「Whatever Remains Must Be True(残ったものはすべて真実である)」**は、シャーロック・ホームズの名言「不可能なものを消去すれば、残ったものがどんなにあり得なくても、それが真実だ」から来ています。この論文は、この「消去法」の考え方を AI 学習に応用しています。

以下に、専門用語を排し、身近な例えを使って解説します。


1. 問題:AI が「偏屈」になってしまう現象

最近の AI は、数学の問題やパズルを解くために、**「正解かどうかを即座にチェックできる先生(検証者)」**と一緒に学習しています。これを「強化学習(RL)」と呼びます。

しかし、この方法には大きな落とし穴がありました。
AI は「正解」を見つけると、**「あ、この答えが正解だ!じゃあ、他の答えは全部捨てて、この正解のパターンだけを極端に繰り返せばいいんだ!」**と学習してしまいます。

  • 比喩:
    料理教室で、先生が「このレシピ(正解)は完璧だ!」と褒めたとします。
    従来の AI は、「じゃあ、他のどんな材料や調理法も無視して、このレシピだけを 100 回も 100 回も練習する」ようになります。
    結果として、**「その 1 つの料理は完璧に作れるようになった(精度が高い)」けれど、「他の料理の作り方をすっかり忘れた(多様性が失われた)」**状態になります。
    難しい問題(新しい料理)が出たとき、この「偏った AI」は、その 1 つのレシピしか使えないので、全く答えられなくなってしまいます。

2. 原因:「逆 KL 分散」という魔法の杖

なぜ AI がこうなるのか?
論文は、AI が使っている学習のルール(数学的な距離の測り方)に原因があると指摘しています。

  • 従来のルール(Reverse KL):
    「正解の山(モード)」に AI を引き寄せるルールです。
    **「正解の山の上にいるなら OK。山から少しずれても、他の山(他の正解)には行かなくていい」**という感覚です。
    これだと、AI は「一番高い山(一番確率の高い正解)」に集中して、他の「低い山(別の正解)」を無視してしまいます。

3. 解決策:「α-DPG」という新しい学習法

この論文の提案は、**「正解の山を全部守りながら、AI を訓練する」**というものです。

彼らは、**「正解かどうかだけをチェックして、不正解を消し去る(フィルタリングする)」**というシンプルなルールを定義しました。
そして、AI が「元の AI(ベースモデル)」の性格を失わずに、この「正解だけが残った世界」に馴染むように調整する新しい方法を考え出しました。

  • 新しいルール(α-DPG):
    ここでは、**「α(アルファ)」というつまみ(スライダー)**を使います。

    • つまみを「正解重視」側に回す(αに近い値):
      従来の AI と同じように、正解の精度を極限まで高めます。
    • つまみを「多様性重視」側に回す(αが小さい値):
      「正解なら何でも OK!元の AI が持っていた多様なアイデアを全部残そう!」という方向に動きます。
    • つまみを「中間」に置く:
      正解の精度と、多様なアイデアの両方をバランスよく手に入れます。
  • 比喩:
    従来の AI は「正解の山」だけを登る登山家でした。
    新しい AI は、**「正解の森全体」**を歩き回る登山家です。
    「α(アルファ)」というコンパスを回すことで、「今日は山頂(正解)を目指そう」か、「今日は森の隅々まで探索しよう」かを自由に選べるようになります。

4. 実験結果:数学の証明で実証

彼らは、この方法を「Lean(リーン)」という、数学の証明を厳密にチェックするシステムを使ってテストしました。

  • 結果:
    • 従来の方法(正解重視)は、1 回で正解を出す確率(精度)は高いですが、256 回試しても正解が出ない問題が増えました(多様性の欠如)。
    • 新しい方法(α-DPG)は、「正解の精度」と「多様な正解を見つける力(カバレッジ)」の両方を、他のどんな方法よりも優れたバランスで達成しました。
    • 特に、αを小さく設定したモデルは、**「どんなに難しい問題でも、何らかの正解を見つけ出す力」**が圧倒的に高まりました。

5. まとめ:残ったものはすべて真実

この論文の核心は、**「正解をフィルタリングして残すこと自体は素晴らしいが、それを『正解だけ』に絞り込む学習ルールが、AI の創造性を殺していた」**という発見です。

彼らは、**「正解のリストから不正解を消し去り、残ったすべての正解を、元の AI が持っていた多様な性格のまま尊重する」**という新しい学習法を提案しました。

  • 結論:
    AI に「正解」を教えるとき、「正解の山」だけを見るのではなく、「正解の森」全体を愛でるような学習をさせることで、AI はより賢く、より創造的になり、どんな難しい問題にも柔軟に対応できるようになるのです。

「不可能なものを消去すれば、残ったものはすべて真実である」
この言葉通り、不正解を消し去った後に残った「多様な正解たち」を、AI にそのまま受け入れさせることが、次世代の AI 開発の鍵となりました。