Entropy-Preserving Reinforcement Learning

この論文は、方策勾配アルゴリズムが訓練中にエントロピー(探索の多様性)を自然に減少させる問題を指摘し、REPO や ADAPO といったエントロピー制御メカニズムを導入することで、多様性を維持しつつ性能と継続学習能力を向上させる手法を提案しています。

Aleksei Petrenko, Ben Lipkin, Kevin Chen, Erik Wijmans, Marco Cusumano-Towner, Raja Giryes, Philipp Krähenbühl

公開日 2026-03-13
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI(言語モデル)が賢くなるためのトレーニング方法」**について、非常に重要な新しい発見と改善策を提案したものです。

タイトルにある「エントロピー(Entropy)」とは、専門用語では「不確実性」や「多様性」を指しますが、ここでは**「AI の思考の幅」や「アイデアの多さ」**と考えるとわかりやすいです。

以下に、専門用語を避け、日常の比喩を使ってこの論文の核心を解説します。


🎯 核心となる問題:「AI が早すぎる決断をして、アイデアを失う」

AI をトレーニングする際、従来の方法(PPO や GRPO など)には大きな欠点がありました。それは**「AI がすぐに正解だと思い込み、他の可能性をすべて捨ててしまう」**という現象です。

🍕 比喩:ピザ屋さんのトレーニング

AI を「新しいピザのレシピを開発するピザ屋さん」だと想像してください。

  • 最初の状態(探索): 最初は「チーズだけ」「トマトだけ」「海苔とチーズ」など、ありとあらゆる組み合わせを試します。これが**「エントロピー(多様性)」が高い状態**です。
  • 従来のトレーニング(エントロピー崩壊): 先生(アルゴリズム)が「チーズとトマトの組み合わせが一番美味しい!」と褒めると、AI は**「もう他の組み合わせは全部無駄だ!」**と判断します。そして、すぐに「チーズとトマト」だけを作るようになります。
    • 結果: 最初は「チーズとトマト」が成功しますが、もし「チーズと海苔」が実はもっと美味しい(あるいは新しい環境で必要)だったとしても、AI はもうそれを試そうとしません。「正解」に固執しすぎて、創造性が失われてしまいます。

この論文は、**「AI が学習する過程で、この『アイデアの多様性』を意図的に守り続けることが、最終的に最強の AI になる鍵だ」**と説いています。


🔍 なぜそうなってしまうのか?(2 つの要因)

論文では、AI がなぜ早々とアイデアを失ってしまうのか、2 つの理由を突き止めました。

1. 理論的な理由:「正解」への過剰な集中

AI は「正解」を見つけると、その確率を極端に上げようとします。これにより、他の「正解かもしれないが確率が低い」選択肢が排除されてしまいます。

  • 比喩: 道案内で「一番近い道は A だ」と言われると、B や C の道はもう見向きもしなくなります。でも、もし A が工事中だったら?B が実は近道だったかもしれません。AI は A だけを見て、B を探さなくなってしまうのです。

2. 技術的な理由:「計算の精度」の問題(これが意外な発見!)

実は、AI の学習に使われる計算機の「数字の扱い方(数値精度)」が、この問題を悪化させていました。

  • 比喩: 料理の味付けをする際、**「大さじ 1 杯」「大さじ 1 杯と少し」**の区別が、計算機の精度が低いと「どちらも大さじ 1 杯」として扱われてしまいます。
    • この論文では、**「BF16(低い精度)」**という計算方法を使うと、AI が「低い確率の選択肢」を「ゼロ」と誤って判断しやすくなり、結果としてアイデアを失うことがわかりました。
    • 解決策: **「FP16(少し高い精度)」という計算方法に変えるだけで、AI は「少しの差」も感じ取り、多様なアイデアを維持できるようになりました。これは、「計算機のスイッチを一つ変えるだけで、AI の性格が変わる」**という驚くべき発見です。

💡 彼らが提案した解決策:2 つの新しい「魔法の道具」

この問題を解決するために、著者たちは 2 つの新しい方法を提案しました。

1. REPO(レポ):「アイデアのバランス調整器」

AI が「正解だ!」と過剰に喜んだり、「間違いだ!」と過剰に悲しんだりしないように、**「あえて少しの不安定さ(多様性)」**を人工的に加える方法です。

  • 比喩: AI が「チーズとトマト」に固執しすぎている時、**「でも、海苔も捨てたもんじゃないよ?」**と、あえてその選択肢の価値を少しだけ引き上げてあげます。これにより、AI は「チーズと海苔」も試すようになります。
  • 特徴: 計算コストをかけずに、AI の「好奇心」を保ちます。

2. ADAPO(アダポ):「柔軟なルール変更器」

AI が「正解」に近づきすぎた時、ルールを緩めて「もっと試して!」と促し、逆に「迷いすぎている」時はルールを厳しくする**「自動調整機能」**です。

  • 比喩: 運転手(AI)がスピードを出しすぎたら(多様性が低すぎる)ブレーキを踏むのではなく、**「もっと曲がり角を探して!」**とナビゲーターが指示を変えます。逆に、迷いすぎたら「まっすぐ行け」と指示を厳しくします。
  • 特徴: 状況に合わせて AI の「探索欲」をリアルタイムで調整します。

🏆 結果:どんな良いことがあった?

これらの方法を使うと、以下のような素晴らしい結果が得られました。

  1. より賢い AI: 単一の正解だけでなく、多様な解決策を見つけられるようになり、テストの点数が大幅に上がりました。
  2. 新しい環境にも強い: 一度学習した AI を、全く新しい課題(例:数学からプログラミングへ)に挑戦させる際、「過去の学習で固まった思考」に囚われず、新しいことを素早く学べるようになりました。
    • 比喩: 従来の AI は「日本料理の職人」になると、寿司しか作れなくなります。でも、この新しい方法で育てた AI は、「寿司も、パスタも、新しい料理も作れる」柔軟なシェフになります。
  3. 記録更新: 特定のテスト(AppWorld というアプリ操作の課題)では、従来の最高記録を大きく更新するスコアを達成しました。

📝 まとめ

この論文が伝えたいことはシンプルです。

「AI を賢くするには、正解に早くたどり着くことよりも、正解を探す過程で、どれだけ多くの可能性を失わずに探索し続けるかが重要だ」

AI の学習において、**「多様性(エントロピー)」という見えない指標を常に監視し、守り続けることが、真に創造的で賢い AI を作るための秘訣なのです。また、「計算機の精度を少し変えるだけで、AI の能力が劇的に変わる」**という、意外な技術的な発見も含まれています。

これは、AI のトレーニングを「正解を暗記させる勉強」から「創造性を育む探検」へと変えるための重要な一歩と言えます。