Learning to Explore with Parameter-Space Noise: A Deep Dive into Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards

この論文は、検証可能報酬を用いた強化学習(RLVR)における探索の限界を克服するため、パラメータ空間ノイズを導入し、截断重要度サンプリングと実時間適応ノイズスケジューラを組み合わせる PSN-RLVR を提案し、GRPO 実装において大規模サンプリング条件下での推論能力の拡張と既存手法を上回る性能達成を実証しています。

Bizhe Bai, Xinyue Wang, Peng Ye, Tao Chen

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🧠 問題:AI は「賢いけど、思考が狭い」

まず、現在の AI にはこんな悩みがありました。

  • 状況: AI に「数学の問題を解いて」と頼むと、正解を見つける確率は上がります。
  • しかし: AI は**「すでに知っている正解のパターン」を並べ替えて答えを出すだけで、「全く新しい発想」で答えを見つけることが苦手**でした。
  • 例え話:
    Imagine you are a chef (AI) who has memorized 100 recipes. If you ask for a delicious dish, you can pick the best one from those 100. But if you ask for a dish that no one has ever made before, you are stuck. You can't invent a new recipe; you can only rearrange the old ones.
    (あなたは 100 種類のレシピを暗記した料理人(AI)だと想像してください。美味しい料理を求められれば、その中からベストなものを選べます。でも、「誰も作ったことのない新しい料理」を求められたら、あなたは詰みます。新しいレシピは作れず、古いものを並べ替えることしかできないのです。)

これを「探索の天井(Exploration Ceiling)」と呼びます。AI がもっと大きな試行錯誤(例えば、256 回も試して正解を探す)をしても、新しい発想にはたどり着けないのです。


💡 解決策:パラメータ空間ノイズ(PSN)

この論文の著者たちは、**「AI の頭(パラメータ)自体に、少しだけ『揺らぎ』を与えてやろう」**と考えました。

1. 従来の方法(アクション空間ノイズ)の失敗

これまでは、AI が言葉を選ぶ瞬間(トークンレベル)にランダムなノイズを入れる方法が取られていました。

  • 例え話: 料理人が「塩を少し多めに入れたらどうかな?」「次は胡椒を多めにしようかな?」と一瞬一瞬の判断で適当に揺らぎを作ることです。
  • 問題点: 一瞬ごとの判断がバラバラだと、料理全体が**「味付けがぐちゃぐちゃ」**になってしまいます。長い論理思考(Chain of Thought)では、最初のステップで少し間違えると、最後の答えが全く意味のないものになってしまいます。

2. 新しい方法(パラメータ空間ノイズ)の成功

この論文が提案するのは、**「AI の頭(重み付け)自体に、一度だけノイズを注入する」**という方法です。

  • 例え話: 料理人が**「今日は少し気分を変えて、左利きで包丁を使おう」**と決めます。
    • この「左利き」という設定は、その料理(問題)を解き始めるまで、ずっと一貫して維持されます。
    • 結果として、料理全体(思考の過程)が一貫性を持って、普段とは全く異なるアプローチで進められます。
    • 「いつも右利きでやる」AI は、同じような料理しか作れません。でも「今日は左利きモード」の AI は、新しい調理法を発見できるかもしれません。

これが**「パラメータ空間ノイズ(PSN)」です。一時的なノイズではなく、「一貫した新しい視点」**を AI に与えるのです。


🛠️ 2 つの工夫:安定性と効率性

ただノイズを入れればいいわけではありません。2 つの重要な工夫がなされています。

① 切り捨て重要度サンプリング(TIS):「失敗した実験の価値を見逃さない」

AI にノイズを入れて新しい答えを出させると、その答えは「元の AI(ノイズなし)」とは少し違います。これをそのまま学習に使うと、計算が狂ってしまいます。

  • 工夫: 「この実験データは、元の AI にとっては少し珍しいけど、価値があるから、重みをつけて(補正して)学習に使う」という仕組みを作りました。
  • 例え話: 左利きの料理人が作った美味しい料理を、右利きの料理人が学ぶとき、「左利きだからこその工夫」を評価しつつ、右利きでも真似できるように調整して教えるようなものです。

② 適応型ノイズスケジューラ:「AI の気分に合わせてノイズの量を調整」

ノイズの量を固定すると、難しい問題では足りず、簡単な問題では多すぎます。

  • 工夫: AI が「自信なさそうに同じような答えばかり出しているな」と感じたら、**「もっと大胆にノイズを入れて、新しい発想を促そう」**と自動で調整します。逆に、AI が「自信満々で多様な答えを出しているな」と感じたら、ノイズを少し抑えます。
  • 例え話: 料理人が「今日は同じような味ばかり出しているな」と思ったら、あえて「激辛」や「甘酸っぱい」など、普段と全く違う調味料を思い切って追加して、新しい味を探させるようなものです。

🏆 結果:何が良くなった?

この方法(PSN-GRPO)を試した結果、以下のような素晴らしい成果がありました。

  1. 大規模な試行錯誤で圧倒的に強い:
    1 回で正解を出す確率(pass@1)は少し下がるかもしれませんが、256 回も試して正解を探す(pass@256)場合、他のどんな方法よりもはるかに高い成功率を叩き出しました。
  2. 本当に新しい発想が見つかる:
    既存の AI が「解けない」と諦めた難問でも、この方法で解けるようになりました。単に「正解を選ぶ」だけでなく、**「誰も考えたことのない新しい解き方」**を発見できたのです。
  3. 長い論理思考でも安定:
    長い文章(思考の過程)でも、意味が通じたまま多様な答えを出せるようになりました。

📝 まとめ

この論文は、**「AI に『一貫した新しい視点(パラメータノイズ)』を与え、それを賢く調整することで、AI が『既存の知識の使い回し』から脱却し、真に新しい発想(新しい料理)を生み出せるようにした」**という画期的な研究です。

AI が単なる「辞書引き」や「パターンマッチング」から、**「創造的な探検家」**へと進化するための重要な一歩と言えます。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →