Each language version is independently generated for its own context, not a direct translation.

🧠 問題：AI は「賢いけど、思考が狭い」

まず、現在の AI にはこんな悩みがありました。

状況: AI に「数学の問題を解いて」と頼むと、正解を見つける確率は上がります。
しかし: AI は**「すでに知っている正解のパターン」を並べ替えて答えを出すだけで、「全く新しい発想」で答えを見つけることが苦手**でした。
例え話:
Imagine you are a chef (AI) who has memorized 100 recipes. If you ask for a delicious dish, you can pick the best one from those 100. But if you ask for a dish that no one has ever made before, you are stuck. You can't invent a new recipe; you can only rearrange the old ones.
（あなたは 100 種類のレシピを暗記した料理人（AI）だと想像してください。美味しい料理を求められれば、その中からベストなものを選べます。でも、「誰も作ったことのない新しい料理」を求められたら、あなたは詰みます。新しいレシピは作れず、古いものを並べ替えることしかできないのです。）

これを「探索の天井（Exploration Ceiling）」と呼びます。AI がもっと大きな試行錯誤（例えば、256 回も試して正解を探す）をしても、新しい発想にはたどり着けないのです。

💡 解決策：パラメータ空間ノイズ（PSN）

この論文の著者たちは、**「AI の頭（パラメータ）自体に、少しだけ『揺らぎ』を与えてやろう」**と考えました。

1. 従来の方法（アクション空間ノイズ）の失敗

これまでは、AI が言葉を選ぶ瞬間（トークンレベル）にランダムなノイズを入れる方法が取られていました。

例え話: 料理人が「塩を少し多めに入れたらどうかな？」「次は胡椒を多めにしようかな？」と一瞬一瞬の判断で適当に揺らぎを作ることです。
問題点: 一瞬ごとの判断がバラバラだと、料理全体が**「味付けがぐちゃぐちゃ」**になってしまいます。長い論理思考（Chain of Thought）では、最初のステップで少し間違えると、最後の答えが全く意味のないものになってしまいます。

2. 新しい方法（パラメータ空間ノイズ）の成功

この論文が提案するのは、**「AI の頭（重み付け）自体に、一度だけノイズを注入する」**という方法です。

例え話: 料理人が**「今日は少し気分を変えて、左利きで包丁を使おう」**と決めます。
- この「左利き」という設定は、その料理（問題）を解き始めるまで、ずっと一貫して維持されます。
- 結果として、料理全体（思考の過程）が一貫性を持って、普段とは全く異なるアプローチで進められます。
- 「いつも右利きでやる」AI は、同じような料理しか作れません。でも「今日は左利きモード」の AI は、新しい調理法を発見できるかもしれません。

これが**「パラメータ空間ノイズ（PSN）」です。一時的なノイズではなく、「一貫した新しい視点」**を AI に与えるのです。

🛠️ 2 つの工夫：安定性と効率性

ただノイズを入れればいいわけではありません。2 つの重要な工夫がなされています。

① 切り捨て重要度サンプリング（TIS）：「失敗した実験の価値を見逃さない」

AI にノイズを入れて新しい答えを出させると、その答えは「元の AI（ノイズなし）」とは少し違います。これをそのまま学習に使うと、計算が狂ってしまいます。

工夫: 「この実験データは、元の AI にとっては少し珍しいけど、価値があるから、重みをつけて（補正して）学習に使う」という仕組みを作りました。
例え話: 左利きの料理人が作った美味しい料理を、右利きの料理人が学ぶとき、「左利きだからこその工夫」を評価しつつ、右利きでも真似できるように調整して教えるようなものです。

② 適応型ノイズスケジューラ：「AI の気分に合わせてノイズの量を調整」

ノイズの量を固定すると、難しい問題では足りず、簡単な問題では多すぎます。

工夫: AI が「自信なさそうに同じような答えばかり出しているな」と感じたら、**「もっと大胆にノイズを入れて、新しい発想を促そう」**と自動で調整します。逆に、AI が「自信満々で多様な答えを出しているな」と感じたら、ノイズを少し抑えます。
例え話: 料理人が「今日は同じような味ばかり出しているな」と思ったら、あえて「激辛」や「甘酸っぱい」など、普段と全く違う調味料を思い切って追加して、新しい味を探させるようなものです。

🏆 結果：何が良くなった？

この方法（PSN-GRPO）を試した結果、以下のような素晴らしい成果がありました。

大規模な試行錯誤で圧倒的に強い:
1 回で正解を出す確率（pass@1）は少し下がるかもしれませんが、256 回も試して正解を探す（pass@256）場合、他のどんな方法よりもはるかに高い成功率を叩き出しました。
本当に新しい発想が見つかる:
既存の AI が「解けない」と諦めた難問でも、この方法で解けるようになりました。単に「正解を選ぶ」だけでなく、**「誰も考えたことのない新しい解き方」**を発見できたのです。
長い論理思考でも安定:
長い文章（思考の過程）でも、意味が通じたまま多様な答えを出せるようになりました。

📝 まとめ

この論文は、**「AI に『一貫した新しい視点（パラメータノイズ）』を与え、それを賢く調整することで、AI が『既存の知識の使い回し』から脱却し、真に新しい発想（新しい料理）を生み出せるようにした」**という画期的な研究です。

AI が単なる「辞書引き」や「パターンマッチング」から、**「創造的な探検家」**へと進化するための重要な一歩と言えます。

Each language version is independently generated for its own context, not a direct translation.

論文「Learning to Explore with Parameter-Space Noise: A Deep Dive into Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards」の技術的サマリー

本論文は、検証可能な報酬（Verifiable Rewards）を用いた強化学習（RLVR）において、大規模言語モデル（LLM）の推論能力の限界（Exploration Ceiling）を打破するための新たな手法「PSN-RLVR」を提案しています。特に、数学的推論タスクにおいて、既存の手法が抱える「探索不足」の問題を解決し、大規模サンプリング（pass@k, k が大きい場合）における性能向上を実現しています。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 背景と問題定義

1.1 RLVR の現状と課題

検証可能な報酬（数学、コード生成など）を用いた強化学習（RLVR）は、DeepSeek-R1 などのモデルで推論能力を飛躍的に向上させてきました。しかし、近年の研究では、現在の RLVR パイプラインには**「探索の天井（Exploration Ceiling）」**が存在することが指摘されています。

既存の限界: 現在の RLVR は、主に事前学習分布に含まれる既存の解の経路を再重み付け（reweighting）するだけであり、本質的に新しい推論戦略を発見できていません。
多様性の欠如: 学習後のモデルは、ベースモデルと比較してセマンティックな多様性や操作（演算）の多様性が低下しており、大規模サンプリング（例：pass@256）における性能向上が頭打ちになる傾向があります。
既存手法の欠点:
- トークンレベルのノイズ（Action-Space）: 温度サンプリングなどはトークンごとのランダム性を加えますが、時間ステップ間で無相関であるため、長期的な思考連鎖（Chain-of-Thought: CoT）の整合性が崩れ、論理的なドリフトを引き起こします。
- 目的関数の正則化: エントロピーボーナスや pass@k 最適化などは、代理信号に依存しやすく、タスクの難易度や報酬の希薄さに敏感です。
- データ拡張: 追加の計算コストや外部信号への依存が必要です。

1.2 本研究の目的

長期的な CoT 推論の整合性を保ちつつ、本質的に新しい解の戦略を発見できるような、効率的かつ堅牢な探索メカニズムの構築を目指します。

2. 提案手法：PSN-RLVR

本研究は、**パラメータ空間ノイズ（Parameter-Space Noise, PSN）**を RLVR に適用するフレームワーク「PSN-RLVR」を提案し、広く用いられている GRPO（Group Relative Policy Optimization）をベースに「PSN-GRPO」として実装しました。

2.1 核心的なアイデア：パラメータ空間ノイズ

従来のトークンレベルのノイズではなく、ポリシーのパラメータ自体にノイズを加えることで探索を行います。

メカニズム: 各反復の開始時、現在のポリシーパラメータ $\theta$ にガウスノイズ $\epsilon$ を加え、 $\tilde{\theta} = \theta + \epsilon$ とします。
効果: このノイズを加えたパラメータ $\tilde{\theta}$ を用いてロールアウト（生成）を行います。同じ入力に対して、ノイズを加えたパラメータは一貫した戦略を維持するため、時間的に整合性の取れた（temporally consistent）経路レベルの探索が可能になります。これにより、長距離の CoT 推論における論理的整合性が保たれます。

2.2 課題解決のための 2 つのモジュール

パラメータノイズを RLVR に適用する際、2 つの技術的課題に対処するためのモジュールを導入しています。

(1) 截断重要度サンプリング（Truncated Importance Sampling, TIS）

課題: ノイズを加えたポリシー $\pi_{\tilde{\theta}}$ でデータを収集し、クリーンなポリシー $\pi_{\theta}$ を更新するため、オフポリシー（Off-Policy）の不一致が生じます。これを無視すると勾配推定にバイアスが生じます。
解決策: 標準的な GRPO の目的関数に、重要度比 $w_t$ を導入し、これを截断（clipping）することで分散を制御します。
$J_{PSN}(\theta) = \mathbb{E} \left[ \frac{1}{|o|} \sum_{t=1}^{|o|} w_t \cdot \ell_{clip}^t(\theta) \right]$
これにより、探索的なデータを活用しつつ、学習の安定性を確保します。

(2) 軽量なリアルタイム適応ノイズスケジューラ

課題: ノイズの強さ（ $\sigma$ ）を適切に調整する必要があります。従来の KL 分散に基づく適応制御は計算コストが高く、またバッチごとの問題難易度の変動に対して遅延（feedback lag）が生じます。
解決策: KL 分散の代わりに、セマンティック多様性と**モデルの自己確信度（Self-Certainty）**を組み合わせた軽量な代理指標を用いて、リアルタイムにノイズスケールを調整します。
- セマンティック類似度: クリーンモデルで生成した 2 つのプロトロールアウトの埋め込み類似度を計算。類似度が高い（多様性が低い）場合はノイズを増加させます。
- 自己確信度: モデルのトークン予測分布が均一分布からどれだけ乖離しているか（KL 分散）を測定。確信度が高い（分布が尖っている）場合は探索が必要と判断しノイズを増加させます。
- 効率性: 完全なロールアウトを再サンプリングする必要がなく、計算オーバーヘッドは約 8% のみで済みます。

3. 主要な貢献

PSN-RLVR の提案: 検証可能な報酬を用いた LLM 向けに、パラメータ空間ノイズを適用する初の体系的な研究。これにより、時間的に一貫した経路レベルの探索を実現しました。
RLVR 固有の課題への対応: オフポリシー不一致を解消する TIS と、高コストな KL 制御を回避する軽量な適応スケジューラを提案し、実用的な実装を可能にしました。
PSN 設計空間の包括的検証: 以下の点について大規模な実験とアブレーション研究を行いました。
- ノイズ注入場所: Transformer の MLP（FFN）ブロックへの注入が、言語モデルヘッド（LM head）や全層への注入よりも高性能であることを実証。
- ノイズ強度のスケール: 中程度のノイズ（ $\sigma \approx 0.004 \sim 0.005$ ）が探索と利用のバランスを最適化すること。
- 他手法との比較: トークンレベルのノイズ（温度スケーリングなど）よりも、長距離推論タスクにおいて優れていること。
- 直交性: 既存の探索手法（pass@k 学習など）と組み合わせ可能であり、追加の性能向上が得られること。

4. 実験結果

実験は Qwen2.5-Math-7B、Qwen2.5-7B、Qwen3-4B-Base などのモデルを用い、AIME 2024/2025、AMC 2023、OlympiadBench、Minerva Math などの数学推論ベンチマークで評価されました。

4.1 性能向上（Pass@k）

大規模サンプリングでの優位性: 標準的な GRPO や他の探索手法と比較し、PSN-GRPO は特に $k$ $k$ が大きい場合（ $k \ge 128, 256$ $k \geq 128, 256$ ）に顕著な性能向上を示しました。
- 例：AIME 2024 において、pass@256 でベースラインに対し +8.9% の改善。
低予算でのトレードオフ: 小規模サンプリング（pass@1）ではわずかに性能が低下する傾向がありますが、適応スケジューラにより緩和され、全体として探索と利用のバランスが取れています。

4.2 多様性の回復

セマンティック多様性と操作多様性: PSN-GRPO は、ベースモデルや標準 GRPO に比べて、生成される解のセマンティックな多様性（意味的類似度の低さ）と操作の多様性（使用される演算パターンの多さ）が大幅に向上しました。
質的な新戦略の発見: 定性的分析により、ベースモデルが失敗する問題において、PSN-GRPO が「対称性への過度な依存」などの既存の思考パターンを回避し、全く新しい解法（例：非対称な配置の考慮）を発見していることが確認されました。

4.3 比較実験

トークンノイズ vs パラメータノイズ: 温度スケーリングなどのトークンノイズは、長文の推論タスク（AIME 2024 など）で論理的なドリフトを引き起こし性能が低下しましたが、PSN は経路レベルの整合性を保ち、長距離タスクで優位性を示しました。
注入場所: MLP ブロックへのノイズ注入が最も効果的であることが確認されました。

5. 意義と結論

本論文は、RLVR における「探索の天井」を打破するための実用的かつ効果的なアプローチを提供しています。

理論的意義: パラメータ空間ノイズが、LLM の離散的で高次元な推論空間において、時間的整合性を保った深層探索（Deep Exploration）を可能にすることを実証しました。
実用的意義: 計算コストを最小限に抑えつつ、大規模サンプリングにおける推論能力の限界を拡張します。これは、教育ツールやソフトウェア開発など、自動検証が可能なドメインにおいて、より信頼性の高い解の発見を可能にします。
将来展望: 本手法は既存の RLVR 技術と直交的に組み合わせ可能であり、今後の大規模言語モデルの推論能力向上の基盤技術として期待されます。

総じて、PSN-RLVR は、単なる既存解の選別ではなく、LLM が真に新しい推論戦略を「発見」するための重要なステップとなる手法です。

Learning to Explore with Parameter-Space Noise: A Deep Dive into Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards