Each language version is independently generated for its own context, not a direct translation.

🍳 背景：AI が直面する「2 つのジレンマ」

まず、現在の AI（特に小さなモデル）が抱えている 2 つの悩みがあります。

真似だけする「SFT（教師あり学習）」の限界
- 例え話： 料理のレシピ（正解）を丸ごとコピーさせて練習させる方法です。
- 問題点： 学生は「レシピの文字を一字一句、間違えずに写す」ことばかりに集中してしまいます。結果、「なぜこの工程が必要なのか？」という理屈（思考プロセス）を理解できず、少し違う材料が出たらパニックになってしまいます。
試行錯誤する「強化学習（RL）」の限界
- 例え話： 料理を作らせて、最後に「美味しいか？（正解か？）」だけをチェックして褒める・叱る方法です。
- 問題点： 難易度が高い料理（数学の難問など）だと、AI が何回試しても**「美味しい料理」が一度も作れません**。
- 結果： 「褒めるポイント（正解）」が全くないため、AI は「どうすればいいかわからない」という状態で学習が止まってしまいます。

🚀 解決策：新しい方法「SRL（監督付き強化学習）」

この論文が提案したのは、**「正解のレシピを、一工程ずつ分解して、その都度コーチングする」**という新しい方法です。

🏃‍♂️ 具体的な仕組み：3 つのステップ

この方法は、以下の 3 つの要素を組み合わせています。

正解を「ステップ」に分解する
- 長い料理のレシピ（正解）を、「①玉ねぎを切る」「②鍋に油を引く」「③炒める」といった**小さな工程（アクション）**に切り分けます。
「内なる独り言」を許す
- AI は、次の工程を実行する前に、**「よし、まずは玉ねぎを切ろうか。でも、まずは包丁の準備からだな…」という思考プロセス（内なる独り言）**を自由に考えさせます。
- ここが重要！AI は「思考」は自由にできますが、**「実際の行動（次の工程）」**は、プロの料理人（正解のデータ）がやったことと似ているかどうかをチェックされます。
工程ごとに「フィードバック」を与える
- 最終的な「美味しい料理」ができるかどうかも重要ですが、**「玉ねぎを切った段階で、切り方が正解と似ているか？」**を即座にチェックして点数（報酬）を与えます。
- もし最終的な答えが間違っても、「玉ねぎを切る工程」は正しかったなら**「そこは素晴らしい！」**と褒めてあげます。

💡 なぜこれがすごいのか？

失敗しても学習できる： 最終的な答えが間違っても、途中の工程が正しければ「部分的な成功」を評価してくれるので、AI は諦めずに学習を続けられます。
柔軟な思考ができる： 「思考プロセス（独り言）」は自由なので、AI は正解のレシピをただコピーするのではなく、**「自分なりの考え方を組み立てながら」**正解の行動に近づけるようになります。

📊 結果：小さな AI が劇的に成長

この方法を実験したところ、以下のような成果が出ました。

数学の問題： 難問を解くテストで、従来の方法（ただコピーさせる、または最終結果だけ褒める）よりも、はるかに高い正解率を達成しました。
プログラミング： 複雑なバグ修正タスクでも、他の AI よりも上手にコードを直せるようになりました。
最強の組み合わせ： 「SRL で基礎を固めた後、さらに強化学習（最終結果で褒める）を行う」という手順を踏むと、最強の AIが生まれました。

🎯 まとめ：どんなイメージ？

この論文の核心は、**「AI に『答え』を丸投げするのではなく、『道筋』を一緒に歩かせて、足元の石（ステップ）が正しいかどうかを常にチェックしながら、最終的なゴールにたどり着かせる」**という教育法です。

従来の方法： 「答え合わせ」か「丸写し」しかしない。
新しい方法（SRL）： 「コーチが横について、『次はここをこうしようね』と一歩ずつガイドしながら、生徒が自分で考えながら進める」。

これにより、小さな AI でも、これまで解けなかったような難しい問題に挑戦し、賢くなれるようになったのです。

Each language version is independently generated for its own context, not a direct translation.

論文要約：Supervised Reinforcement Learning (SRL)

タイトル: Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning
著者: Yihe Deng, I-Hung Hsu, Jun Yan, ら (Google Cloud AI Research, UCLA)

この論文は、大規模言語モデル（LLM）が直面する「多段階推論タスク」における学習の課題を解決するため、Supervised Reinforcement Learning (SRL) という新しい学習フレームワークを提案しています。従来の教師あり微調整（SFT）と強化学習（RLVR）の限界を克服し、特に小規模なオープンソースモデルが困難な推論問題を学習できるようにすることを目的としています。

以下に、問題設定、手法、主要な貢献、実験結果、および意義について詳細にまとめます。

1. 背景と問題設定

LLM は数学的推論やツール使用など、複雑なタスクにおいて高い能力を示していますが、小規模モデル（例：7B パラメータ）が困難な多段階推論問題を学習する際には、以下の 2 つの既存手法に重大な課題があります。

強化学習（RLVR: Reinforcement Learning with Verifiable Rewards）の限界:
- RLVR は最終回答の正誤に基づいて報酬を与えます。
- しかし、難易度の高い問題（ $D_{hard}$ ）では、モデルが試行錯誤（rollout）しても正解にたどり着く確率がほぼゼロ（pass@k = 0）である場合、正の報酬信号が得られず、学習が進みません。
- 逆に、不正解を一律に罰すると学習が不安定になり、進歩が阻害されます。
教師あり微調整（SFT）の限界:
- 専門家（教師モデル）の完全な回答を模倣させる SFT は、トークン単位の厳密な模倣を強制します。
- 小規模モデルやデータ量が限られる場合、長い推論プロセスをそのまま模倣させることで「過学習」や「表面的な推論」を引き起こし、汎化性能が低下する傾向があります（図 1 で示されるように、SFT 単体ではベースモデルより性能が低下するケースさえあります）。

課題: 困難な推論タスクにおいて、SFT と RLVR のどちらの手法も効果的ではなく、小規模モデルがこれらの問題を学習するためのギャップが存在します。

2. 提案手法：Supervised Reinforcement Learning (SRL)

SRL は、問題解決を「最終回答の生成」ではなく、「論理的なアクションの連続した生成」として再定義し、教師あり学習と強化学習の利点を融合させたフレームワークです。

核心的な仕組み

ステップごとの分解（Action-based Formulation）:
- 教師モデル（Expert）による完全な解決プロセスを、論理的な「ステップ（アクション）」の列に分解します。
- 各ステップは、具体的な推論の決定点（例：数学なら代数操作、ソフトウェアならコマンド実行）を表します。
内部独白とアクションの生成:
- 学習モデルは、各ステップにおいてまず「内部独白（タグ内）」で推論プロセスを記述し、その後に「アクション（次のステップの回答）」を生成します。
- これにより、モデルは柔軟な推論スタイルを持ちながら、外部の行動は専門家の戦略に合わせることを学びます。
密な類似度報酬（Dense Sequence Similarity Reward）:
- 従来の RLVR が最終回答の正誤のみを評価するのに対し、SRL は各ステップの生成されたアクションと、教師の対応するアクションとの類似度に基づいて報酬を計算します。
- 類似度計算には difflib.SequenceMatcher を使用し、一致するブロックの長さに基づいて 0 から 1 の間のスコアを算出します。
- 利点: 最終回答が間違っていなくても、中間ステップが正しければ報酬が得られるため、困難な問題でも学習信号（グラデーション）が得られます。
動的サンプリング（Dynamic Sampling）:
- 報酬の分散が低い（学習信号が弱い）サンプルをフィルタリングし、学習効率を向上させます。

学習フロー

教師モデルの軌跡をステップごとに分解し、部分軌跡（コンテキスト）と次のステップ（ターゲット）のペアを作成。
モデルにコンテキストを与え、内部独白と次のアクションを生成させる。
生成されたアクションと教師のアクションを比較し、類似度スコアを報酬として GRPO（Group Relative Policy Optimization）などの RL アルゴリズムで最適化。

3. 主要な貢献

SRL フレームワークの提案:
- SFT と RLVR が失敗する困難な推論タスクにおいて、専門家のアクションとの類似度に基づく密で滑らかな報酬を提供することで、効果的な学習を可能にしました。
広範な実験による有効性の証明:
- 数学的推論ベンチマーク（AMC23, AIME24/25, Minerva）と、ソフトウェアエンジニアリングタスク（SWE-Bench）の両方で、強力なベースラインを大幅に上回る性能を示しました。
推論パターンの分析:
- SRL によって学習されたモデルは、単調な生成ではなく、「計画・実行・検証」を交互に行う柔軟で高度な推論パターン（Interleaved reasoning）を獲得することを示しました。

4. 実験結果

数学的推論（Qwen2.5-7B-Instruct をベース）

SFT の失敗: 難易度の高いデータセット（s1K）で SFT を行うと、ベースモデルより性能が低下しました。
RLVR の限界: 既存の RLVR は SFT よりも良いですが、改善は限定的でした。
SRL の成功:
- SRL 単体で、ベースライン（RLVR や SFT）を大幅に上回る性能を達成しました（例：AIME24 Greedy で 16.7% vs 13.3%）。
- SRL → RLVR パイプライン: 最初に SRL で学習し、その後 RLVR で微調整する手法が最も高い性能（AIME24 Greedy: 20.0%）を示しました。これは、SRL がモデルに「推論の構造」を教え、RLVR が「最終的な正解」への探索を強化する相乗効果によるものです。
小規模モデルへの適用: 3B モデルでも同様の性能向上が見られ、汎用性が高いことが確認されました。

ソフトウェアエンジニアリング（SWE-Bench）

タスク: 実際のコードバグ修正タスク。
結果:
- ベースモデル（5.8%）や SFT ベースの SWE-Gym-7B（8.4%）と比較して、SRL 学習モデルは 14.8% の解決率を達成しました。
- エンドツーエンド評価でも、SFT ベースのモデルの約 2 倍の性能（8.6% vs 4.2%）を記録しました。
- これは、SFT が単なる模倣に留まるのに対し、SRL が環境との相互作用における「適切なアクション」を学習できることを示しています。

5. 意義と結論

学習パラダイムの転換: 困難な推論タスクにおいて、単なる「模倣（SFT）」か「結果の最適化（RLVR）」かの二者択一ではなく、**「ステップごとの行動指導」**という第三の道を開拓しました。
小規模モデルの能力解放: 計算リソースが限られた小規模モデルでも、高品質な専門家データから効率的に複雑な推論スキルを習得できるようになりました。
汎用性: 数学だけでなく、ソフトウェアエンジニアリングのような実世界タスクにも適用可能であり、AI エージェントのトレーニングフレームワークとして非常に有望です。

結論:
SRL は、専門家の軌跡をステップ単位に分解し、類似度に基づく密な報酬信号を用いることで、LLM が困難な多段階推論問題を学習するための堅牢で汎用的なアプローチを提供します。特に、SRL で初期化し RLVR で微調整するハイブリッド戦略は、現在の最良のパフォーマンスを実現する手法として確立されました。

Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning