Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

この論文は、SFT の過学習や RLVR のサンプリング失敗という課題を克服し、専門家からの段階的な行動類似度に基づいた報酬でモデルを訓練する「Supervised Reinforcement Learning (SRL)」を提案することで、小規模な言語モデルが複雑な推論タスクやソフトウェア工学タスクを効果的に習得できるようにする新たな学習枠組みを提示しています。

Yihe Deng, I-Hung Hsu, Jun Yan, Zifeng Wang, Rujun Han, Gufeng Zhang, Yanfei Chen, Wei Wang, Tomas Pfister, Chen-Yu Lee

公開日 2026-03-02
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🍳 背景:AI が直面する「2 つのジレンマ」

まず、現在の AI(特に小さなモデル)が抱えている 2 つの悩みがあります。

  1. 真似だけする「SFT(教師あり学習)」の限界
    • 例え話: 料理のレシピ(正解)を丸ごとコピーさせて練習させる方法です。
    • 問題点: 学生は「レシピの文字を一字一句、間違えずに写す」ことばかりに集中してしまいます。結果、「なぜこの工程が必要なのか?」という理屈(思考プロセス)を理解できず、少し違う材料が出たらパニックになってしまいます。
  2. 試行錯誤する「強化学習(RL)」の限界
    • 例え話: 料理を作らせて、最後に「美味しいか?(正解か?)」だけをチェックして褒める・叱る方法です。
    • 問題点: 難易度が高い料理(数学の難問など)だと、AI が何回試しても**「美味しい料理」が一度も作れません**。
    • 結果: 「褒めるポイント(正解)」が全くないため、AI は「どうすればいいかわからない」という状態で学習が止まってしまいます。

🚀 解決策:新しい方法「SRL(監督付き強化学習)」

この論文が提案したのは、**「正解のレシピを、一工程ずつ分解して、その都度コーチングする」**という新しい方法です。

🏃‍♂️ 具体的な仕組み:3 つのステップ

この方法は、以下の 3 つの要素を組み合わせています。

  1. 正解を「ステップ」に分解する
    • 長い料理のレシピ(正解)を、「①玉ねぎを切る」「②鍋に油を引く」「③炒める」といった**小さな工程(アクション)**に切り分けます。
  2. 「内なる独り言」を許す
    • AI は、次の工程を実行する前に、**「よし、まずは玉ねぎを切ろうか。でも、まずは包丁の準備からだな…」という思考プロセス(内なる独り言)**を自由に考えさせます。
    • ここが重要!AI は「思考」は自由にできますが、**「実際の行動(次の工程)」**は、プロの料理人(正解のデータ)がやったことと似ているかどうかをチェックされます。
  3. 工程ごとに「フィードバック」を与える
    • 最終的な「美味しい料理」ができるかどうかも重要ですが、**「玉ねぎを切った段階で、切り方が正解と似ているか?」**を即座にチェックして点数(報酬)を与えます。
    • もし最終的な答えが間違っても、「玉ねぎを切る工程」は正しかったなら**「そこは素晴らしい!」**と褒めてあげます。

💡 なぜこれがすごいのか?

  • 失敗しても学習できる: 最終的な答えが間違っても、途中の工程が正しければ「部分的な成功」を評価してくれるので、AI は諦めずに学習を続けられます。
  • 柔軟な思考ができる: 「思考プロセス(独り言)」は自由なので、AI は正解のレシピをただコピーするのではなく、**「自分なりの考え方を組み立てながら」**正解の行動に近づけるようになります。

📊 結果:小さな AI が劇的に成長

この方法を実験したところ、以下のような成果が出ました。

  • 数学の問題: 難問を解くテストで、従来の方法(ただコピーさせる、または最終結果だけ褒める)よりも、はるかに高い正解率を達成しました。
  • プログラミング: 複雑なバグ修正タスクでも、他の AI よりも上手にコードを直せるようになりました。
  • 最強の組み合わせ: 「SRL で基礎を固めた後、さらに強化学習(最終結果で褒める)を行う」という手順を踏むと、最強の AIが生まれました。

🎯 まとめ:どんなイメージ?

この論文の核心は、**「AI に『答え』を丸投げするのではなく、『道筋』を一緒に歩かせて、足元の石(ステップ)が正しいかどうかを常にチェックしながら、最終的なゴールにたどり着かせる」**という教育法です。

  • 従来の方法: 「答え合わせ」か「丸写し」しかしない。
  • 新しい方法(SRL): 「コーチが横について、『次はここをこうしようね』と一歩ずつガイドしながら、生徒が自分で考えながら進める」

これにより、小さな AI でも、これまで解けなかったような難しい問題に挑戦し、賢くなれるようになったのです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →