Scaling Reasoning Efficiently via Relaxed On-Policy Distillation

本論文は、教師モデルからの報酬を柔軟に活用する「REOPOLD」というフレームワークを提案し、オンポリシー蒸留の不安定さを解消するとともに、数学や視覚、エージェントタスクにおいて従来の強化学習手法を凌駕するサンプル効率と推論時のスケーリング性能を実現することを示しています。

Jongwoo Ko, Sara Abdali, Young Jin Kim, Tianyi Chen, Pashmina Cameron

公開日 2026-03-13
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

小さな頭脳を「天才」の思考法で育てる:REOPOLD の仕組み

この論文は、**「小さな AI(学生)に、巨大な AI(先生)の『考える力』をいかに効率的に、かつ安定して教えるか」**という問題を解決する新しい方法「REOPOLD」について書かれています。

まるで、**「天才的な数学者の思考プロセスを、小学生に教える」**ような場面を想像してください。


1. 従来の問題点:「真似しすぎ」の罠

これまでの方法(オンポリシー蒸留)では、学生 AI は先生 AI の答えを**「ただひたすら真似」**しようとしていました。
しかし、これには 2 つの大きな問題がありました。

  • 問題 A:「間違っているのに、無理やり真似させられる」

    • アナロジー: 先生が「この問題は 3 だ」と言っているのに、学生が「いや、これは 2 じゃないかな?」と少し違う答えを出したとします。従来の方法では、先生が「バカ!」と激しく怒り(強い罰)、学生は「2」という考え方を完全に捨ててしまいます。
    • 結果: 学生は「2」という可能性を失い、思考の幅が狭まってしまいます。これを**「エントロピーの崩壊(思考の多様性の消失)」**と呼びます。
  • 問題 B:「無駄な練習に時間を浪費」

    • アナロジー: 先生と学生が「1+1=2」という簡単な部分で意見が一致している場合、従来の方法では「正解だ!」と何度も練習させられます。でも、これは学生にとってすでにわかっていることなので、**「学習効果はゼロ」**なのに、計算リソースだけ消費してしまいます。

2. 新手法「REOPOLD」の 3 つの魔法

REOPOLD は、この「ただの真似」を「賢い指導」に変える 3 つの工夫をしています。

① 罰の「上限」を決める(Reward Clipping)

  • 仕組み: 先生が学生を怒るとき、**「怒りの強さに上限」**を設けます。
  • アナロジー: 先生が「お前、バカだ!」と叫んでも、その叫び声の音量(罰の強さ)が一定以上にならないように制限します。
  • 効果: 学生が「2」という答えを出したとき、先生が「100 点満点で 0 点!」と極端に怒るのを防ぎます。これにより、学生は「2」という可能性を完全に捨てずに済みます。思考の多様性が守られ、安定して学習できます。

② 「重要な瞬間」だけ教える(Entropy-Guided Sampling)

  • 仕組み: 先生と学生の意見が**「ぶつかり合う(迷っている)瞬間」**だけを学習のターゲットにします。
  • アナロジー:
    • 「1+1=2」のような簡単な問題は、**「スキップ(飛ばし)」**します。
    • 「この複雑な図形、どう解くんだ?」と学生が迷い、先生も「うーん、ここは難しいな」と考えるような**「高エントロピー(混乱度が高い)」な瞬間**だけ、先生は「こう考えたらいいよ」と指導します。
  • 効果: 無駄な練習を省き、「本当に必要な部分」に集中して学習できるため、「サンプル効率(少ないデータで学ぶ力)」が 6〜12 倍に向上しました。

③ 「探索」と「洗練」の 2 段階トレーニング

  • 仕組み: 学習を 2 つのフェーズに分けます。
    1. 探索フェーズ(冒険): 最初は「どんな答えが出ても OK」として、学生に自由に考えさせます。先生は「間違っても怒らない」ようにします。
    2. 洗練フェーズ(磨き上げ): 慣れてきたら、先生は「ここは間違っているよ」と厳しく指導し、正解への道筋を絞り込みます。
  • アナロジー:
    • 最初は**「自由な発想でアイデア出し」**(アイデアが枯渇しないように)。
    • 後から**「プロのチェック」**(質を高める)。
  • 効果: 最初から厳しくしすぎると思考が止まってしまうのを防ぎ、最終的に高い精度を達成します。

3. 実際の成果:小さなモデルが巨人に追いつく

この方法を使うと、驚くべき結果が生まれました。

  • 数学の問題: 従来の方法より6.7 倍〜12 倍少ないデータで、同じレベルの性能を達成しました。
  • 視覚推理(図形やグラフ): 320 億パラメータという「巨人」の先生 AI に匹敵する性能を、70 億パラメータの「小柄な」学生 AIが達成しました。
    • スピードアップ: 答えを出すまでの時間が、従来の方法より3.3 倍速くなりました。
    • アナロジー: 「巨人の先生と同じくらい賢い答え」を、「小さな子供が、巨人より速く、少ないエネルギーで」導き出せるようになったのです。

まとめ

REOPOLD は、**「AI に『思考』を教える際、ただ真似させるのではなく、先生と学生の『思考のズレ』を賢く利用する」**という新しいアプローチです。

  • 怒りすぎない(罰の制限)
  • 無駄な練習を省く(重要な瞬間だけ教える)
  • まずは自由に考えさせる(探索フェーズ)

この 3 つの工夫により、小さな AI でも、大きな AI に負けない「考える力」を、効率的に身につけることができるようになりました。これは、高性能な AI を安価で高速に使えるようになるための重要な一歩です。