LLMs Can Learn to Reason Via Off-Policy RL

本論文は、推論ポリシーとトレーニングポリシーの間の遅延を前提としたオフポリシーな強化学習アルゴリズム「OAPL」を提案し、従来の手法よりも少ない生成回数で数学およびコーディングベンチマークにおいて優れた性能とテスト時のスケーラビリティを実現することを示しています。

Daniel Ritter, Owen Oertell, Bradley Guo, Jonathan Chang, Kianté Brantley, Wen Sun

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🍳 核心となる話:料理教室の「ズレ」を味方につける

1. 従来の方法(GRPO):完璧な同期を求めすぎて疲弊する

これまでの AI 学習(GRPO など)は、以下のような**「完璧な料理教室」**を想定していました。

  • 先生(トレーナー): 新しい料理のレシピを考案する人。
  • 生徒(推論エンジン): 実際に料理を作る人。

従来のやり方は、「先生がレシピを書いたら、すぐに生徒がそれを見て料理を作り、その結果を先生が即座にチェックして、次のレシピに反映する」という**「完全な同期」**を強要していました。

しかし、現実の AI 学習では、先生と生徒が別の部屋(異なるコンピューター)にいることが多く、通信に時間がかかったり、生徒が少し前の古いレシピで料理を作っていたりします。

  • 問題点: 「先生と生徒のレシピがズレている!」と怒って、生徒が作った料理を捨てたり、無理やり補正したりしていました。これでは学習が遅く、計算コストも高くつきます。

2. 新しい方法(OAPL):「ズレ」を許容して、むしろ活用する

この論文が提案するOAPLという新しい方法は、**「ズレていても大丈夫!むしろそのズレを利用しよう!」**という発想の転換です。

  • 新しいアプローチ:
    • 先生(新しいレシピ)と生徒(古いレシピで料理)の間に**「タイムラグ(ズレ)」があっても、生徒が作った料理を「捨てずに」**そのまま評価に使います。
    • 先生は「生徒が古いレシピで料理を作った結果」を見て、「もし私が今のレシピでやったらどうなるか?」を数学的に推測して学習します。
    • これにより、先生と生徒を頻繁に合わせ直す必要がなくなります。生徒は止まることなく料理を続け、先生も止まることなく学習を進められます。

3. 具体的なメリット:3 倍速く、同じ結果を達成

この「ズレを許容する」方法(OAPL)を実際に試したところ、驚くべき結果が出ました。

  • 数学クイズ(難問): 従来の方法(GRPO)よりも高い正解率を達成。
  • プログラミング: 有名なコード生成 AI(DeepCoder)と同等の性能を、学習に使うデータ量(料理の試作回数)を 3 分の 1 に減らして達成しました。
  • 安定性: 先生と生徒のズレが400 ステップ分(非常に大きなタイムラグ)あっても、学習が崩壊せず安定して進みました。

🌟 なぜこれが重要なのか?(日常への応用)

この研究は、AI の開発現場に以下のような大きな変化をもたらします。

  1. コストの劇的削減:
    これまで「同期を取るために待たされていた時間」や「ズレを修正するために捨てていたデータ」が不要になります。つまり、同じ性能の AI を作るのに、必要な計算資源(電気代や時間)が大幅に減ります。
  2. より賢い AI の誕生:
    従来の方法では「正解」だけを重視して、AI の思考の幅(多様性)が狭まってしまうことがありました。しかし、OAPL は「ズレたデータ」も活用するため、AI が**「正解」だけでなく「多様な解き方」を学べるようになり**、より柔軟で賢い思考ができるようになります。
  3. 大規模化への道:
    世界中の何千台ものコンピューターを使って AI を学習させる際、通信の遅延を気にする必要がなくなります。これにより、より巨大で強力な AI を、より効率的に作れるようになります。

📝 まとめ

この論文は、**「AI に考えさせるには、先生と生徒を常に同じ部屋にいて、同じタイミングで動く必要はない」**と教えてくれました。

むしろ、**「生徒が少し前の知識で料理を作っても、先生はそれを上手に評価して教えることができる」という、より現実的で効率的な学習スタイル(OAPL)を開発しました。これにより、AI の学習は「3 倍速く、3 倍安く、そして以前より賢く」**なる可能性があります。

まるで、料理教室で「生徒が少し前のレシピで失敗しても、先生がそれを活かして次のレシピを改良する」という、無駄を省いたスマートな教育システムが完成したようなものです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →