Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

この論文は、強化学習(RL)が既存の能力の維持に優れる一方、教師あり微調整(SFT)が新たな知識の習得に有効であるという相補性を活かし、難問への対応時に高品質な解答でオンライン微調整を交互に行う「ReLIFT」という新たな学習手法を提案し、RL や SFT 単独よりも少ないデータで競争レベルのベンチマークにおいて顕著な性能向上を実現したことを示しています。

Lu Ma, Hao Liang, Meiyi Qiang, Lexiang Tang, Xiaochen Ma, Zhen Hao Wong, Junbo Niu, Chengyu Shen, Runming He, Yanhao Li, Bin Cui, Wentao Zhang

公開日 2026-03-12
📖 2 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

論文の解説:AI が「できないこと」を学ぶための新しい方法

〜「ReLIFT」という、賢い先生と経験豊富なコーチのタッグ〜

この論文は、最近話題の「AI(大規模言語モデル)」が、数学や論理的な問題を解く能力を高めるための、画期的なトレーニング方法「ReLIFT」を紹介しています。

これまでの AI のトレーニングには大きな壁がありました。それをどう乗り越えたのか、日常の例えを使ってわかりやすく解説します。


1. 従来の問題点:「コーチ」だけでは限界がある

AI を育てるには、主に 2 つの方法があります。

  1. SFT(教師あり微調整): 正解の答えと解説付きの「模範解答」を大量に見せて、「こう解くんだよ」と教える方法。

    • 特徴: 全く新しい知識や、AI がまだ知らない難しい問題を教えるのに役立ちます。
    • 弱点: 模範解答が手に入らないと教えられないし、教えたことしかできなくなる(応用が利かない)ことがあります。
  2. RL(強化学習): 正解したら褒め、間違ったら叱る「試行錯誤」の方法。

    • 特徴: 自分で考えて正解する力を養い、応用が利くようになります。
    • 弱点: 「自分がすでに知っていること」しか学べないという大きな欠点があります。AI が「これは解けない」と判断した問題は、どんなに試行錯誤しても正解にたどり着けません。

【例え話】

  • SFTは「天才的な先生」です。新しい公式を教えますが、生徒が「先生、この問題解けません」と言うと、先生が教えてくれなければ生徒は永遠に解けません。
  • RLは「経験豊富なスポーツコーチ」です。生徒が自分で練習して上達しますが、生徒が「この技は自分には無理だ」と思い込んでいると、コーチがいくら「やってみろ」と言っても、生徒は新しい技を習得できません。

これまでの AI は、この「コーチ(RL)」の練習ばかりしていました。そのため、「AI 自身が『無理だ』と判断した難問」を解けるようにはならなかったのです。


2. 新手法「ReLIFT」の登場:2 人の指導者が交代で教える

この論文が提案する**「ReLIFT」は、この 2 つの長所を組み合わせ、「AI がつまずいた瞬間」にだけ先生(SFT)を呼ぶ**という、とても賢いシステムです。

仕組みのイメージ:「難問バッファ(溜め池)」

  1. コーチの練習(RL): AI はまず、自分で問題を解こうと試行錯誤します(強化学習)。
  2. つまずきの発見: AI が「これは解けない!」と判断して失敗した**「超難問」**を見つけます。
  3. 先生の介入(SFT): その瞬間、システムは「この問題は AI には無理だ」と判断し、「正解の解説(模範解答)」をその場で用意します。
  4. 交代で学習: 難問が一定数溜まると、コーチの練習を一時停止し、先生がその「難問の解説」を AI に教えます。
  5. 繰り返す: 教わった AI は、またコーチのもとに戻り、次の難問に挑戦します。

【例え話】
Imagine you are learning to play a difficult piano piece.

  • Coach (RL): You practice alone, trying to figure out the notes. You get stuck on a super hard part.
  • Teacher (SFT): Instead of you banging on the keys forever, a teacher steps in only for that specific hard part, shows you exactly how to play it, and then you go back to practicing on your own.
  • ReLIFT: This is the system where the teacher only comes in when you are truly stuck, making your practice time super efficient.

このように、**「AI ができることはコーチに、AI ができないことは先生に」**と役割分担することで、AI は自分の限界を超えて成長できるのです。


3. なぜこれがすごいのか?

この方法には、驚くべき 3 つのメリットがあります。

  • ① 驚異的な成績: 数学の難問や、見たことのない問題(未知の分野)でも、これまでの最高記録を大幅に更新しました。
  • ② 時間とコストの節約: 従来の方法のように、最初から何万もの「模範解答」を用意する必要がありません。AI が必要とする「難問の解説」だけを、必要な分だけ集めればよいからです。
  • ③ 答えが簡潔になる: 従来の AI は、正解するために無駄な長文を生成しがちでしたが、ReLIFT を使った AI は、よりシンプルで的確な答えを出せるようになりました。

4. まとめ

この論文が伝えているのは、**「AI を強くするには、ただ練習させるだけではダメで、『できないこと』をピンポイントで教えてあげることが重要だ」**ということです。

「ReLIFT」は、AI が「わからない」と言っている瞬間に、人間(またはより賢い AI)が「ここはこうだよ」と教えてあげる、**「賢いハイブリッドな教育システム」**です。

これにより、AI は単に「知っていること」を繰り返すだけでなく、「新しい知識」を吸収して、人間が思いつかないような複雑な問題も解けるようになる可能性があります。まるで、「経験豊富なコーチ」と「天才的な先生」がタッグを組んで、生徒を天才に育て上げるようなものです。