Each language version is independently generated for its own context, not a direct translation.

論文の解説：AI が「できないこと」を学ぶための新しい方法

〜「ReLIFT」という、賢い先生と経験豊富なコーチのタッグ〜

この論文は、最近話題の「AI（大規模言語モデル）」が、数学や論理的な問題を解く能力を高めるための、画期的なトレーニング方法「ReLIFT」を紹介しています。

これまでの AI のトレーニングには大きな壁がありました。それをどう乗り越えたのか、日常の例えを使ってわかりやすく解説します。

1. 従来の問題点：「コーチ」だけでは限界がある

AI を育てるには、主に 2 つの方法があります。

SFT（教師あり微調整）: 正解の答えと解説付きの「模範解答」を大量に見せて、「こう解くんだよ」と教える方法。
- 特徴: 全く新しい知識や、AI がまだ知らない難しい問題を教えるのに役立ちます。
- 弱点: 模範解答が手に入らないと教えられないし、教えたことしかできなくなる（応用が利かない）ことがあります。
RL（強化学習）: 正解したら褒め、間違ったら叱る「試行錯誤」の方法。
- 特徴: 自分で考えて正解する力を養い、応用が利くようになります。
- 弱点: 「自分がすでに知っていること」しか学べないという大きな欠点があります。AI が「これは解けない」と判断した問題は、どんなに試行錯誤しても正解にたどり着けません。

【例え話】

SFTは「天才的な先生」です。新しい公式を教えますが、生徒が「先生、この問題解けません」と言うと、先生が教えてくれなければ生徒は永遠に解けません。
RLは「経験豊富なスポーツコーチ」です。生徒が自分で練習して上達しますが、生徒が「この技は自分には無理だ」と思い込んでいると、コーチがいくら「やってみろ」と言っても、生徒は新しい技を習得できません。

これまでの AI は、この「コーチ（RL）」の練習ばかりしていました。そのため、「AI 自身が『無理だ』と判断した難問」を解けるようにはならなかったのです。

2. 新手法「ReLIFT」の登場：2 人の指導者が交代で教える

この論文が提案する**「ReLIFT」は、この 2 つの長所を組み合わせ、「AI がつまずいた瞬間」にだけ先生（SFT）を呼ぶ**という、とても賢いシステムです。

仕組みのイメージ：「難問バッファ（溜め池）」

コーチの練習（RL）: AI はまず、自分で問題を解こうと試行錯誤します（強化学習）。
つまずきの発見: AI が「これは解けない！」と判断して失敗した**「超難問」**を見つけます。
先生の介入（SFT）: その瞬間、システムは「この問題は AI には無理だ」と判断し、「正解の解説（模範解答）」をその場で用意します。
交代で学習: 難問が一定数溜まると、コーチの練習を一時停止し、先生がその「難問の解説」を AI に教えます。
繰り返す: 教わった AI は、またコーチのもとに戻り、次の難問に挑戦します。

【例え話】
Imagine you are learning to play a difficult piano piece.

Coach (RL): You practice alone, trying to figure out the notes. You get stuck on a super hard part.
Teacher (SFT): Instead of you banging on the keys forever, a teacher steps in only for that specific hard part, shows you exactly how to play it, and then you go back to practicing on your own.
ReLIFT: This is the system where the teacher only comes in when you are truly stuck, making your practice time super efficient.

このように、**「AI ができることはコーチに、AI ができないことは先生に」**と役割分担することで、AI は自分の限界を超えて成長できるのです。

3. なぜこれがすごいのか？

この方法には、驚くべき 3 つのメリットがあります。

① 驚異的な成績: 数学の難問や、見たことのない問題（未知の分野）でも、これまでの最高記録を大幅に更新しました。
② 時間とコストの節約: 従来の方法のように、最初から何万もの「模範解答」を用意する必要がありません。AI が必要とする「難問の解説」だけを、必要な分だけ集めればよいからです。
③ 答えが簡潔になる: 従来の AI は、正解するために無駄な長文を生成しがちでしたが、ReLIFT を使った AI は、よりシンプルで的確な答えを出せるようになりました。

4. まとめ

この論文が伝えているのは、**「AI を強くするには、ただ練習させるだけではダメで、『できないこと』をピンポイントで教えてあげることが重要だ」**ということです。

「ReLIFT」は、AI が「わからない」と言っている瞬間に、人間（またはより賢い AI）が「ここはこうだよ」と教えてあげる、**「賢いハイブリッドな教育システム」**です。

これにより、AI は単に「知っていること」を繰り返すだけでなく、「新しい知識」を吸収して、人間が思いつかないような複雑な問題も解けるようになる可能性があります。まるで、「経験豊富なコーチ」と「天才的な先生」がタッグを組んで、生徒を天才に育て上げるようなものです。

Each language version is independently generated for its own context, not a direct translation.

論文「LEARNING WHAT REINFORCEMENT LEARNING CAN'T: INTERLEAVED ONLINE FINE-TUNING FOR HARDEST QUESTIONS」の技術的サマリー

本論文は、大規模言語モデル（LLM）の推論能力を向上させるための新たなトレーニング戦略「ReLIFT（Reinforcement Learning Interleaved with Online Fine-Tuning）」を提案するものです。強化学習（RL）と教師あり微調整（SFT）の相補的な特性を分析し、両者を動的に組み合わせることで、既存の知識の最適化だけでなく、モデルの限界を超える新しい推論能力の獲得を可能にしています。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細にまとめます。

1. 問題定義と背景

近年、OpenAI o シリーズや DeepSeek-R1 などの推論モデルは、検証可能な報酬を用いた大規模強化学習（RLVR）によって、複雑な推論能力（Chain-of-Thought など）を獲得しました。しかし、現在の RLVR には以下のような根本的な限界があります。

既存知識の最適化に留まる: RL はモデルが既に持っている知識や推論パスを強化する傾向があり、モデルの能力範囲を超えた「新しい推論スキル」や「知識」を習得させることが苦手です。
探索の抑制: RL は報酬が得られる確実なパスに収束しやすく、複雑なタスクにおける探索が抑制され、性能が頭打ちになることがあります。
SFT の限界: 一方、高品質なデモンストレーションデータを用いた教師あり微調整（SFT）は新しい知識の注入に有効ですが、大量の高品質データが必要であり、分布外（OOD）の汎化性能が低い傾向があります。

核心となる課題:
「どのように RL と SFT を効果的に組み合わせることで、モデルの既存能力を維持しつつ、限界を超える難問への対応力を獲得し、かつ高価なデモンストレーションデータへの依存を減らすことができるか？」

2. 手法：ReLIFT

著者らは、RL と SFT のトレーニングダイナミクスを分析し、以下の重要な知見を得ました。

RL: 比較的易しい問題や、モデルが既に解ける問題の精度向上に優れる。
SFT: モデルの現在の能力を超えている「最も難しい（Hardest）」問題に対して、新しい推論パターンを学習させるのに有効である。ただし、簡単な問題に対して SFT を行うと、既存の性能が低下したり、回答が冗長になったりする。

この知見に基づき提案されたのが ReLIFT です。

2.1 アーキテクチャとフロー

ReLIFT は、主に RL（GRPO アルゴリズム）でトレーニングを行いながら、オンラインで収集された「難問」に対して SFT をインターリーブ（交互）させるフレームワークです。

RL 実行と難問の特定:
- GRPO によるロールアウト（試行）を行い、各質問に対するモデルの回答を生成・評価します。
- 正解率が 0（モデルが全く解けない）であるような「最も難しい質問」を特定します。
高品質解の収集（オンライン）:
- 特定された難問に対して、より強力なモデル（例：DeepSeek-R1）や人間のアノテーターから高品質な CoT（思考連鎖）解答 $s$ を取得します。
- 不正解の CoT をフィルタリングし、信頼性の高い $(q, s)$ ペアを構築します。
バッファへの蓄積:
- これらの難問のペアを BufferFT に蓄積します。
インターリーブ微調整（SFT）:
- バッファ内のデータ量が閾値 $M$ に達したら、そのデータを用いて 1 ステップの SFT を実行します。
- SFT の損失関数には、モデルの探索行動を制限しすぎないよう、エントロピー正則化項が追加されます。
- 学習の初期段階では SFT の頻度を高め、モデルが成長するにつれて RL への比重を調整する適応的なスケジュールを採用しています。

3. 主要な貢献

RL と SFT のトレーニングダイナミクスに関する体系的な分析:
- 問題の難易度（Easy, Medium, Hard, Hardest）ごとの精度変化を追跡し、RL が既存能力の洗練に、SFT が限界を超える能力の獲得にそれぞれ特化していることを実証しました。
ReLIFT フレームワークの提案:
- 難問に対してのみターゲットを絞ったオンライン SFT を RL と交互に行うことで、モデルの弱点をリアルタイムで補強する新しいトレーニング戦略を提案しました。
SOTA 性能と効率性の両立:
- 数学推論ベンチマークおよび分布外（OOD）タスクにおいて、既存の RLVR 手法や SFT、ハイブリッド手法を凌駕する性能を達成しつつ、必要なデモンストレーションデータ量と GPU 時間を大幅に削減しました。

4. 実験結果

4.1 ベンチマーク性能

Qwen2.5-Math-7B をベースモデルとして、5 つの数学推論ベンチマーク（AIME 2024/2025, AMC, OlympiadBench, MATH500）と 1 つの OOD ベンチマーク（MMLU-Pro）で評価を行いました。

総合精度: ReLIFT は 52.6% の精度を達成し、既存の RLVR 手法（SimpleRL-Zero, OpenReasoner-Zero など）や SFT、SFT+RL の組み合わせ手法（LUFFY, SFT then RL など）をすべて上回りました。
個別ベンチマーク: 全てのベンチマークで最高または 2 番目の成績を記録し、高い汎化能力を示しました。
回答の簡潔さ: ReLIFT は他の手法に比べて回答トークン数が短く（平均 3502 トークン）、効率的な推論を実現しています。

4.2 リソース効率

デモンストレーションデータ: 46k のデータセットを用いる SFT 系手法に対し、ReLIFT は約 8k の高品質データのみで同等以上の性能を達成しました。
トレーニング時間: 必要な GPU 時間を大幅に削減（SFT 系と比較して約半分以下）しました。

4.3 汎用性とアブレーション

モデル規模: Qwen2.5-Math-1.5B や Llama-3.1-8B などの異なるアーキテクチャやサイズのモデルでも、SFT や単独の RL を上回る結果を得ており、手法の汎用性が高いことが確認されました。
アブレーション研究:
- 難問に焦点を当てたデータ選択（Hardest questions）と、学習段階に応じた SFT の頻度調整が性能向上に不可欠であることを示しました。
- 単に RL と SFT を交互に行うだけでは性能が低下し、戦略的な組み合わせが重要であることが分かりました。

5. 意義と結論

本論文は、LLM の推論能力向上において、**「RL は既存の能力を磨き、SFT は新しい能力を獲得させる」**という役割分担を明確にし、これを動的に統合する ReLIFT を提案しました。

理論的意義: RL が抱える「探索の抑制」や「既存知識のループ」という限界を、ターゲットを絞った SFT によって克服するメカニズムを提示しました。
実用的意義: 高価で大量のデモンストレーションデータに依存せず、モデルが直面する「解けない問題」に対してのみ高品質な解答を注入することで、コスト効率よく高性能な推論モデルを構築できることを実証しました。

ReLIFT は、計算リソースとデータ効率のバランスを最適化し、LLM の推論能力を現在の限界からさらに引き上げるための強力なパラダイムとして位置づけられています。

Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions