NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

Each language version is independently generated for its own context, not a direct translation.

1. 従来の方法：「成功レシピ」だけ memorize する（教師あり学習）

これまでの AI の勉強法（教師あり学習）は、**「正解の料理レシピ」**だけを徹底的に覚えることに重点を置いていました。

やり方: 先生（人間や強い AI）が「これは正解！」という料理を見せて、「これを真似しなさい」と教えます。
問題点: AI は「正解」は覚えますが、「なぜ自分の作った料理がまずかったのか（失敗）」については考えません。「失敗した料理はゴミ箱に捨てて、正解だけを繰り返す」だけなので、失敗から学んで成長する機会を逃していました。

2. 最近の流行：「試行錯誤」で強くなる（強化学習）

最近、AI が劇的に賢くなったのは、**「強化学習（RL）」**という方法のおかげです。

やり方: AI 自身に料理を作らせ、味見をして「美味しい（正解）か、まずい（不正解）か」を判定します。
- 美味しい → 「よし、次もこの味！」と褒める。
- まずい → 「ダメだ、次は変えよう」と叱る。
特徴: 正解だけでなく、「まずかった経験（失敗）」からも学び、自分自身で改善していくことができます。しかし、この方法は計算コストが非常に高く、複雑な「先生（報酬モデル）」が必要になることが多いです。

3. この論文の提案：「失敗も教材にする」新しい勉強法（NFT）

この論文の著者たちは、**「強化学習でなくても、失敗から学ぶことはできる！」と主張しています。彼らが提案したのが「NFT（Negative-aware Fine-Tuning）」**です。

NFT のすごいところはここです：

ゴミ箱をなくす: 従来の「正解だけ覚える」方法では、失敗した料理（不正解の答え）は捨てていました。でも NFT では、**「失敗した料理も、どうしてまずかったかを分析する教材として使う」**のです。
一人二役の先生: AI は自分自身で料理を作り、同時に「自分自身を先生役」にして、失敗した料理を分析します。「この失敗は、正解のレシピからどれくらい遠ざかっていたか？」を計算し、その距離を縮めるように修正します。
コストが安い: 複雑な外部の先生（強化学習の報酬モデル）が不要で、AI 自身だけで「正解」と「不正解」の両方を使って学習できます。

4. 驚きの発見：「実は同じ道を行っていた」

論文の中で最も面白い発見は、「NFT（新しい勉強法）」と「GRPO（最新の強化学習）」は、実は同じゴールにたどり着くための、異なるルートだったという点です。

数学的に証明したところ、「正解率が高い状態で学習している時（オンポリシー）」、この 2 つの方法は全く同じ動きをすることがわかりました。
つまり、「失敗から学ぶ（NFT）」というシンプルな考え方が、実は「複雑な強化学習」と同じくらい強力だったのです。

5. 結果：どうなった？

実験: 7 億パラメータと 320 億パラメータの AI モデルで数学の問題を解かせてテストしました。
結果:
- 従来の「正解だけ覚える方法（RFT）」よりも、NFT の方が圧倒的に上手になりました。
- 複雑な強化学習（GRPO や DAPO）と比べても、同等か、それ以上の性能を出しました。
- 特に、「大きなモデル（32B）」になるほど、失敗から学ぶことの重要性が増すことがわかりました。

まとめ

この論文は、**「AI を賢くするには、正解を覚えるだけでなく、失敗を分析して『なぜダメだったか』を学ぶことが重要」**と教えてくれます。

これまでの常識は「失敗は捨てて、正解だけを繰り返せばいい」というものでしたが、NFT という新しい方法で**「失敗も教材として有効活用」**することで、AI はより自律的に、そして効率的に数学などの難しい問題を解けるようになりました。

一言で言えば：

「正解を覚えるだけでなく、失敗した料理の味見をして『次はこうしよう』と考えることで、AI が一人前のシェフに成長する新しいトレーニング法」

これが、この論文が伝えたい「失敗から学ぶ（Negative-aware）」の魔法です。

Each language version is independently generated for its own context, not a direct translation.

この論文「NFT: BRIDGING SUPERVISED LEARNING AND REINFORCEMENT LEARNING IN MATH REASONING（数学推論における教師あり学習と強化学習の架け橋）」は、大規模言語モデル（LLM）の数学推論能力を向上させるための新しい手法「Negative-aware Fine-Tuning（NFT）」を提案し、従来の「教師あり学習（SL）」と「強化学習（RL）」の境界を理論的・実証的に埋め合わせた研究です。

以下に、問題設定、手法、主要な貢献、結果、そして意義について詳細にまとめます。

1. 問題設定と背景

近年、LLM の数学推論能力の飛躍的な向上は、人間の注釈や強力なモデルからの回答に依存する「模倣学習」から、正解/不正解の二値検証器（Verifier）を用いてモデル自身が生成した回答を評価・改善する「自己改善（Self-improvement）」へのパラダイムシフトによって実現されました。

現状の課題:
- 強化学習（RL）: PPO や GRPO などのアルゴリズムは、二値の報酬信号（正解/不正解）を活用してモデルを最適化するのに適しており、現在の主流となっています。
- 教師あり学習（SL）: 従来の SL（特に Rejection Fine-Tuning: RFT）は、正解データのみでモデルを微調整し、不正解データを破棄するアプローチをとります。これにより、モデルは「すでにできること」を強化しますが、「失敗から学び、反省する（Reflect on mistakes）」能力が欠如しており、RL に比べて性能が劣ると考えられてきました。
研究の問い: 「自己改善は RL の専売特許なのか？」という通説に挑戦し、教師あり学習の枠組み内でも、RL と同等の「失敗からの学習」を実現できるかを問うています。

2. 提案手法：Negative-aware Fine-Tuning (NFT)

NFT は、生成された不正解（ネガティブ）データを捨てずに、暗黙的な「ネガティブ方策（Implicit Negative Policy）」としてモデル化し、正解データと合わせて直接方策最適化を行う教師あり学習アルゴリズムです。

核心的なアイデア:
- 正解データ $D^+$ と不正解データ $D^-$ を同時に利用します。
- 正解方策 $\pi^+$ と不正解方策 $\pi^-$ は、元の生成方策 $\pi_{old}$ と正解率 $r_q$ を介して密接に結合していることを利用します（式 7: $r_q \pi^+ + (1-r_q)\pi^- = \pi_{old}$ ）。
- この関係式を逆手に取り、正解方策 $\pi^+_\theta$ を最適化パラメータとして定義し、不正解データ $D^-$ に対して尤度最大化（Maximum Likelihood）を行うことで、間接的に $\pi^+_\theta$ を更新します。
アルゴリズムの仕組み:
1. データ収集: モデルが問題に対して複数の回答を生成し、検証器で正解/不正解を判定。
2. 損失関数: 正解データに対しては通常のクロスエントロピー損失を、不正解データに対しては「暗黙的なネガティブ方策」の尤度を最大化する損失（式 9, 10）を適用します。
3. 実装上の工夫:
  - トークンレベルでの損失計算による分散の低減。
  - ネガティブ尤度比のクリッピング（ $\epsilon$ ）と、勾配を保持するための Straight-through 推定を用いた安定化。
  - 難易度の高い問題（正解率が低い問題）に重み付けを行うことで、学習効率を向上。

3. 主要な貢献と理論的発見

この論文の最大の貢献は、SL と RL の理論的等価性を示した点にあります。

NFT と GRPO の等価性:
- 厳密なオンポリシー（On-policy）トレーニング条件下において、提案手法 NFT と強化学習アルゴリズム GRPO（Group Relative Policy Optimization）の勾配が数学的に等価であることを証明しました（Proposition 4.2）。
- GRPO の特徴である「グループ正規化されたアドバンテージ（Normalized Advantage）」は、NFT の損失関数に暗黙的に含まれていることが示されました。
- 両者の主な違いは、オフポリシー（Off-policy）時の勾配クリッピング戦略のみにあり、理論的基盤が異なっていても、二値フィードバック学習システムでは本質的に同じ最適化を行っていることを示唆しています。
SL と RL の架け橋:
- 教師あり学習でも、適切な負のフィードバックの活用により、強化学習と同等の自己改善が可能であることを実証しました。

4. 実験結果

Qwen2.5-Math-7B および 32B モデルを用いて、数学推論タスク（AIME, MATH500, OlympiadBench など）で評価を行いました。

性能:
- NFT は、従来の SL ベースラインである RFT を大幅に上回りました。
- 最先进の RL アルゴリズムである GRPO や DAPO と同等、あるいはそれ以上の性能を達成しました（7B モデルでは DAPO を上回る結果も）。
- 特に大規模モデル（32B）において、RFT と NFT の性能差が顕著に広がりました。これは、大規模モデルでは「正解の暗記」が十分に行われているため、「失敗からの反省（ネガティブデータの活用）」が性能向上のボトルネックとなることを示唆しています。
探索性:
- RFT は学習が進むにつれてエントロピーが低下（過剰な収束）する傾向がありましたが、NFT と RL 手法はエントロピーを維持・増加させ、探索を促進することが確認されました。

5. 意義と結論

理論的意義: 「教師あり学習は単なる模倣であり、失敗から学べない」という従来の通説を覆し、SL と RL が二値フィードバック環境では理論的に等価であることを示しました。これにより、両者の分野間の概念格差が埋められました。
実用的意義:
- 複雑な RL 実装（報酬モデルの学習、PPO の安定化など）を必要とせず、単一のモデルを維持するだけで（メモリ効率が良い）、RL と同等の高性能な自己改善を実現できます。
- 外部の教師や高価なデータ注釈に依存せず、モデル自身が生成したネガティブデータを活用することで、汎用的な知能への道筋を示唆しています。

結論として、NFT は「失敗から学ぶ」という能力を教師あり学習の枠組みに組み込むことに成功し、数学推論タスクにおいて強化学習と同等、あるいはそれ以上の成果を上げました。これは、LLM の自己改善における SL と RL の境界を再定義する重要な研究です。

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

1. 従来の方法：「成功レシピ」だけ memorize する（教師あり学習）

2. 最近の流行：「試行錯誤」で強くなる（強化学習）

3. この論文の提案：「失敗も教材にする」新しい勉強法（NFT）

4. 驚きの発見：「実は同じ道を行っていた」

5. 結果：どうなった？

まとめ

1. 問題設定と背景

2. 提案手法：Negative-aware Fine-Tuning (NFT)

3. 主要な貢献と理論的発見

4. 実験結果

5. 意義と結論

関連論文

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics