NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

本論文は、生成された誤答を「負のポリシー」として活用し、教師あり学習の枠組みで強化学習と同等以上の数学推論能力を達成する新たな手法「Negative-aware Fine-Tuning (NFT)」を提案し、教師あり学習と強化学習の間の理論的・実証的ギャップを埋めることを示しています。

Huayu Chen, Kaiwen Zheng, Qinsheng Zhang, Ganqu Cui, Lifan Yuan, Yin Cui, Haotian Ye, Tsung-Yi Lin, Ming-Yu Liu, Jun Zhu, Haoxiang Wang

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

1. 従来の方法:「成功レシピ」だけ memorize する(教師あり学習)

これまでの AI の勉強法(教師あり学習)は、**「正解の料理レシピ」**だけを徹底的に覚えることに重点を置いていました。

  • やり方: 先生(人間や強い AI)が「これは正解!」という料理を見せて、「これを真似しなさい」と教えます。
  • 問題点: AI は「正解」は覚えますが、「なぜ自分の作った料理がまずかったのか(失敗)」については考えません。「失敗した料理はゴミ箱に捨てて、正解だけを繰り返す」だけなので、失敗から学んで成長する機会を逃していました。

2. 最近の流行:「試行錯誤」で強くなる(強化学習)

最近、AI が劇的に賢くなったのは、**「強化学習(RL)」**という方法のおかげです。

  • やり方: AI 自身に料理を作らせ、味見をして「美味しい(正解)か、まずい(不正解)か」を判定します。
    • 美味しい → 「よし、次もこの味!」と褒める。
    • まずい → 「ダメだ、次は変えよう」と叱る。
  • 特徴: 正解だけでなく、「まずかった経験(失敗)」からも学び、自分自身で改善していくことができます。しかし、この方法は計算コストが非常に高く、複雑な「先生(報酬モデル)」が必要になることが多いです。

3. この論文の提案:「失敗も教材にする」新しい勉強法(NFT)

この論文の著者たちは、**「強化学習でなくても、失敗から学ぶことはできる!」と主張しています。彼らが提案したのが「NFT(Negative-aware Fine-Tuning)」**です。

NFT のすごいところはここです:

  • ゴミ箱をなくす: 従来の「正解だけ覚える」方法では、失敗した料理(不正解の答え)は捨てていました。でも NFT では、**「失敗した料理も、どうしてまずかったかを分析する教材として使う」**のです。
  • 一人二役の先生: AI は自分自身で料理を作り、同時に「自分自身を先生役」にして、失敗した料理を分析します。「この失敗は、正解のレシピからどれくらい遠ざかっていたか?」を計算し、その距離を縮めるように修正します。
  • コストが安い: 複雑な外部の先生(強化学習の報酬モデル)が不要で、AI 自身だけで「正解」と「不正解」の両方を使って学習できます。

4. 驚きの発見:「実は同じ道を行っていた」

論文の中で最も面白い発見は、「NFT(新しい勉強法)」と「GRPO(最新の強化学習)」は、実は同じゴールにたどり着くための、異なるルートだったという点です。

  • 数学的に証明したところ、「正解率が高い状態で学習している時(オンポリシー)」、この 2 つの方法は全く同じ動きをすることがわかりました。
  • つまり、「失敗から学ぶ(NFT)」というシンプルな考え方が、実は「複雑な強化学習」と同じくらい強力だったのです。

5. 結果:どうなった?

  • 実験: 7 億パラメータと 320 億パラメータの AI モデルで数学の問題を解かせてテストしました。
  • 結果:
    • 従来の「正解だけ覚える方法(RFT)」よりも、NFT の方が圧倒的に上手になりました。
    • 複雑な強化学習(GRPO や DAPO)と比べても、同等か、それ以上の性能を出しました。
    • 特に、「大きなモデル(32B)」になるほど、失敗から学ぶことの重要性が増すことがわかりました。

まとめ

この論文は、**「AI を賢くするには、正解を覚えるだけでなく、失敗を分析して『なぜダメだったか』を学ぶことが重要」**と教えてくれます。

これまでの常識は「失敗は捨てて、正解だけを繰り返せばいい」というものでしたが、NFT という新しい方法で**「失敗も教材として有効活用」**することで、AI はより自律的に、そして効率的に数学などの難しい問題を解けるようになりました。

一言で言えば:

「正解を覚えるだけでなく、失敗した料理の味見をして『次はこうしよう』と考えることで、AI が一人前のシェフに成長する新しいトレーニング法」

これが、この論文が伝えたい「失敗から学ぶ(Negative-aware)」の魔法です。