DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

この論文は、一般 STEM 分野における推論能力の向上のために、LLM による難易度評価に基づいて学習データを「推論集約型」と「非推論集約型」に分割し、前者を強化学習(RL)に、後者を教師あり微調整(SFT)に割り当てる「DeReason」というカリキュラム学習手法を提案し、従来のランダム分割や単一手法よりも優れた性能を実証したものです。

Hanxu Hu, Yuxuan Wang, Maggie Huan, Jannis Vamvas, Yinya Huang, Zhijiang Guo, Rico Sennrich

公開日 2026-03-13
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🍳 結論:AI に「考える力」を教えるには、メニューを分けるのが正解!

これまでの AI 研究では、「正解がすぐにわかる問題(数学やプログラミング)」を解かせるために、AI に「試行錯誤(強化学習)」させるのが流行っていました。しかし、この論文は**「普通の科学や一般教養(STEM)」の分野では、いきなり試行錯誤させるのは非効率で、まず「知識を教える(教師あり学習)」段階が絶対に必要だ**と発見しました。

そして、「簡単な問題は先生に教える(SFT)」、**「難しい問題は自分で試行錯誤させる(RL)」**というように、問題の難易度に合わせてトレーニングのメニューを分けることで、AI の性能が劇的に向上することを証明しました。


🏫 具体的な仕組み:3 つのステップ

この新しい方法「DeReason」は、以下の 3 つのステップで動きます。

1. 問題の「難易度」を判定する(レシピの選別)

まず、AI が解くべき問題集を、別の AI(先生)にチェックさせます。

  • レベル 1〜3(簡単): 知識を思い出せば解ける問題(例:「水の化学式は?」)。
  • レベル 4〜5(難問): 複雑な論理や推理が必要な問題(例:「この物理現象を説明し、応用問題を解け」)。

2. 簡単な問題は「先生」に教える(SFT:教師あり学習)

  • イメージ: 料理の基礎を学ぶ「見習い」の段階。
  • やり方: 知識が必要な簡単な問題は、優秀な先生(既存の AI)が作った「正解のレシピ」をそのまま見せて、AI に覚えさせます。
  • 理由: 知識を暗記させるには、正解を見せるのが一番早くて効率的だからです。ここで無理に「試行錯誤」させると、AI は混乱して非効率になります。

3. 難しい問題は「自分で試行錯誤」させる(RL:強化学習)

  • イメージ: 料理の修行を積んだ「料理人」が、新しい創作料理に挑戦する段階。
  • やり方: 基礎知識を身につけた AI に、あえて「難問」だけを渡します。正解がわからないまま、自分で考え、間違えても修正し、正解に近づいたら褒めます。
  • 理由: 複雑な論理思考は、正解を教えるだけでは身につかないことが多いです。自分で試行錯誤する過程で、AI は「考える癖」を身につけます。

🎯 なぜこれがすごいのか?(これまでの方法との違い)

これまでの方法には、2 つの「間違ったアプローチ」がありました。

  1. 「全部を先生に教える」だけの場合:
    • AI は知識は増えますが、複雑な問題を自分で論理的に考える力が育ちません。
    • 例: 料理のレシピを全部暗記したが、新しい食材を前にすると何も作れない。
  2. 「全部を自分で試行錯誤させる」だけの場合:
    • 基礎知識がない状態で試行錯誤しても、AI は迷子になり、学習効率が非常に低いです。
    • 例: 包丁の握り方も知らないまま、いきなり高級料理を作ろうとして失敗し続ける。

DeReason のすごい点:
「基礎は先生に教える」「応用は自分で考える」という役割分担を、問題の難易度という基準でうまく切り替えることで、両方のメリットを最大限に引き出しました。

📊 実験結果:どう変わった?

  • 数学や科学のテスト: 従来の方法(全部 SFT、または全部 RL)よりも、この「難易度分け」をした方が、テストの点数が明らかに上がりました。
  • 特に難問: 知識だけでなく、論理的な思考が求められる難しい問題では、その差が顕著でした。
  • 無駄の排除: 簡単な問題で AI に「試行錯誤」させる無駄な時間を省き、難しい問題に集中させることで、学習コストも下がりました。

💡 まとめ

この論文が伝えているのは、**「AI に『考える力』を身につけさせるには、一度に全部を教えるのではなく、段階と難易度に合わせて『教えること』と『やらせること』を上手に使い分けるべき」**ということです。

まるで、子供に勉強を教えるとき、「計算はドリルで反復練習(SFT)」させ、「応用問題は自分で考えさせる(RL)」させるのと同じ理屈です。この「DeReason」という考え方は、今後の AI 開発において、より賢く効率的な AI を作るための重要な指針になるでしょう。