Each language version is independently generated for its own context, not a direct translation.

🍳 結論：AI に「考える力」を教えるには、メニューを分けるのが正解！

これまでの AI 研究では、「正解がすぐにわかる問題（数学やプログラミング）」を解かせるために、AI に「試行錯誤（強化学習）」させるのが流行っていました。しかし、この論文は**「普通の科学や一般教養（STEM）」の分野では、いきなり試行錯誤させるのは非効率で、まず「知識を教える（教師あり学習）」段階が絶対に必要だ**と発見しました。

そして、「簡単な問題は先生に教える（SFT）」、**「難しい問題は自分で試行錯誤させる（RL）」**というように、問題の難易度に合わせてトレーニングのメニューを分けることで、AI の性能が劇的に向上することを証明しました。

🏫 具体的な仕組み：3 つのステップ

この新しい方法「DeReason」は、以下の 3 つのステップで動きます。

1. 問題の「難易度」を判定する（レシピの選別）

まず、AI が解くべき問題集を、別の AI（先生）にチェックさせます。

レベル 1〜3（簡単）： 知識を思い出せば解ける問題（例：「水の化学式は？」）。
レベル 4〜5（難問）： 複雑な論理や推理が必要な問題（例：「この物理現象を説明し、応用問題を解け」）。

2. 簡単な問題は「先生」に教える（SFT：教師あり学習）

イメージ： 料理の基礎を学ぶ「見習い」の段階。
やり方： 知識が必要な簡単な問題は、優秀な先生（既存の AI）が作った「正解のレシピ」をそのまま見せて、AI に覚えさせます。
理由： 知識を暗記させるには、正解を見せるのが一番早くて効率的だからです。ここで無理に「試行錯誤」させると、AI は混乱して非効率になります。

3. 難しい問題は「自分で試行錯誤」させる（RL：強化学習）

イメージ： 料理の修行を積んだ「料理人」が、新しい創作料理に挑戦する段階。
やり方： 基礎知識を身につけた AI に、あえて「難問」だけを渡します。正解がわからないまま、自分で考え、間違えても修正し、正解に近づいたら褒めます。
理由： 複雑な論理思考は、正解を教えるだけでは身につかないことが多いです。自分で試行錯誤する過程で、AI は「考える癖」を身につけます。

🎯 なぜこれがすごいのか？（これまでの方法との違い）

これまでの方法には、2 つの「間違ったアプローチ」がありました。

「全部を先生に教える」だけの場合：
- AI は知識は増えますが、複雑な問題を自分で論理的に考える力が育ちません。
- 例：料理のレシピを全部暗記したが、新しい食材を前にすると何も作れない。
「全部を自分で試行錯誤させる」だけの場合：
- 基礎知識がない状態で試行錯誤しても、AI は迷子になり、学習効率が非常に低いです。
- 例：包丁の握り方も知らないまま、いきなり高級料理を作ろうとして失敗し続ける。

DeReason のすごい点：
「基礎は先生に教える」「応用は自分で考える」という役割分担を、問題の難易度という基準でうまく切り替えることで、両方のメリットを最大限に引き出しました。

📊 実験結果：どう変わった？

数学や科学のテスト： 従来の方法（全部 SFT、または全部 RL）よりも、この「難易度分け」をした方が、テストの点数が明らかに上がりました。
特に難問： 知識だけでなく、論理的な思考が求められる難しい問題では、その差が顕著でした。
無駄の排除： 簡単な問題で AI に「試行錯誤」させる無駄な時間を省き、難しい問題に集中させることで、学習コストも下がりました。

💡 まとめ

この論文が伝えているのは、**「AI に『考える力』を身につけさせるには、一度に全部を教えるのではなく、段階と難易度に合わせて『教えること』と『やらせること』を上手に使い分けるべき」**ということです。

まるで、子供に勉強を教えるとき、「計算はドリルで反復練習（SFT）」させ、「応用問題は自分で考えさせる（RL）」させるのと同じ理屈です。この「DeReason」という考え方は、今後の AI 開発において、より賢く効率的な AI を作るための重要な指針になるでしょう。

Each language version is independently generated for its own context, not a direct translation.

DeReason: 一般推論のための難易度認識型カリキュラムによる SFT と RL の分離学習

本論文「DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning」は、大規模言語モデル（LLM）の一般 STEM（科学・技術・工学・数学）分野における推論能力の向上を目指し、教師あり微調整（SFT）と強化学習（RL）の役割分担とデータ配分戦略を体系的に検討した研究です。

以下に、論文の技術的概要を問題定義、手法、主要な貢献、結果、意義の観点から詳述します。

1. 問題定義と背景

近年、数学やコード分野において「検証可能な報酬を用いた強化学習（RLVR）」が LLM の推論能力を飛躍的に向上させることが実証されています（例：OpenAI o1, DeepSeek-R1）。しかし、これらの成功がより広範な一般 STEM 分野（物理学、化学、生物学など）にそのまま適用できるか、また SFT と RL の組み合わせがどのように機能すべきかは未解明でした。

既存の課題:

SFT と RL の役割の不明確さ: 多くのパイプラインは「SFT 後に RL」を行うが、どのデータをどの段階で使うべきか（ランダム分割か、難易度に基づく分割か）が体系的に研究されていなかった。
ベースモデルへの直接 RL の非効率性: 一般 STEM 分野において、ベースモデルに直接 RL を適用すると、サンプル効率が極めて低く、適切な SFT を行ったモデルよりも性能が劣ることが示唆された。
知識と推論の混同: 一般推論には「知識の想起（事実の記憶）」と「複雑な推論（多段階の導出）」の両方が必要だが、これらを混同したデータセットで学習させることが非効率である可能性があった。

2. 提案手法：DeReason

著者らは、**「難易度に基づくデータ分離（Difficulty-Based Data Decoupling）」**という新しいカリキュラム学習戦略「DeReason」を提案しました。この手法はアルゴリズムの変更ではなく、データ選択のレベルで SFT と RL の役割を最適化するものです。

2.1 基本的なアプローチ

DeReason は、トレーニングデータを「推論強度（Reasoning Intensity）」に基づいて 2 つのサブセットに分割し、それぞれを異なる学習フェーズに割り当てます。

難易度推定（Difficulty Estimation）:
- 各トレーニング問題に対して、LLM（ここではポリシーモデルと同サイズの Qwen3-4B-Instruct）を用いて 1〜5 のスコアで難易度を評価します。
- 評価基準には、推論ステップ数、前提となるドメイン知識、誤りの可能性などが含まれます。
- スコア 1-3（低難易度）: 知識の想起や単純な事実の適用が主となる問題。
- スコア 4-5（高難易度）: 多段階の導出や複雑な推論を必要とする問題。
データ分割（Data Partitioning）:
- SFT 用データセット ( $D_{SFT}$ ): 難易度が低い（推論強度が低い）データを割り当てます。これらは「広範なドメイン知識」を定着させるために使用されます。
- RL 用データセット ( $D_{RL}$ ): 難易度が高い（推論強度が高い）データを割り当てます。これらは「複雑な推論パスの探索」や「教師の模倣を超えた能力の引き出し」に使用されます。
カリキュラム学習（Curriculum Training）:
- フェーズ 1 (SFT): $D_{SFT}$ を用いてベースモデルを微調整し、基礎的な知識と推論の枠組みを構築します。
- フェーズ 2 (RL): SFT で微調整されたモデルを初期値とし、 $D_{RL}$ に対して強化学習（GRPO）を適用します。

3. 主要な発見と貢献

3.1 制御実験による SFT と RL の役割の解明

著者らは、同じ問題セットに対して「純粋な SFT」と「純粋な RL」を比較する制御実験を行いました。

発見: 数学および一般 STEM 分野の両方において、ベースモデルに直接 RL を適用するよりも、中程度の品質の回答を用いた SFT の方が、トレーニングデータ量が増えるにつれて一貫して高い性能を示しました。
理由: SFT は中程度の解を直接模倣することで効率的に知識を習得できますが、RL はノイズの多い探索を通じて推論パスを発見する必要があり、ベースモデルには負荷が大きいことが示されました。
結論: SFT は「知識の蒸留とコールドスタート」に、RL は「推論の限界の拡張」にそれぞれ特化した役割を持つことが示されました。

3.2 DeReason の有効性

ランダム分割との比較: データを無作為に分割して SFT-RL を行う場合と比較し、難易度に基づいて分離した DeReason 戦略が、すべてのベンチマークで顕著な性能向上をもたらしました。
4B モデルでの成果: 40 億パラメータ規模のモデル（Qwen3-4B）において、SFT のみ、RL のみ、またはランダム分割のベースラインを凌駕する結果を得ました。

3.3 詳細な行動分析

トレーニングダイナミクスに関する分析により、以下の知見が得られました。

応答長さの進化: SFT チェックポイントから RL を開始すると、モデルは冗長な生成を抑制し、特に高スコアな出力において応答長が短縮される傾向がありました（効率化）。
エントロピーの低下: ベースモデルから直接 RL を行う場合、エントロピーが急激に低下し決定論的な方策へ収束しますが、SFT 初期化モデルはより穏やかに変化します。
難易度による報酬の差異: 高難易度データ（スコア 4-5）に対してのみ RL を適用することで、モデルの推論能力が最も効果的に向上することが確認されました。

4. 実験結果

評価ベンチマーク:

一般推論: MMLU-Pro, GPQA-Diamond, SuperGPQA, BBEH
数学推論: AIME24, AIME25, MATH500

主要な結果:

一般 STEM 分野: WebInstruct-Verified および Webscale-RL データセットを用いた実験において、DeReason（SFT 易 + RL 難）は、SFT のみ、RL のみ、およびランダム分割のベースラインをすべて上回りました。
- 例：WebInstruct-Verified 上での平均スコアは、SFT のみ (41.8) や RL のみ (37.6) に対し、DeReason は 43.8 を記録しました。
数学分野: 同様に、AIME や MATH500 においても、SFT 後に高難易度データで RL を行うことで、ベースラインを凌駕する性能（例：MATH500 で 88.1）を達成しました。
難易度による効果の差異: 比較的易しいベンチマーク（MMLU-Pro など）では SFT のみとの差は小さいか逆転することもありましたが、高度な推論を必要とする難易度の高いベンチマーク（BBEH, GPQA-Diamond）では、DeReason の優位性が顕著に現れました。

5. 意義と結論

本論文の意義は以下の点に集約されます。

一般推論における SFT と RL の役割の再定義: 数学分野での「RL 万能論」に対し、一般 STEM 分野では SFT が知識基盤の構築に不可欠であり、RL はその上で複雑な推論を磨くための補完的な役割であることを実証しました。
アルゴリズムに依存しないデータ戦略: 既存のアルゴリズム改良（Huang et al., 2025 など）と直交するアプローチとして、データ選択の最適化だけで大幅な性能向上を達成できることを示しました。
実用的なポストトレーニングレシピ: 計算リソースが限られる環境でも適用可能な、シンプルかつ効果的な「SFT（易）→ RL（難）」というカリキュラム学習の枠組みを提供しました。

結論として、DeReason は、一般 STEM 分野における LLM の推論能力を最大化するための、体系的かつ実用的なデータ配分戦略として、今後の大規模モデルのトレーニングパイプラインに重要な指針を与えるものです。

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning