Each language version is independently generated for its own context, not a direct translation.

難しい問題を「一人で」解けるようにする AI の新しい教え方

～「Scaf-GRPO」という画期的なトレーニング法～

この論文は、人工知能（AI）が数学や論理パズルのような「難しい問題」を解く力を身につけるための、新しいトレーニング方法を紹介しています。

これまでの AI の学習には大きな壁がありました。それを「学習の崖（ラーニング・クリフ）」と呼びます。
新しい方法「Scaf-GRPO（スケイフォールド・グループ・リレーティブ・ポリシー・オプティマイゼーション）」は、この壁を乗り越えるために、**「教育の scaffolding（足場かけ）」**という考え方を AI に応用しました。

1. 問題点：AI が「壁」にぶつかる現象

想像してみてください。あなたが全く知らない難問に挑戦しているとします。

試行錯誤する → 失敗する。
もう一度試す → また失敗する。
100 回試しても → すべて失敗する。

このとき、AI は「正解」を一つも得られません。AI の学習システムは「正解＝報酬（ご褒美）」で動いているため、**「ご褒美が 0 点のまま」**の状態が続き、AI は「どうすればいいかわからない」という状態で学習が止まってしまいます。

これを**「学習の崖」**と呼びます。AI はこの崖にぶつかると、その問題が「自分には不可能だ」と判断して、そこで学習を放棄してしまいます。

2. 解決策：「足場（Scaffolding）」をかける

この論文のアイデアは、**「AI が一人で解決できないときは、先生が少しだけヒントを出してあげよう」**というものです。

ここで重要なのは、**「答えを全部教えてはいけない」**という点です。
例えば、数学の問題で「答えは 5 です」と言ってしまうと、AI は「答えを暗記」してしまい、本当の「解き方」を学びません。

代わりに、**「足場（Scaffolding）」**という考え方を採用します。
これは、建設現場で高いビルを建てる時に使う「足場」のようなものです。

建物が自立するまで、足場で支えてあげる。
建物が強くなってきたら、足場を少しずつ外していく。
最終的には、足場なしでも自立して立つことができるようにする。

3. Scaf-GRPO の仕組み：3 つの段階でヒントを出す

この新しい方法は、AI が「真に難しい問題（本物の難問）」にぶつかったときだけ、以下の 3 つの段階でヒントを出します。

知識のヒント（抽象的）
- 「この問題は『平均と中央値』の公式を使えば解けるよ」という大まかな方向性だけ教えます。
- 例：「このパズルは、パズルのピースを組み合わせるコツを知っていれば解けるよ」
計画のヒント（戦略的）
- 「まず A を計算して、次に B を使う手順で進めよう」という手順の概要を教えます。
- 例：「まずは一番大きなピースから並べてみて、それから隙間を埋めていこう」
解決のヒント（具体的）
- 「ここで X という値を代入して計算しなさい」という具体的な計算ステップを教えます。
- 例：「この数字をここに当てはめて、足し算をしてね」

「最小限のヒント」を探す
AI は、まず「知識のヒント」だけで解けるか試します。もしダメなら「計画のヒント」を追加し、それでもダメなら「解決のヒント」まで出します。
**「一番抽象的なヒント（知識のヒント）だけで正解できた」**場合、AI はその「ご褒美」をもらいます。
これにより、AI は「答えを丸暗記」するのではなく、「ヒントを頼りに自分で考え抜く力」を身につけるようになります。

4. なぜこれがすごいのか？

答えを教えないので、AI が「考える」力を身につける
従来の方法では、先生が答えの前半部分を書いて「続きを書いて」と言うことが多かったのですが、それだと AI は「先生の続きを真似する」だけで終わってしまいます。
Scaf-GRPO は、AI が「自分で考え始める」ためのきっかけ（足場）だけを与えるので、AI の**「独創的な思考力」**が育ちます。
「できない」問題を「できる」に変える
以前は「AI には無理だ」と諦められていた難しい問題も、この方法なら AI が自力で解けるようになり、学習が止まることがなくなります。

5. 実験結果：劇的な向上

この方法を使って、数学のオリンピックレベルの問題を解く AI を訓練したところ、驚くべき結果が出ました。

従来の方法（ヒントなし）：正解率が 30% 程度。
新しい方法（Scaf-GRPO）：正解率が**43.3%**に向上（相対的に 44.3% の改善）。

これは、AI が「できない」と思っていた問題の壁を乗り越え、**「自分自身で解決する力」**を大幅に高めたことを意味します。

まとめ：AI 教育の未来

この論文が伝えているのは、**「AI に難しいことを教えるときは、答えを全部与えるのではなく、少しだけヒントを出して、自分で考えさせるのが一番効果的だ」**ということです。

まるで、子供が自転車に乗る練習をするとき、親が「バランスを取るコツ」だけ教えて、子供が自分で漕ぎ出すのを待つのと同じです。
この「Scaf-GRPO」という方法は、AI が人間のように、難しい問題に立ち向かい、自力で解決する能力を身につけるための、非常に賢く、優しいトレーニング法なのです。

Each language version is independently generated for its own context, not a direct translation.

Scaf-GRPO: 大規模言語モデルの推論能力向上のための「足場付き」グループ相対方策最適化

技術的サマリー（日本語）

本論文は、ICLR 2026 にて発表された「Scaf-GRPO (Scaffolded Group Relative Policy Optimization)」という新しいトレーニングフレームワークを提案するものです。これは、検証可能な報酬に基づく強化学習（RLVR）における「学習の崖（Learning Cliff）」という根本的な課題を解決し、大規模言語モデル（LLM）の複雑な推論能力、特に数学的推論を飛躍的に向上させることを目的としています。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細にまとめます。

1. 背景と問題定義：学習の崖（Learning Cliff）

現在の LLM の推論能力向上には、最終的な正解のみを報酬とする「検証可能な報酬からの強化学習（RLVR）」が広く用いられています（例：DeepSeek-R1）。しかし、このアプローチには重大な限界があります。

学習の崖現象: モデルが現在の能力を大きく超える難問に直面した際、すべての試行が失敗し、報酬が常に「0」になります。
勾配の消失: GRPO（Group Relative Policy Optimization）などのアルゴリズムでは、報酬の平均と標準偏差に基づいて「アドバンテージ（学習勾配）」を計算します。グループ内のすべての報酬が 0 の場合、アドバンテージも 0 となり、方策の更新が行われなくなります。
結果: 難問は学習プロセスから「不可視」となり、モデルはこれらの問題から学ぶことができません。これが「学習の崖」と呼ばれる停滞状態です。

既存の解決策として「教師モデルからのオフポリシーガイダンス（正解のプレフィックスを提供し、残りを生成させる）」がありますが、これには以下の問題があります。

分布の不一致: 教師が生成したプレフィックスと学生モデルが生成したサフィックスの間に分布のズレが生じ、学習の不安定さを招く。
探索の制限: 事前に決められた経路を強制するため、モデルが独自の革新的な推論戦略を発見する探索能力が阻害される。

2. 提案手法：Scaf-GRPO

Scaf-GRPO は、教育心理学の「足場（Scaffolding）」理論（学習者の成長に伴い支援を徐々に減らす手法）を RLVR に応用したフレームワークです。

2.1 核心的なアイデア

モデルが独立して解決できない「真に難しい（True-Hard）」問題に対してのみ、プロンプト内に段階的なヒントを注入します。これは「正解のプレフィックス」ではなく、「抽象的な概念から具体的な手順まで」のヒントであり、モデル自身が解決策を構築する余地を残します。これにより、方策の一貫性を保ちつつ、探索の自由度を維持します。

2.2 2 フェーズのトレーニングプロセス

フェーズ 1：ガイダンス免除期間（Guidance Exemption Period）
- トレーニング初期（実験では 15%）は、ヒントを与えずにモデルに純粋なオンポリシー探索をさせます。
- 目的: モデルが自力で解決できる「疑似的に難しい（Pseudo-Hard）」問題と、本当に能力不足の「真に難しい」問題を区別するためです。早期にヒントを与えると、モデルがヒントに依存するようになり、自律的な学習が阻害されるのを防ぎます。
フェーズ 2：階層的ヒント誘導探索（Hierarchical Hint-Guided Exploration）
- フェーズ 1 後に依然として失敗し続ける問題（真に難しい問題）に対して、以下の 3 段階のヒント階層 $H = \{H_{knowledge}, H_{planning}, H_{solution}\}$ $H = {H_{k n o w l e d g e}, H_{pl annin g}, H_{so l u t i o n}}$ を使用します。
  - Knowledge Hint: 必要な概念や公式の提示（最も抽象的）。
  - Planning Hint: 高レベルな戦略的枠組みの提示。
  - Solution Hint: 具体的な計算ステップの提示（最も具体的）。
- 漸進的探索アルゴリズム: 最も抽象的なヒントから順に注入し、モデルが正解を生成するまで段階的に具体化します。モデルが自力で解けるレベルのヒント（最小限の支援）で正解できれば、その軌跡を学習データとして採用します。

2.3 オンポリシーの維持と損失関数

データ拡張アプローチ: Scaf-GRPO は損失関数そのものを変更するのではなく、学習バッチを条件付きで拡張します。
バッチ置換: すべて失敗したバッチ $G$ において、ヒント付きプロンプトで正解した軌跡 $o^*_h$ を、ランダムに選んだ失敗軌跡 $o_j$ と置換し、拡張バッチ $G_{final}$ を作成します。
方策の一貫性: ヒント付き軌跡も現在のポリシー $\pi_\theta$ からサンプリングされるため、オフポリシー手法のような重み付け補正（Importance Sampling）は不要です。これにより、分布の不一致による不安定さを回避し、安定した学習勾配を復元します。

3. 主要な貢献

学習の崖の克服: 既存の RLVR が直面する「勾配消失」問題を、足場付きのオンポリシーガイダンスによって解決しました。
探索の自律性維持: 正解のプレフィックスを強制するのではなく、ヒントを「道標」として機能させ、モデルが独自の推論経路を発見できるようにしました。
モデル非依存の汎用性: 異なるアーキテクチャ（Qwen, Llama）、サイズ（1.5B〜7B）、専門性（数学特化、Long-CoT）を持つモデルすべてで有効であることを実証しました。

4. 実験結果

評価ベンチマーク: AIME24/25, AMC, MATH-500, OlympiadBench, Gaokao2023, GPQA-Diamond (OOD) など。

主要な成果（Qwen2.5-Math-7B）:
- AIME24: Vanilla GRPO 対して 44.3% の相対改善（30.0% → 43.3%）。
- 平均スコア: Vanilla GRPO (45.2%) や、先行するプレフィックスベースの手法 LUFFY (46.6%) を上回り、50.9% を達成。
- LUFFY 対比: プレフィックスベースの手法（LUFFY）に対して 9.2% の相対改善。これは、足場アプローチがプレフィックス継続アプローチよりも効果的であることを示しています。
一般化能力:
- OOD 性能: 訓練データとは異なる分野（GPQA-Diamond）でも、Vanilla GRPO に対して 15.5% の改善を示し、真の推論能力の向上を裏付けました。
- Long-CoT モデル: DeepSeek-R1-Distill-Qwen-1.5B などの長推論モデルに対しても有効でした。
効率性:
- ヒント誘導がトリガーされるのはサンプルの約 17.4% だけであり、計算リソースの大部分は標準生成に費やされます。
- 最適性能に達するまでの時間を Vanilla GRPO より短縮（13 時間→12 時間）しました。
アブレーション研究:
- フェーズ 1 の必要性: 免除期間を設けないと性能が低下し、モデルがヒントに依存することが確認されました。
- 階層構造の重要性: 抽象から具体への漸進的なヒント（K→P→S）が、単一の解決策ヒントよりも優れていることが示されました。

5. 意義と結論

Scaf-GRPO は、LLM の推論能力の限界を突破するための重要なステップです。

理論的意義: 「学習の崖」という RLVR の根本的な制約を、オフポリシーの不安定さを招くことなく克服する手法を提供しました。
実用的意義: 以前はモデルの能力圏外だった難問を、モデル自身が解決可能な課題へと変換し、自律的な推論のフロンティアを拡大します。
教育的視点: 単なる答えの提供ではなく、学習プロセスを支援する「足場」の概念を AI 学習に応用し、モデルの長期的な能力定着を促進します。

本フレームワークは、数学的推論に限らず、検証可能な報酬が存在するあらゆる複雑な推論タスクにおいて、モデルの自律的な学習能力を最大化する有望なアプローチとして位置づけられます。

Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning