Each language version is independently generated for its own context, not a direct translation.

この論文は、人工知能（AI）が難しい数学の問題を解く力を身につけるための新しいトレーニング方法「REAL」を紹介しています。

これまでの方法には「先生（AI）が生徒（AI）を指導する際、教え方が少し間違っていた」という問題があり、それを解決するアイデアです。

わかりやすく、3 つのポイントで説明します。

1. 従来の方法（GRPO）の「あるある」な失敗

まず、これまでの主流だったトレーニング方法（GRPO）を想像してみてください。
これは**「正解の答えが 1 個、不正解の答えが 9 個あるクイズ」**を AI に解かせて、正解したグループを褒め、不正解のグループを叱るというやり方です。

しかし、この方法には 2 つの大きな「教え方のミス」がありました。

ミス①：「もうできている子」にばかり勉強をさせる（正解への誤配分）
- 状況: すでに正解に近い答えを出している AI に対して、先生は「すごい！もっともっと！」と大げさに褒めちぎります。
- 問題: でも、実は「正解に近いけど、まだ少し違う」という一番頑張っている（難しい）部分は、先生に無視されてしまいます。「もうできてるから大丈夫」と思われ、改善のチャンスが逃げてしまうのです。
ミス②：「自信過剰な失敗」が暴走する（不正解への支配）
- 状況: 間違っているのに「俺は 100% 正解だ！」と自信過剰に間違えた答えを出した AI に対して、先生は「バカ！バカ！」と激しく叱ります。
- 問題: この叱り方が強すぎて、他の「少し間違えたけど、勉強になるような答え」の声が聞こえなくなります。自信過剰な失敗が先生を支配し、学習がバランスを崩してしまいます。

2. 新しい方法「REAL」のアイデア：「正解・不正解」を「ラベル」として見る

この論文の著者たちは、「報酬（点数）」を「数字」ではなく、「ラベル（シール）」として捉え直そうと考えました。

従来の考え方: 「正解なら +100 点、不正解なら -100 点」という数字の重みで指導する。
REAL の考え方: 「正解なら『○』のシール、不正解なら『×』のシール」を貼る分類ゲームにする。

これを**「分類（クラス分け）」の問題**として捉え直すことで、AI の学習プロセスを以下のように変えました。

「○」のシール（正解）: できるだけ「○」の領域に押し上げる。
「×」のシール（不正解）: できるだけ「×」の領域に押し下げる。

3. なぜ「REAL」がすごいのか？（アンカー・ロジットの魔法）

ここで、**「アンカー（基準点）」**という魔法の道具を使います。

基準点（0 点）を置く: 正解と不正解の真ん中に「0 点」という基準線を引きます。
正解は「0 点より上」へ: 正解の答えは、0 点より上に引き上げます。
不正解は「0 点より下」へ: 不正解の答えは、0 点より下に押し下げます。

この仕組みのおかげで、以下の 2 つのメリットが生まれます。

バランスの取れた指導:
- すでに高い位置にある正解（自信満々な正解）は、これ以上上げすぎないように自然と抑えられます。
- 逆に、低い位置にある正解（難しい正解）は、しっかり引き上げられます。
- 自信過剰な不正解が暴走しても、0 点という壁で止めることができるため、他の学習を邪魔しません。
安定した学習:
- 先生が感情的になりすぎず（叱りすぎたり褒めすぎたりしない）、常に一定の範囲で指導できるため、AI がパニックになったり、学習が止まったりすることがなくなります。

結論：何が起きたの？

この新しい方法「REAL」を使って実験したところ、以下の成果がありました。

数学のテストで高得点: 1.5B パラメータ（中型）のモデルで、従来の最強の方法より6.7% 以上スコアが向上しました。7B パラメータ（大型）でも同様に勝利しました。
安定した成長: 学習の途中で AI が混乱したり、成績が落ち込んだりする「エンタロピー・クラッシュ（燃え尽き）」が起きず、ずっと安定して成長しました。

一言で言うと：
「AI に『正解・不正解』を教えるとき、点数の大小で騒ぐのではなく、『○か×か』を分類するゲームとしてシンプルに捉え直したところ、AI がより賢く、安定して成長できるようになった」という画期的な発見です。

Each language version is independently generated for its own context, not a direct translation.

論文要約：Rewards as Labels: Revisiting RLVR from a Classification Perspective

この論文は、大規模言語モデル（LLM）の推論能力向上における「検証可能報酬を用いた強化学習（RLVR）」の手法、特に GRPO（Group Relative Policy Optimization）とその派生手法が抱える根本的な課題を指摘し、それを分類問題として再定式化した新しいフレームワーク**REAL（Rewards as Labels）**を提案するものです。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細をまとめます。

1. 背景と問題定義

RLVR は、数学的推論やコード生成など、明確な正解が検証可能なタスクにおいて、人間のフィードバック（RLHF）に依存せず、ルールベースの報酬関数を用いてモデルを微調整する有効な手法として注目されています。特に GRPO は、DeepSeek-R1 などの高性能モデルで採用され、高い実績を上げています。

しかし、著者らは GRPO 型の手法が以下の2 つの根本的な勾配（Gradient）の不一致に起因する非効率性と不安定性を抱えていると指摘しました。

ポジティブサンプルにおける勾配の誤配当（Gradient Misassignment in Positives）:
- 正解（報酬=1）のロールアウトにおいて、現在のポリシーで既に確率が高いトークン（自信がある部分）には過剰な勾配が与えられ、逆に確率が低いトークン（難しい部分）には勾配が弱められる傾向があります。
- 結果として、改善が必要な「難しい正解」への学習信号が弱まり、最適化が不十分になります。
ネガティブサンプルにおける勾配の支配（Gradient Domination in Negatives）:
- 不正解（報酬=0）のロールアウトにおいて、勾配の大きさが無制限に増大し、確率が高いトークン（自信がある誤答）が更新を支配してしまいます。
- これにより、他の重要な情報を持つトークンの貢献が抑圧され、外れ値に敏感になり、トレーニングが不安定になります。

これらの問題は、特に「難しいトークン」において顕著であり、効率的なクレジット割り当てを阻害し、局所最適解への早期収束や不安定な学習を引き起こします。

2. 提案手法：REAL (Rewards as Labels)

著者らは、検証可能報酬をスカラー重みとして扱うのではなく、カテゴリカルなラベル（正解/不正解）として再解釈し、方策最適化を分類問題として再定式化することを提案しました。

核心的なアイデア

報酬をラベルとして扱う: 報酬 $r \in \{0, 1\}$ を、ロールアウトを「望ましい（Positive）」と「望ましくない（Negative）」に分類するラベルとみなします。
ロジットの定義: 方策更新自体に基づき、長さ正規化された相対対数確率（Relative Log-Probability）をスコア（ロジット）として定義します。
- $\bar{s}_k = \frac{1}{|o_k|} \sum_{t} \log \frac{\pi_\theta(o_{k,t}|q)}{\pi_{old}(o_{k,t}|q)}$
目的関数（損失関数）: ソフトマックスクロスエントロピー損失（またはバイナリクロスエントロピー）を用いて、正解群のスコアを上げ、不正解群のスコアを下げ、かつ両者を明確に分離するように最適化します。
- アンカーロジットの導入: 学習の方向性を明確にするため、スコア 0 を「アンカー」として固定し、正解は 0 以上、不正解は 0 以下になるように損失を設計します（ $L_{REAL} = L_{CE}(S_+, S_0) + L_{CE}(S_0, S_-)$ ）。

理論的利点

有界かつ単調な勾配: REAL の勾配重みは、温度パラメータ $\tau$ によって上界（$1/\tau$）が保証され、相対対数確率に対して単調に変化します。
クリッピング不要: GRPO が必要とする明示的なクリッピング（Clipping）や KL 正則化項が不要であり、勾配が自然に制御されるため、トレーニングが安定します。
バランスの取れたクレジット割り当て: 難しい正解トークンへの勾配が弱まらず、自信のある誤答トークンが更新を支配することも防ぎます。

3. 実験結果

著者らは、DeepSeek-R1-Distill-Qwen (1.5B および 7B) をベースモデルとし、AIME 2024/2025, MATH 500, AMC 2023, Minerva, Olympiad Bench などの多様な数学推論ベンチマークで評価を行いました。

性能向上:
- 1.5B モデル: 強力なベースラインである DAPO と比較し、平均 Pass@1 で 6.7% 向上。GRPO に対しては 9.5% 向上。
- 7B モデル: DAPO と GSPO をそれぞれ 6.2%、1.7% 上回る性能を達成。
- 汎化性: 異なるデータセット（DAPO-Math-17K）でも同様の性能向上が確認されました。
トレーニングの安定性:
- GRPO はエントロピーの崩壊（Entropy Collapse）、DAPO はエントロピーの爆発（Entropy Explosion）を起こす傾向がありましたが、REAL は 1,400 ステップにわたりエントロピーを安定させ、学習 Rewards と検証スコアが均一に向上しました。
- KL 正則化項を含まない設定でも安定して動作し、DAPO よりも 4.5% 高い性能を達成しました。
アブレーション研究:
- アンカーロジットなしや、単純な BCE（Binary Cross-Entropy）損失を使用した場合でも性能は良好ですが、提案された構成（ソフトマックス損失＋アンカーロジット）が最も安定し、高い性能を示しました。

4. 主要な貢献

GRPO 型 RLVR の根本的問題の特定: 「ポジティブでの勾配誤配当」と「ネガティブでの勾配支配」という 2 つの課題を理論的・実証的に明らかにしました。
REAL フレームワークの提案: 検証可能報酬をカテゴリカルラベルとして再定義し、分類問題として方策最適化を行う新しいアプローチを提案しました。これにより、勾配の制御が自然に行われ、トレーニングが安定します。
包括的な実証評価: 多様なモデルサイズとベンチマークにおいて、既存の最善手法（GRPO, DAPO, GSPO など）を凌駕する性能と安定性を示しました。

5. 意義と結論

この研究は、RLVR の最適化プロセスに対する新たな視点を提供しています。報酬をスカラー値として扱う従来のアプローチから、**「報酬は分類ラベルである」**という視点への転換は、勾配の非効率性と不安定性を本質的に解決します。

REAL は、追加の複雑な機構（KL 正則化や複雑なクリッピング戦略）なしに、安定した学習と高性能な推論能力を実現するため、大規模言語モデルの信頼性のあるポストトレーニング（Post-training）パラダイムとして重要な意義を持ちます。特に、数学的推論タスクにおいて、より透明性が高く、頑健な AI システムの開発への道筋を示しています。

Rewards as Labels: Revisiting RLVR from a Classification Perspective

1. 従来の方法（GRPO）の「あるある」な失敗

2. 新しい方法「REAL」のアイデア：「正解・不正解」を「ラベル」として見る

3. なぜ「REAL」がすごいのか？（アンカー・ロジットの魔法）

結論：何が起きたの？

論文要約：Rewards as Labels: Revisiting RLVR from a Classification Perspective

1. 背景と問題定義

2. 提案手法：REAL (Rewards as Labels)

核心的なアイデア

理論的利点

3. 実験結果

4. 主要な貢献

5. 意義と結論

関連論文

Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants

A Mechanism-Learning Deeply Coupled Model for Remote Sensing Retrieval of Global Land Surface Temperature

Streetscape Analysis with Generative AI (SAGAI): Vision-Language Assessment and Mapping of Urban Scenes

KFS: KAN based adaptive Frequency Selection learning architecture for long term time series forecasting

Physics-Informed Time-Integrated DeepONet: Temporal Tangent Space Operator Learning for High-Accuracy Inference