Rewards as Labels: Revisiting RLVR from a Classification Perspective

この論文は、強化学習における報酬をスカラー重みではなくカテゴリラベルとして扱う「REAL」という新しいフレームワークを提案し、勾配の誤割り当てや支配問題を解消することで、数学的推論タスクにおいて既存の GRPO や DAPO などの手法を安定して上回る性能を実現することを示しています。

Zepeng Zhai, Meilin Chen, Jiaxuan Zhao, Junlang Qian, Lei Shen, Yuan Lu

公開日 2026-03-05
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、人工知能(AI)が難しい数学の問題を解く力を身につけるための新しいトレーニング方法「REAL」を紹介しています。

これまでの方法には「先生(AI)が生徒(AI)を指導する際、教え方が少し間違っていた」という問題があり、それを解決するアイデアです。

わかりやすく、3 つのポイントで説明します。

1. 従来の方法(GRPO)の「あるある」な失敗

まず、これまでの主流だったトレーニング方法(GRPO)を想像してみてください。
これは**「正解の答えが 1 個、不正解の答えが 9 個あるクイズ」**を AI に解かせて、正解したグループを褒め、不正解のグループを叱るというやり方です。

しかし、この方法には 2 つの大きな「教え方のミス」がありました。

  • ミス①:「もうできている子」にばかり勉強をさせる(正解への誤配分)
    • 状況: すでに正解に近い答えを出している AI に対して、先生は「すごい!もっともっと!」と大げさに褒めちぎります。
    • 問題: でも、実は「正解に近いけど、まだ少し違う」という一番頑張っている(難しい)部分は、先生に無視されてしまいます。「もうできてるから大丈夫」と思われ、改善のチャンスが逃げてしまうのです。
  • ミス②:「自信過剰な失敗」が暴走する(不正解への支配)
    • 状況: 間違っているのに「俺は 100% 正解だ!」と自信過剰に間違えた答えを出した AI に対して、先生は「バカ!バカ!」と激しく叱ります。
    • 問題: この叱り方が強すぎて、他の「少し間違えたけど、勉強になるような答え」の声が聞こえなくなります。自信過剰な失敗が先生を支配し、学習がバランスを崩してしまいます。

2. 新しい方法「REAL」のアイデア:「正解・不正解」を「ラベル」として見る

この論文の著者たちは、「報酬(点数)」を「数字」ではなく、「ラベル(シール)」として捉え直そうと考えました。

  • 従来の考え方: 「正解なら +100 点、不正解なら -100 点」という数字の重みで指導する。
  • REAL の考え方: 「正解なら『○』のシール、不正解なら『×』のシール」を貼る分類ゲームにする。

これを**「分類(クラス分け)」の問題**として捉え直すことで、AI の学習プロセスを以下のように変えました。

  • 「○」のシール(正解): できるだけ「○」の領域に押し上げる。
  • 「×」のシール(不正解): できるだけ「×」の領域に押し下げる。

3. なぜ「REAL」がすごいのか?(アンカー・ロジットの魔法)

ここで、**「アンカー(基準点)」**という魔法の道具を使います。

  • 基準点(0 点)を置く: 正解と不正解の真ん中に「0 点」という基準線を引きます。
  • 正解は「0 点より上」へ: 正解の答えは、0 点より上に引き上げます。
  • 不正解は「0 点より下」へ: 不正解の答えは、0 点より下に押し下げます。

この仕組みのおかげで、以下の 2 つのメリットが生まれます。

  1. バランスの取れた指導:
    • すでに高い位置にある正解(自信満々な正解)は、これ以上上げすぎないように自然と抑えられます。
    • 逆に、低い位置にある正解(難しい正解)は、しっかり引き上げられます。
    • 自信過剰な不正解が暴走しても、0 点という壁で止めることができるため、他の学習を邪魔しません。
  2. 安定した学習:
    • 先生が感情的になりすぎず(叱りすぎたり褒めすぎたりしない)、常に一定の範囲で指導できるため、AI がパニックになったり、学習が止まったりすることがなくなります。

結論:何が起きたの?

この新しい方法「REAL」を使って実験したところ、以下の成果がありました。

  • 数学のテストで高得点: 1.5B パラメータ(中型)のモデルで、従来の最強の方法より6.7% 以上スコアが向上しました。7B パラメータ(大型)でも同様に勝利しました。
  • 安定した成長: 学習の途中で AI が混乱したり、成績が落ち込んだりする「エンタロピー・クラッシュ(燃え尽き)」が起きず、ずっと安定して成長しました。

一言で言うと:
「AI に『正解・不正解』を教えるとき、点数の大小で騒ぐのではなく、『○か×か』を分類するゲームとしてシンプルに捉え直したところ、AI がより賢く、安定して成長できるようになった」という画期的な発見です。