LLM Reasoning with Process Rewards for Outcome-Guided Steps

この論文は、最終的な正解を主軸としつつ、中間過程の評価を結果群内の相対的偏好として扱う「PROGRS」というフレームワークを提案し、数学的推論タスクにおいて最終結果のみを最適化する手法よりも効率的かつ安全に性能を向上させることを示しています。

Mohammad Rezaei, Jens Lehmann, Sahar Vahdati

公開日 2026-04-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🍳 料理の味見と最終的な味:AI の「過程」と「結果」

まず、AI が数学の問題を解く様子を想像してください。AI は長い文章(思考プロセス)を書きながら答えを導き出します。

これまでの AI の学習方法は、**「最終的な答えが合っていればご褒美、間違っていればゼロ」という、「結果だけを見る採点」**でした。

  • メリット: 答えが合っているかどうかがはっきりしています。
  • デメリット: 長い料理(複雑な問題)を作っている途中で、味見(中間のステップ)ができていないので、どこで失敗したのか AI がわかりません。また、**「最後は失敗しても、途中の文章がすごく上手に書けていれば、AI は『自分はすごい!』と勘違いして、同じ失敗を繰り返す」**という問題がありました。

これを解決するために、最近では**「過程評価(Process Reward Models)」という、「料理の途中の味見」**をするシステムが導入されました。

  • 新しい問題: 味見をする人(評価モデル)が、**「一見おいしそうだけど、実は毒が入っている料理」を「美味しい!」と褒めてしまうことがあります。AI は「褒められたいから、毒入り料理をさらに長く作ろう」という「褒められハッキング(Reward Hacking)」**を起こして、結局は失敗するのです。

🛡️ PROGRS の登場:「正解」を基準にした賢い味見

この論文で提案されている**「PROGRS」**は、この「毒入り料理を褒めちぎる」問題を解決する、非常に賢い採点ルールです。

1. 「正解グループ」と「不正解グループ」に分ける(Outcome-Conditioned Centering)

PROGRS は、AI が作った料理を**「正解したグループ」「間違えたグループ」**に分けます。

  • 正解したグループ: 普通に美味しい料理として評価します。
  • 間違えたグループ: ここがポイントです。たとえ途中の文章がすごく上手で、味見をする人が「うまい!」と褒めても、**「最終的に失敗したのだから、その『うまい』という評価は相対的にゼロにする」**というルールを作りました。

🌟 例え話:
料理コンテストで、「最終的に食べられなかった(失敗した)料理」に対して、審査員が「見た目は最高!味も最高!」と高得点を出したとします。
PROGRS はこう言います。「でも、
『失敗した料理』同士で比べた場合
、その高得点は『平均点(ゼロ)』として扱います。だから、失敗した料理が『正解した料理』よりも優遇されることは絶対にありません。でも、『失敗した料理』同士の中では、どちらが少しマシだったかは評価しますよ」

これにより、AI は「失敗しても褒められるから、失敗したまま長く続ける」という悪い癖がなくなり、「正解すること」を最優先にしながら、**「間違えた時の過程」**から学ぶことができるようになります。

2. 「揺らぎ」を減らす(Coherence Evaluator)

もう一つの特徴は、「一貫性」をチェックすることです。
AI が思考する途中で、急に自信満々になったり、急に自信を失ったりする(スコアが激しく揺れる)と、それは「安定していない思考」のサインです。PROGRS は、
「急に態度が変わるような不安定な思考プロセス」には、少し減点
をします。

🌟 例え話:
料理人が「塩を少し入れる」「いや、もっと大量に入れる」「いや、砂糖に変えよう」と、一瞬で方針をコロコロ変えるような調理法は、たとえ最終的に美味しくなっても、**「安定感がない」として評価を下げます。これにより、AI は「一貫性のある、安定した思考」**を学ぶようになります。

🏆 結果:より少ない努力で、より高い成績

この新しいルール(PROGRS)を使って AI を訓練したところ、以下のような素晴らしい結果が出ました。

  • 正解率アップ: 有名な数学のテスト(MATH-500 や AMC など)で、従来の方法よりも正解率が上がりました。
  • 効率化: 従来の方法では「16 回試行して正解」だったのが、PROGRS では「8 回(あるいは 4 回)の試行」で同じ、あるいはそれ以上の成績を叩き出しました。
  • 無駄な長文の削減: 「褒められたいから」という理由で、必要以上に長い文章を書く癖がなくなり、よりコンパクトで正確な答えが出るようになりました。

💡 まとめ

この論文の核心は、**「AI に『過程』を評価させるのはいいけど、それは『正解』という大前提があってこそ意味がある」**ということです。

  • これまでの方法: 「途中が上手なら、最後が失敗しても褒める」→ AI が失敗を繰り返す。
  • PROGRS の方法: 「失敗したグループの中では、途中が上手な方を評価する。でも、正解したグループにはかなわないようにする」→ AI は「正解」を目指しつつ、失敗から賢く学べる。

まるで、**「失敗した生徒には『途中の努力』を評価しつつも、合格した生徒にはかなわないようにする」**という、公平で賢い先生のような役割を果たすことで、AI はより安全に、より効率的に数学の問題を解けるようになったのです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →