CoRPO: Adding a Correctness Bias to GRPO Improves Generalization

本論文は、GRPO の欠点である誤った解の過剰評価を修正し、汎化性能を向上させるため、正解率閾値による基準値のクリッピングを導入した「CoRPO」を提案し、その有効性を示しています。

Anisha Garg, Claire Zhang, Nishit Neema, David Bick, Ganesh Venkatesh, Joel Hestness

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

「正解への偏り」で AI を賢くする:CoRPO の仕組みをわかりやすく解説

この論文は、最近話題の「AI(大規模言語モデル)に論理的な思考力を教える方法」について、新しい工夫(CoRPO)を紹介したものです。

少し専門的な話になりますが、**「先生(AI)が生徒(AI)を指導する際、間違った答えでも『クラス平均よりマシ』という理由で褒めてしまう問題」**を解決する画期的なアイデアです。


1. 従来の方法(GRPO)の「あるある」な失敗

まず、今までの主流だったGRPOという勉強法を想像してみてください。

  • シチュエーション: 先生が 10 人の生徒に同じ数学の問題を出します。
  • やり方: 先生は「正解・不正解」を絶対的な基準で見るのではなく、「その日のクラス全体の平均点」を基準にします。
  • 問題点:
    • もしその日のクラスが全体的にボロボロで、平均点が「0 点」だったとします。
    • 生徒 A が「-5 点(ひどい間違い)」、生徒 B が「-2 点(少しマシな間違い)」だった場合。
    • 先生は「生徒 B は平均(0 点)より上だ!すごい!」と褒めてしまいます
    • 結果: 生徒 B は「間違った答え」なのに「正解」として強化され、間違った思考パターンが定着してしまいます。これを論文では「間違った行動を強化してしまう」と呼んでいます。

これは、**「クラス全体がバカなら、少しだけマシなバカも天才扱いされてしまう」**という、非常に危険な状況です。

2. 新しい方法(CoRPO)の「魔法のルール」

そこで登場するのが、この論文で提案されたCoRPOという新しい指導法です。

  • 新しいルール: 「クラス平均」で判断する前に、**「最低限の合格ライン(正解の基準)」**を設けます。
    • 例えば、「正解の基準は 60 点以上」と決めます。
  • どう変わるか:
    • クラス平均が 0 点でも、生徒 B の点数が「-2 点(60 点未満)」であれば、**「合格ラインに達していない」**として、絶対に褒めません(むしろ減点します)。
    • 「平均よりマシ」かどうかではなく、**「本当に正解しているか」**を最優先にします。

比喩で言うと:

  • GRPO(旧): 「今日の料理が全体的にまずい中、A さんは少しだけ塩味が足りてたから、A さんは天才シェフ!」と褒める。
  • CoRPO(新): 「どんなに他の料理がまずくても、塩味が足りてなければ不合格。まずは『塩味(正解)』が出せるようにならないと、評価しない!」と厳しく指導する。

3. なぜこれが「天才」になるのか?

この「厳しさ」が、AI をより賢くします。

  1. 間違った道へ迷い込まない(過学習の防止)

    • 旧方法だと、「とりあえず平均より上なら OK」という甘い基準で、AI は「間違った答え」を「正解」だと信じてしまい、その道に固執してしまいます。
    • 新方法だと、「間違っているものは間違っている」とはっきり教えるので、AI は**「まず間違いを消す」**ことに集中します。
  2. どんな問題にも通用する(汎化能力の向上)

    • 実験の結果、この方法で訓練された AI は、**「プログラミングの勉強をさせたのに、数学の問題も解けるようになる」**といった、分野を超えた能力(汎化)が飛躍的に向上しました。
    • 理由: 「特定の分野のクセ(ハック)」を覚えるのではなく、「根本的な論理(正解への道筋)」を学んだからです。
  3. 段階的な成長(隠れたカリキュラム学習)

    • 最初は「間違いを減らす」ことに集中し、ある程度安定してから「より良い答え」を探すようになります。
    • これは、子供に「まずは『足し算』を間違えないように教える」ことと似ており、無理に「難しい計算」を急がせるよりも、結果的に早く成長します。

4. まとめ:何がすごいのか?

この論文の核心は、**「AI の学習において、『相対的な優劣(誰よりマシ)』ではなく、『絶対的な正誤(正しいか正しくないか)』を基準にする」**というシンプルな変更が、劇的な効果を生むということです。

  • GRPO: 「クラスで一番じゃなくても、平均より上なら OK!」→ 間違った方向に加速してしまう。
  • CoRPO: 「60 点(正解)に達していないなら、誰より上でも NG!」→ 正しい方向へ着実に進む。

この「正解への偏り(Correctness Bias)」を加えるだけで、AI はより頑丈で、どんな新しい問題にも対応できる賢い頭脳を手に入れることができるのです。まるで、**「甘えを許さない厳格なコーチ」**がついたことで、アスリートが本来の力を発揮できるようになったようなものです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →