DRA-GRPO: Your GRPO Needs to Know Diverse Reasoning Paths for Mathematical Reasoning

本論文は、数学的推論における GRPO の多様性不足を解決するため、サブモジュラ相互情報を用いて報酬を調整し、冗長性を抑制して多様な推論経路を探索する「DRA-GRPO」を提案し、少量データと低コストで高い精度を達成したことを示しています。

Xiwen Chen, Wenhui Zhu, Peijie Qiu, Xuanzhao Dong, Hao Wang, Haiyu Wu, Huayu Li, Aristeidis Sotiras, Yalin Wang, Abolfazl Razi

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

数学の天才を育てる「多様性」の魔法:DRA-GRPO の解説

この論文は、「正解さえ出せばいい」という古い考え方を捨てて、「正解に至る『道』の多様さ」を評価する新しい AI の学習方法を提案しています。

タイトルは少し難しいですが、内容を料理や探検に例えると、とてもわかりやすくなります。


1. 従来の問題点:「正解者全員に同じ賞賛」の罠

まず、従来の AI 学習(GRPO という方法)が抱えていた問題を想像してみてください。

【料理の例え】
ある料理コンテストで、2 人のシェフが同じ「正解のオムライス」を作ったとします。

  • シェフ A:レシピ本を丸暗記して、機械的に正確に作りました。
  • シェフ B:失敗を繰り返しながら、試行錯誤して「あ、こうすればもっと美味しい!」と独自の発見をして作りました。

従来の AI は、「どちらもオムライスを作った(正解した)」という結果だけを見て、2 人に全く同じ点数(報酬)を与えてしまいます。

【何が悪いの?】
これだと、AI は「最も簡単で、失敗しない『機械的な作り方(A の方法)』」だけを繰り返し学習するようになります。
「試行錯誤して新しい発見をする(B の方法)」ような、創造的で多様な思考プロセスは、評価されずに消えてしまいます。これを論文では**「多様性と質の不一致(Diversity-Quality Inconsistency)」**と呼んでいます。

結果として、AI は「正解」は出せるけれど、**「同じような思考パターンしか使えない、融通の利かない頭」**になってしまいます。


2. 解決策:DRA-GRPO(多様性を評価する魔法)

この論文が提案する**「DRA-GRPO」**は、この問題を解決するための「報酬の調整機能」です。

【探検の例え】
AI を「宝の地図を探す探検家」だと想像してください。

  • 従来の方法:宝(正解)が見つかったら、どこから来たか関係なく「おめでとう!」と褒めます。すると、みんなが「一番近道で歩きやすい道」ばかりを選んで、他の道は誰も探索しなくなります。
  • DRA-GRPO の方法:「おや?この道はみんなが使っている『近道』と同じだな」と判断したら、**「少しだけ褒美を減らす」逆に、「誰も行ったことのない『新しい道』だ!」と判断したら、「特別ボーナスをプラスする」**というルールに変えます。

これにより、AI は**「同じ正解でも、誰もが行かない新しい道(多様な思考プロセス)を探索する」**ように動機づけられます。


3. どうやって実現しているの?(技術的な仕組み)

この「新しい道」を見分けるために、論文では**「SMI(サブモジュラ相互情報量)」**という数学的な道具を使っています。

  • 仕組み:AI が生成した複数の答え(オムライス)を並べて、「どれくらい似ているか」を計算します。
  • 似ている場合:「あ、これはみんなが作ったのと同じレシピだ」と判断し、評価を少し下げる(ペナルティ)
  • 違う場合:「おっと、これは誰も使わない珍しいレシピだ!」と判断し、評価を上げる(ボーナス)

これを**「逆傾向スコアリング(IPS)」**という統計的な手法と結びつけることで、AI が「楽な道」に偏らず、「多様な正解の道」をバランスよく探索できるように調整しています。


4. 結果:少ないデータで、すごい成果

この方法を実際に数学の問題で試したところ、驚くべき結果が出ました。

  • データ効率:従来の方法が 4 万問のデータで学習していたのに対し、この方法はたった 7,000 問のデータで同等、あるいはそれ以上の性能を達成しました。
  • コスト:学習にかかるお金も、約**55 ドル(約 8,000 円)**と非常に安価です。
  • 性能:複雑な数学の問題でも、他の最先端モデルに負けない、あるいは凌駕する成績を収めました。

まとめ

この論文が伝えたいことはシンプルです。

「正解」だけを目指すのではなく、「正解に至る多様な『道』」を大切にするべきだ。

AI に「正解」だけでなく、「どう考えたか(思考の多様性)」を評価させることで、より創造的で、頑丈で、少ないデータでも賢く学習できる AI が作れるのです。

これは、AI が単なる「暗記屋」から、真の「問題解決者」へと進化するための重要な一歩と言えるでしょう。