原著者： Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu

公開日 2026-05-07

📖 1 分で読めます☕ さくっと読める

CC BY 4.0

原著者： Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

Each language version is independently generated for its own context, not a direct translation.

以下は、論文「Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO」の解説を、平易な言葉と創造的な比喩を用いてまとめたものです。

全体像：AI にパズルを解かせる

AI に数学の問題を解かせたり、コードを書かせたりする訓練を想像してください。プロンプトを与えると、AI は答えを生成しようとします。それを教えるために、「検証可能な報酬を用いた強化学習（RLVR）」という手法を使います。

これはテレビのクイズ番組のようなものです。ロボット（AI）が単一の質問に対して複数の異なる答え（レスポンス）を生成します。審査員（単純なコンピュータプログラム）がそれらをチェックします。

答えが正しければ、ロボットは「親指アップ（ポジティブな報酬）」を得ます。
間違っていれば、「親指ダウン（ネガティブな報酬）」を得ます。

目標は、ロボットに「親指アップ」の答えをより多く、そして「親指ダウン」の答えをより少なく生成させることです。この論文は、シンプルで効果的であるため人気のある「GRPO」という特定の訓練手法に焦点を当てています。

問題：投票を数える方法

この論文が取り組む核心的な問題は、微妙だが決定的な問いです：ロボットが答えのグループを生成したとき、学習するための「平均的な教訓」をどのように計算すべきか？

ロボットは一度に 16 の答えを生成するかもしれません。それらの一部は短く（5 語）、一部は長いです（500 語）。一部は正しく、一部は間違っています。訓練アルゴリズムは、これらの個々の単語をすべて結合して、ロボットの頭脳を改善するための大きな「更新」を計算する必要があります。

これを行う方法には主に 2 つあり、論文は両方に隠された欠陥があると主張しています。

1. 「単語数」方式（トークン集約）

仕組み: 全ての答えから全ての単語（トークン）を数え、それらすべてを平均します。
欠陥（「長話をする悪役」）: 試験を受ける生徒のグループを想像してください。
- 生徒 A は正解しましたが、非常に短く簡潔な説明を書きました（10 語）。
- 生徒 B は間違えましたが、巨大でまとまりのない論文を書きました（500 語）。
- 単語数だけを数えると、生徒 B の間違った答えは、生徒 A の正しい答えよりも平均において 50 倍の「重み」を持ちます。
- 結果: AI が混乱します。スペースを多く占めているため、長く間違った答えの方が重要だと考えてしまうのです。これは**「符号と長さの結合（Sign-Length Coupling）」**と呼ばれます。答えの長さが、教訓の符号（ポジティブかネガティブか）を偶然に変えてしまうのです。

2. 「個人ごと」方式（シーケンス集約）

仕組み: 各答えごとにまず「平均的な教訓」を計算し、その後、それらの答えを平均してまとめます。
欠陥（「怠け者の投票者」）: 同じ生徒の例を使います。
- 生徒 A（短く、正解）は 1 票を得ます。
- 生徒 B（長く、不正解）は 1 票を得ます。
- 結果: これにより「長話をする悪役」の問題は解決します。しかし今度は、10 語の答えと 500 語の答えを全く同じ扱いにしてしまいます。もし AI が長く詳細な説明から多くを学べるなら、この方法はその追加の努力を無視します。長いレスポンスの重みを下げ、それが短いものと同じくらい単純であるかのように扱ってしまいます。

解決策：「バランス型集約（Balanced Aggregation）」

著者たちは、**バランス型集約（BA）**と呼ばれる新しい手法を提案しています。これは、これまでの 2 つの手法の欠陥を修正する賢い審査員のようなものです。

仕組み:

答えを分類する: まず、審査員は答えを 2 つの山に分けます。「良い」山（親指アップ）と「悪い」山（親指ダウン）です。
山の中で単語を数える: 「良い」山の中では、全ての単語を数えて平均します。「悪い」山の中でも、全ての単語を数えて平均します。
山をバランスさせる: 最後に、2 つの山を結合します。ただし、ここがポイントです。単にランダムに混ぜるのではなく、「良い」山と「悪い」山が、それぞれの山の単語数に関係なく、最終的な決定に対して等しい影響力を持つようにします。

比喩:
新しい公園の建設について町議会が投票する場面を想像してください。

旧方式 1（単語数）: 間違っていても、最も長く話す人が最も多くの票を得ます。
旧方式 2（個人ごと）: 50 ページのレポートを書いた人も、「はい」と一言だけ言った人も、1 人 1 票です。
バランス型集約: 議会は「公園推進派」と「公園反対派」のグループに分かれます。各グループ内で議論を平均化します。その後、「推進派」と「反対派」のグループに最終決定において等しい重みを与え、議論の長さが結果を歪めないようにします。

彼らは何を見つけたか

研究者たちは、数学とコーディングのデータセットを用いて、2 つの異なる AI モデル（Qwen2.5-Math-7B と Qwen3-1.7B）でこの新しい手法をテストしました。

安定性が鍵: 古い手法は初期にはうまく機能することが多かったものの、訓練の後半になるとクラッシュしたり不安定になったりしました。「単語数」方式は、AI が非常に長く間違った答えを書き始めたときに特に不安定でした。
より良い結果: バランス型集約手法は、一貫してより良い最終スコアを生み出しました。これはより安定しており、AI がパフォーマンスの激しい変動なく着実に学習することを意味します。
なぜ重要か: この論文は、AI を訓練する「最良の方法」は、答えの長さのばらつきに依存していることを示しています。
- 答えの長さが大きくばらつく場合、「単語数」方式はリスクがあります。
- 「良い」答えと「悪い」答えの長さの差が大きい場合、「個人ごと」方式は不公平になり得ます。
- バランス型集約は、各手法固有のバイアスを修正するため、両方の状況でうまく機能します。

結論

この論文は、AI 訓練において「材料を混ぜる方法（データの集約）」は単なる小さな技術的詳細ではなく、AI が効果的に学習するか混乱するかを決定する主要な設計上の選択であると結論付けています。「良い」例と「悪い」例を平均化する前に単に分離するだけで、著者たちは AI に推論やコーディングを教えるために、より堅牢で安定し、効果的な手法を創り出しました。

Each language version is independently generated for its own context, not a direct translation.

技術的サマリー：バランスドアグリゲーション GRPO におけるアグリゲーションバイアスの理解と修正

問題提起

検証可能な報酬を用いた強化学習（RLVR）は、大規模言語モデル（LLM）における推論とコード生成を強化するための標準的なパラダイムとなっており、その中でもグループ相対方策最適化（GRPO）は、その単純さと独立したクリティックを不要とする点から広く採用されている。しかし、GRPO 内の重要な設計選択の一つである、サンプリングされたグループ内のトークンレベルの方策勾配項に対する集約ルールについては、未だ十分に研究されていない。

現在の慣行は一般的に以下の 2 種類に分類される：

シーケンス集約：標準的な GRPO のデフォルトであり、まず各応答内のトークンの寄与を平均化し、その後応答間で平均化する。これは各シーケンスがトークン数に関係なく等しく寄与するため、暗黙のうちに長い応答の重みを低下させる。
トークン集約：DAPO や Dr.GRPO などの最近の研究で提唱されており、サンプリングされたグループ内のすべてのトークンに対して直接クリップされた目的関数を平均化する。

本論文は、これら 2 つのルールが体系的に異なる最適化バイアスを誘発することを特定している：

トークン集約は符号 - 長さ結合バイアスを導入する。正（アドバンテージ > 0）と負（アドバンテージ < 0）のサンプルの相対的な寄与は、正規化されたアドバンテージだけでなく、平均応答長さにも依存する。正と負の応答の長さ分布が異なる場合、トークン集約は更新の一方の側を体系的に増幅し、不安定な学習ダイナミクスを引き起こす可能性がある。
シーケンス集約は、各応答に等しい重みを割り当てることで符号 - 長さ結合を除去する。しかし、損失がトークン単位ではなくシーケンス単位で平均化されるため、長い応答が暗黙のうちに軽視されるシーケンス等重みバイアスを導入する。

どちらのアプローチも普遍的に最適ではない。それぞれの有効性は、応答長さの分散と、正負サンプル間の長さのギャップに依存する。

手法：バランスドアグリゲーション（BA）

これらのバイアス間の緊張関係を解決するため、著者らは GRPO 型 RLVR における集約ステップへの単純なドロップイン代替手段として、**バランスドアグリゲーション（BA）**を提案する。

BA の中核的なメカニズムは、以下の 3 段階のプロセスを含む：

分割：サンプリングされた応答グループを、正規化されたアドバンテージの符号に基づいて 2 つの部分集合に分割する。正の部分集合（ $S_+$ ）と負の部分集合（ $S_-$ ）である。
部分集合内平均化：各部分集合内で個別にトークンレベルの平均を計算する。これにより、符号グループ内でのトークンレベルの平均化特性を維持しつつ、標準的なシーケンス集約が持つ強いシーケンスごとの等重み付けを回避する。
部分集合間結合：2 つの部分集合の損失を、各部分集合に含まれるシーケンス数に比例する重み（正については $k/G$ 、負については $(G-k)/G$ 。ここで $k$ は正のシーケンス数）を用いて結合する。

理論的正当性：
標準的な二値報酬 GRPO 設定において、この特定の重み付け方式は、BA がシーケンス集約と同じ符号間バランス調整係数（ $\sqrt{k(G-k)}/G$ ）を誘発することを保証する。その結果、BA はシーケンス集約の符号バランス特性（符号 - 長さ結合の除去）を維持しつつ、長い応答を罰する強いシーケンス等重み付け効果を回避する。本論文はまた、重みがシーケンス数ではなくアドバンテージの質量によって決定される、非二値報酬に対する一般化された定式化も提供している。

主要な貢献

アグリゲーションバイアスの統合的分析：本論文は、GRPO における損失集約が benign な実装の詳細ではないことを示す形式的な分析を提供する。トークン集約における特定の「符号 - 長さ結合」バイアスと、シーケンス集約における「シーケンス等重み付け」バイアスを特徴づける。
バランスドアグリゲーション（BA）：符号と長さのバイアスを分離する単純なドロップイン代替手段としての BA の提案。符号グループ内ではトークンレベルの平均化を行うが、グループ間のバランスはシーケンス数に基づいて取る。
実証的検証と診断基準：応答長さの分散と正負の長さギャップが、トークン集約対シーケンス集約の相対的な有効性を支配することを示す広範な実験。BA が異なるモデルとデータセットにおいて、両方のベースラインを一貫して上回ることを実証する。

実験結果

著者らは、2 つのトレーニングデータセット（DAPO-17k と Polaris）を用いて、Qwen2.5-Math-7B と Qwen3-1.7B に対して BA を評価した。性能は、Math-500、AIME 2024、AIME 2025、OlympicBench、Minerva-MATH、LiveCodeBench の 6 つのベンチマークで測定された。

主要な知見：

学習の安定性：トークン集約は、学習の後期段階で深刻な性能低下（ピークから最終ステップまでの大きな低下）をもたらす傾向があるのに対し、BA は堅牢な最終ステップ精度を維持する。
モデル依存のダイナミクス：
- Qwen2.5-Math-7B（より大きな応答長さのばらつきを示す）では、トークン集約は当初シーケンス集約を上回ったが、BA はピーク性能と最終ステップ性能の両方で両者を凌駕した。
- Qwen3-1.7B（より大きな正負の長さギャップを示す）では、シーケンス集約はトークン集約よりも安定していたが、BA は再び最高のピークおよび最終ステップ指標を達成した。
損失ダイナミクス：方策勾配損失の軌跡の分析により、トークン集約は符号 - 長さ結合によりゼロからの大幅なドリフトを引き起こすのに対し、BA とシーケンス集約はゼロ付近で安定していることが明らかになった。
全体的な性能：BA は、すべてのテストされた領域において、標準的なトークン集約およびシーケンス集約と比較して、一貫してより強力な最終性能と優れた学習安定性を提供した。

意義と主張

本論文は、GRPO 型 RLVR における集約は、 minor な実装の詳細ではなく、第一級（first-class）の設計選択であると主張する。この研究の意義は以下の点にある：

安定性：BA は、後期段階でトークン集約においてしばしば観察される学習の崩壊を防ぐ、より堅牢な最適化信号を提供する。
普遍性：特定の長さ分布条件でのみ良好に機能するトークン集約やシーケンス集約とは異なり、BA は異なるモデルサイズやデータセットにわたって堅牢である。
設計原則：この研究は、効果的な RLVR には、バイアスを防ぐための符号間重み付けのバランス（符号 - 長さ結合の除去）と、長い応答からの信号を保持するための符号内トークン情報の保持（信号の維持）の両方が必要であることを浮き彫りにしている。

著者らは、バランスドアグリゲーションが GRPO における本質的なトレードオフに対するシンプルかつ効果的な解決策を提供し、推論およびコーディングタスクにおいてより安定した最適化と改善された最終モデル性能をもたらすと結論付けている。

Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO