DyJR: Preserving Diversity in Reinforcement Learning with Verifiable Rewards via Dynamic Jensen-Shannon Replay

この論文は、強化学習におけるサンプル効率の低さと多様性の欠如という課題を解決するため、動的な参照分布を用いて時間的に関連するサンプルを保持し、分布制約を通じて多様性を維持する新しい正則化フレームワーク「DyJR」を提案し、数学的推論や Text-to-SQL などのベンチマークで GRPO や既存手法を上回る性能と訓練効率の両立を実証しています。

Long Li, Zhijian Zhou, Tianyi Wang, Weidi Xu, Zuming Huang, Wei Chu, Zhe Wang, Shirui Pan, Chao Qu, Yuan Qi

公開日 2026-03-18
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🧠 問題:AI は「勉強しすぎ」で頭が固くなってしまう

まず、背景にある問題から説明します。

最近の AI(大規模言語モデル)は、数学の問題や複雑な論理パズルを解くために、**「試行錯誤(ロールアウト)」**を繰り返して学習しています。

  • 従来の方法(GRPO など): AI が正解を見つけると、「よし、この解き方を覚えよう!」と、その瞬間のデータを使って学習します。しかし、一度学習が終わると、そのデータは捨ててしまいます。
  • 過去の失敗: 効率を上げるために「過去の正解データ」を再利用しようとした他の研究では、AI が**「特定の解き方しか考えられなくなる(多様性の欠如)」**という問題が起きました。
    • 例え話: 料理のレシピ本を勉強している生徒が、一度「完璧なパスタの作り方」を教えてもらったら、「パスタはこれしかない!」と固執し、他のどんな料理(他の解き方)も考えられなくなってしまうような状態です。これを「モード崩壊(Mode Collapse)」と呼びます。

💡 解決策:DyJR(ダイナミック・ジェンセン・シャノン・リプレイ)

この論文の著者たちは、「過去のデータは『正解を覚えるため』ではなく、『多様な考え方を保つため』に使おう」と考えました。そこで提案されたのがDyJRという仕組みです。

この仕組みには、2 つの大きな工夫があります。

1. 🗓️ 「時限付きの思い出のアルバム」を作ろう(動的なバッファ)

AI が学習する初期段階では、まだ試行錯誤が多く、いろいろな「面白い解き方」が見つかります。しかし、学習が進むと、AI はすぐに「一番確実な解き方」に固執し始めます。

  • 従来の方法: 過去のデータをすべて保存して、何年も前のデータまで使おうとする(メモリを圧迫し、古い情報が邪魔になる)。
  • DyJR の方法: 「最近の思い出」だけを残すようにします。
    • 例え話: 勉強中の生徒に、**「1 週間前のノートだけ」**を常に手元に置いておき、それより前のノートは破棄するルールを作ります。
    • さらに、**「勉強の最初の 20 分間は、ノートを 4 倍も集めておこう!」**というルールもあります。なぜなら、勉強の最初はアイデアが溢れているから。でも、落ち着いてきたら、ノートの量は減らして、最新の「新鮮なアイデア」だけを残すのです。
    • これにより、AI は「古い固定観念」に縛られず、常に「今一番近い未来の多様な考え方」を参考にできます。

2. 🧭 「正解」ではなく「バラエティ」を基準にしよう(JS 発散の正則化)

ここが最も重要な部分です。過去のデータを使って AI を更新する際、どうアプローチするか?

  • 従来の方法: 「過去の正解データに、AI の答えを近づけろ!」と強制的に修正する。
    • 結果: AI は「あの正解と同じこと」しか言わなくなり、創造性が失われます。
  • DyJR の方法: 「過去の正解データの**『集まり』**から、AI が大きく逸脱しないように優しく誘導する」ことにします。
    • 例え話: 料理のコンテストで、過去の優勝レシピ(多様な正解の集まり)があります。
      • 従来の方法は、「優勝レシピと一模一样(同じ味)にしろ!」と命令します。
      • DyJR は、「優勝レシピの**『雰囲気』や『バリエーション』から大きく外れないようにしなさい。でも、新しい味も探していいよ」という「道しるべ(コンパス)」**として使います。
    • これにより、AI は「正解」を追求しつつも、「他の面白い解き方」も忘れずに探求し続けることができます。

🏆 結果:どうなった?

この新しい方法(DyJR)を試したところ、以下の素晴らしい結果が出ました。

  1. 数学の問題や SQL(データベース検索)の作成などで、他の方法より高い正解率を達成。
  2. AI が「一つの解き方に固執する」のを防ぎ、多様なアプローチを維持できた。
  3. 計算コストはほとんど増えず、従来の方法と同じくらい速く学習できた。

🌟 まとめ

この論文が伝えたかったことは、**「AI に勉強させる時、過去の『正解』をただコピーさせるのではなく、過去の『多様な成功体験』を『地図』として使って、AI が迷子にならないように優しく導いてあげることが重要だ」**ということです。

DyJR は、AI が「賢く」なるだけでなく、「柔軟で創造的」であり続けるための、とても賢い学習のルールブックなのです。

自分の分野の論文に埋もれていませんか?

研究キーワードに一致する最新の論文のダイジェストを毎日受け取りましょう——技術要約付き、あなたの言語で。

Digest を試す →