Each language version is independently generated for its own context, not a direct translation.

🍳 物語：AI 料理人と「Wiki-R1」の教え方

1. 問題点：いきなり「難易度 MAX」の料理を渡された料理人

まず、AI（ Multimodal Large Language Model）は、すでに大量の一般的な知識（予備知識）を持っています。しかし、**「百科事典 VQA（Knowledge-Based VQA）」**というタスクは、画像を見て「この花の名前と、その花が咲く時期を教えてください」といった、画像には書いていない専門的な知識を、外部の百科事典（Wikipedia など）から探して答える必要があります。

ここで従来の AI 学習には 2 つの大きな壁がありました。

壁①：検索結果がボロい（ノイズ）
料理人がレシピ本（検索システム）を引いても、間違ったページや、関係ないページが混じって出てくることがあります。「正解のレシピ」が手に入らないまま、料理を作らされるようなものです。
壁②：いきなり難しすぎる
予備知識しかない AI に、いきなり「Wikipedia 全体から正解を見つけろ」という超難問を投げつけると、AI は**「何から手をつけていいかわからない（正解率が 0% に近い）」**状態になります。
- 結果： 正解できないので「報酬（ご褒美）」がもらえず、AI は学習が止まってしまいます。これを「スパース・リワード（ご褒美がまばらすぎる）」問題と呼びます。

2. 解決策：「Wiki-R1」という天才的な料理教室

この論文の著者たちは、AI を育てるために**「Wiki-R1」という新しい学習カリキュラム（教育プログラム）を考案しました。これは、「段階的に難易度を調整する」と「賢く練習問題を選ぶ」**という 2 つの工夫で構成されています。

🎯 工夫①：「検索システム」を自在に操る（データ生成カリキュラム）

普通の学習では、決まった問題集を解きますが、Wiki-R1 は**「AI の実力に合わせて、問題集そのものを作り変える」**ことができます。

レベル 1（超簡単）： 正解のページを「1 枚だけ」見せて、「これを見て答えなさい」。
- 例：料理人に「正解のレシピページだけ渡す」。AI は「あ、これだ！」とすぐに正解し、自信をつけます。
レベル 2（中級）： 正解のページに、「関係ないページ」を 1 つ混ぜて見せる。
- 例：正解のレシピに、少し邪魔な広告ページを 1 枚混ぜる。AI は「どれが本物か」を選ばないといけない。
レベル 3（難関）： 正解のページが**「含まれていない」**かもしれない状態にする（実際のテストと同じ環境）。
- 例：料理人に「レシピ本全体から探して」と言う。

AI が簡単レベルで「できた！」と正解率を上げたら、自動的にレベルを上げていきます。これにより、AI は**「予備知識」から「専門知識」へと、滑らかにステップアップ**できます。

🎲 工夫②：「賢い練習問題の選び方」（サンプリング・カリキュラム）

難易度を調整しても、AI が「全くわからない問題」や「楽勝すぎる問題」ばかり出されると学習が進みません。
Wiki-R1 は、**「AI がちょうどいいくらい悩む（正解率が 50% 前後）」**ような問題を、優先的に選んで出題します。

工夫のキモ： 実際には AI がまだ解いていない問題でも、「似たような問題の正解率」をヒントにして、難易度を推測します（観察の伝播）。
- 例：「A という花の質問は AI が 50% の確率で正解できた。じゃあ、B という花（A と似ている）の質問も、AI はちょうどいい難易度で解けるはずだ」と予測して、B の問題を練習に出す。

これにより、AI は**「無駄な失敗」や「退屈な成功」を減らし、最も成長できる練習**に集中できます。

3. 結果：驚異的な成績

この「Wiki-R1」で学習させた AI は、2 つの有名なテスト（Encyclopedic VQA と InfoSeek）で、これまでの最高記録を大きく更新しました。

Encyclopedic VQA: 35.5% → 37.1%
InfoSeek: 40.1% → 44.1%

特に重要なのは、「見たことのない新しい質問」に対しても、高い正解率を叩き出したことです。これは、AI が単に答えを暗記したのではなく、「知識をどう探して、どう推理するか」という本質的な力を身につけたことを示しています。

💡 まとめ：何がすごいのか？

この論文のすごいところは、**「AI にいきなり難しいことをさせず、検索システム自体を操作して、AI の成長に合わせて『ちょうどいい難易度』の問題を次々と作り出し、さらに AI が最も成長できる瞬間を逃さず狙い撃ちする」という、「AI 向けの究極のカリキュラム学習」**を実現した点です。

まるで、「初心者料理人」を、

正解のレシピだけ見せて自信をつけさせ、
少しずつ邪魔なものを混ぜて判断力を鍛え、
最終的には、どんな料理本からでも正解を見つけられる
ように育て上げたようなものです。

これにより、AI は「検索結果がボロい」現実世界でも、賢く推理して正解を導き出せるようになったのです。

Each language version is independently generated for its own context, not a direct translation.

Wiki-R1: 知識ベースの視覚的質問応答（KB-VQA）における多モーダル推論をデータとサンプリング・カリキュラムで促進する

本論文は、ICLR 2026 にて発表された「Wiki-R1」という新しいフレームワークを提案するものです。これは、知識ベースの視覚的質問応答（KB-VQA）タスクにおいて、マルチモーダル大規模言語モデル（MLLM）の推論能力を強化するための、データ生成とサンプリングに基づくカリキュラム強化学習（Curriculum RL）手法です。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細にまとめます。

1. 背景と課題 (Problem)

KB-VQA の課題:
知識ベースの視覚的質問応答（KB-VQA）は、画像に関する質問に答えるために、外部知識（例：Wikipedia）を統合して推論を行うタスクです。既存のアプローチ（RAG: 検索拡張生成）では、以下の理由から事前学習済み MLLM の後学習（Post-training）段階で大きな困難に直面しています。

ノイズのある検索: 検索システムは不完全であり、関連する知識だけでなくノイズ（無関係な情報）も含まれます。
構造化された百科事典的知識: 知識ベースは構造化された百科事典的な形式で提供され、事前学習データとは分布が異なります。
スパースな報酬と分布のギャップ: 強化学習（RL）を適用すると、事前学習分布と KB-VQA ターゲット分布のギャップにより、多くのサンプルで「ゼロのアドバンテージ（学習信号なし）」が発生し、学習が不安定になります。

先行研究（DAPO などの RL アルゴリズムを適用した実験）では、トレーニング中のサンプルの 80% 以上がゼロのアドバンテージを示し、学習精度が 10% 程度に留まるという問題が確認されました。これは、検索ノイズが RL のスパースな報酬問題を悪化させていることを示唆しています。

2. 提案手法：Wiki-R1 (Methodology)

Wiki-R1 は、モデルの能力進化に合わせて学習分布を順次調整する「カリキュラム学習」の概念を、強化学習とデータ生成に統合したフレームワークです。主な構成要素は以下の 2 つです。

2.1 制御可能なカリキュラムデータ生成 (Controllable Curriculum Data Generation)

従来のカリキュラム学習が既存データセットから難易度順にサンプルを選ぶのに対し、Wiki-R1 は検索システム自体を操作して、意図した難易度のトレーニングサンプルを生成します。

ギャップレベル（Gap Level）: $g \in \{0, 1, ..., G\}$ $g \in {0, 1, ..., G}$ というレベルを定義し、事前学習分布からターゲット分布へのシフト度を制御します。
- 易しいレベル ( $g=0$ ): 正解の知識スニペットのみを 1 つ取得（ノイズなし、事前学習に近い分布）。
- 中間レベル: 正解スニペットに加え、 $g$ 個のノイズ候補を取得。
- 難しいレベル ( $g=G$ ): 正解スニペットを含まず、 $G-1$ 個のノイズ候補のみを取得（推論時の実際の分布に一致）。
適応的なスケジューリング: モデルのトレーニング精度（移動平均）が閾値を超えると、ギャップレベルを段階的に上げ、モデルが現在の難易度を習得してから次の段階に進むように制御します。

2.2 観測伝播を伴うカリキュラムサンプリング (Curriculum Sampling with Observation Propagation)

生成されたデータが必ずしも意図した難易度にならない場合や、RL における報酬信号のスパースさを解決するために導入されます。

有益なサンプルの選択: 強化学習において勾配信号が最も強くなるのは、学習精度が 0.5 付近（解けるが難しい）のサンプルです。この分布に基づいてサンプリングを行います。
観測伝播（Observation Propagation）: 実際の RL 更新で得られる報酬（観測）はスパースです。これを解決するため、VQA サンプル間の関連性（知識ベース記事の類似性）に基づいてグラフを構築し、**ラベル伝播（Label Propagation）**アルゴリズムを用いて、観測された報酬を未観測のサンプルへ伝播させます。
- これにより、実際に試行しなくてもサンプルの難易度（期待報酬）を推定でき、効率的に「学習信号が得られやすいサンプル」を選択できます。

3. 主要な貢献 (Key Contributions)

Wiki-R1 フレームワークの提案: データ生成とサンプリングの両面からカリキュラムを設計し、MLLM の KB-VQA における推論能力を体系的に促進する RL フレームワークを提案しました。
制御可能なデータ生成と適応的サンプリング: 検索システムを操作して難易度を制御するデータ生成と、観測伝播を用いてスパースな報酬下でも効果的なサンプリングを行う戦略を組み合わせ、事前学習分布とターゲット分布のギャップを埋める原理的なアプローチを確立しました。
SOTA 性能の達成: 2 つの主要なベンチマーク（Encyclopedic VQA と InfoSeek）において、既存の最良手法を大幅に上回る性能を達成しました。特に、未見の質問（Unseen Questions）に対する汎化性能が顕著に向上しています。

4. 実験結果 (Results)

Wiki-R1 は、Encyclopedic VQA と InfoSeek の 2 つのベンチマークで評価されました。

Encyclopedic VQA:
- 精度: 37.1% (従来 SOTA: 35.5% から改善)
- 3B モデルでも既存の最良手法を凌駕しました。
InfoSeek:
- 精度: 44.1% (従来 SOTA: 40.1% から改善)
- Unseen-Question スプリット: 47.8% の精度を達成（モデル全体の平均精度 44.1% を上回る）。これは、未知のクエリに対する強力な汎化能力を示しています。
Oracle 設定での評価: 正解の知識記事が提供される「Oracle」設定でも高い性能を示し、検索ノイズを除去した場合のモデルの推論能力の高さが確認されました。
効率性: 既存手法（Wiki-LLaVA や ReflectiVA など）が数十万〜数百万のトレーニングサンプルを必要とするのに対し、Wiki-R1 は**4 万サンプル（各データセット 2 万）**のみで同等以上の性能を達成しました。また、トレーニング時間も大幅に短縮されています。

5. 意義と結論 (Significance)

Wiki-R1 は、KB-VQA というノイズの多い検索環境と分布のズレという二重の課題に対し、強化学習を効果的に適用するための新しいパラダイムを提供します。

分布ギャップの解消: 単にモデルを微調整するのではなく、学習データの分布をモデルの能力に合わせて「段階的」に変化させることで、RL のスパースな報酬問題を克服しました。
データ効率の向上: 制御可能なデータ生成と観測伝播により、少量のデータで高品質な学習を実現し、計算リソースの制約がある環境でも適用可能です。
将来の展望: 検索システムの操作による部分的な制御から、より完全に制御可能なデータ生成プロセスへと発展させることで、他のドメイン適応タスクや検索拡張生成（RAG）全般への応用が期待されます。

本論文は、マルチモーダル推論タスクにおいて、検索と強化学習を統合する際の実用的かつ原理的なアプローチを示す重要な研究です。

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum