Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

本論文は、知識ベースの視覚的質問応答(KB-VQA)において、外部知識の統合を伴う推論能力を向上させるため、学習段階に応じてデータ難易度を制御し、有益なサンプルを選択的に学習させる「Wiki-R1」という強化学習フレームワークを提案し、主要ベンチマークで最先端の性能を達成したことを報告しています。

Shan Ning, Longtian Qiu, Xuming He

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🍳 物語:AI 料理人と「Wiki-R1」の教え方

1. 問題点:いきなり「難易度 MAX」の料理を渡された料理人

まず、AI( Multimodal Large Language Model)は、すでに大量の一般的な知識(予備知識)を持っています。しかし、**「百科事典 VQA(Knowledge-Based VQA)」**というタスクは、画像を見て「この花の名前と、その花が咲く時期を教えてください」といった、画像には書いていない専門的な知識を、外部の百科事典(Wikipedia など)から探して答える必要があります。

ここで従来の AI 学習には 2 つの大きな壁がありました。

  • 壁①:検索結果がボロい(ノイズ)
    料理人がレシピ本(検索システム)を引いても、間違ったページや、関係ないページが混じって出てくることがあります。「正解のレシピ」が手に入らないまま、料理を作らされるようなものです。
  • 壁②:いきなり難しすぎる
    予備知識しかない AI に、いきなり「Wikipedia 全体から正解を見つけろ」という超難問を投げつけると、AI は**「何から手をつけていいかわからない(正解率が 0% に近い)」**状態になります。
    • 結果: 正解できないので「報酬(ご褒美)」がもらえず、AI は学習が止まってしまいます。これを「スパース・リワード(ご褒美がまばらすぎる)」問題と呼びます。

2. 解決策:「Wiki-R1」という天才的な料理教室

この論文の著者たちは、AI を育てるために**「Wiki-R1」という新しい学習カリキュラム(教育プログラム)を考案しました。これは、「段階的に難易度を調整する」「賢く練習問題を選ぶ」**という 2 つの工夫で構成されています。

🎯 工夫①:「検索システム」を自在に操る(データ生成カリキュラム)

普通の学習では、決まった問題集を解きますが、Wiki-R1 は**「AI の実力に合わせて、問題集そのものを作り変える」**ことができます。

  • レベル 1(超簡単): 正解のページを「1 枚だけ」見せて、「これを見て答えなさい」。
    • 例: 料理人に「正解のレシピページだけ渡す」。AI は「あ、これだ!」とすぐに正解し、自信をつけます。
  • レベル 2(中級): 正解のページに、「関係ないページ」を 1 つ混ぜて見せる。
    • 例: 正解のレシピに、少し邪魔な広告ページを 1 枚混ぜる。AI は「どれが本物か」を選ばないといけない。
  • レベル 3(難関): 正解のページが**「含まれていない」**かもしれない状態にする(実際のテストと同じ環境)。
    • 例: 料理人に「レシピ本全体から探して」と言う。

AI が簡単レベルで「できた!」と正解率を上げたら、自動的にレベルを上げていきます。これにより、AI は**「予備知識」から「専門知識」へと、滑らかにステップアップ**できます。

🎲 工夫②:「賢い練習問題の選び方」(サンプリング・カリキュラム)

難易度を調整しても、AI が「全くわからない問題」や「楽勝すぎる問題」ばかり出されると学習が進みません。
Wiki-R1 は、**「AI がちょうどいいくらい悩む(正解率が 50% 前後)」**ような問題を、優先的に選んで出題します。

  • 工夫のキモ: 実際には AI がまだ解いていない問題でも、「似たような問題の正解率」をヒントにして、難易度を推測します(観察の伝播)。
    • 例: 「A という花の質問は AI が 50% の確率で正解できた。じゃあ、B という花(A と似ている)の質問も、AI はちょうどいい難易度で解けるはずだ」と予測して、B の問題を練習に出す。

これにより、AI は**「無駄な失敗」や「退屈な成功」を減らし、最も成長できる練習**に集中できます。

3. 結果:驚異的な成績

この「Wiki-R1」で学習させた AI は、2 つの有名なテスト(Encyclopedic VQA と InfoSeek)で、これまでの最高記録を大きく更新しました。

  • Encyclopedic VQA: 35.5% → 37.1%
  • InfoSeek: 40.1% → 44.1%

特に重要なのは、「見たことのない新しい質問」に対しても、高い正解率を叩き出したことです。これは、AI が単に答えを暗記したのではなく、「知識をどう探して、どう推理するか」という本質的な力を身につけたことを示しています。


💡 まとめ:何がすごいのか?

この論文のすごいところは、**「AI にいきなり難しいことをさせず、検索システム自体を操作して、AI の成長に合わせて『ちょうどいい難易度』の問題を次々と作り出し、さらに AI が最も成長できる瞬間を逃さず狙い撃ちする」という、「AI 向けの究極のカリキュラム学習」**を実現した点です。

まるで、「初心者料理人」を、

  1. 正解のレシピだけ見せて自信をつけさせ、
  2. 少しずつ邪魔なものを混ぜて判断力を鍛え、
  3. 最終的には、どんな料理本からでも正解を見つけられる
    ように育て上げたようなものです。

これにより、AI は「検索結果がボロい」現実世界でも、賢く推理して正解を導き出せるようになったのです。