Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

本論文は、現実世界の視覚的ノイズや複雑な推論課題に対処するため、マルチターン・多エンティティ・多スケールにわたる視覚・テキスト検索を可能にし、強化学習を通じて深層調査能力を内包させた新しいマルチモーダル大規模言語モデル「Vision-DeepResearch」を提案し、既存の最先端モデルやクローズドソースの基盤モデルを大幅に凌駕する性能を実証しています。

Wenxuan Huang, Yu Zeng, Qiuchen Wang, Zhen Fang, Shaosheng Cao, Zheng Chu, Qingyu Yin, Shuang Chen, Zhenfei Yin, Lin Chen, Zehui Chen, Xu Tang, Yao Hu, Philip Torr, Feng Zhao, Wanli Ouyang

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 従来の AI の問題点:「全体写真」だけ見て諦める探偵

これまでの AI(マルチモーダル大規模言語モデル)は、画像を見て質問に答える際、「全体の写真」を一度だけ検索エンジンに投げかけるというやり方をしていました。

  • 例え話:
    探偵が「この写真の中の男の子は誰?」と聞かれました。
    従来の AI は、**「写真全体をコピーして検索」**します。しかし、背景にたくさんの人々がいて、男の子が小さく写っていたり、背景がごちゃごちゃしていたりすると、検索結果は「誰か分からない」や「全く関係ない画像」ばかり返ってきます。
    さらに、AI は「検索して 1 回で答えが出なかったら、もうダメだ」と考えて、すぐに諦めてしまいます。

この論文は、この 2 つの大きな弱点を指摘しました。

  1. ヒット率の問題: 全体画像や簡単な検索では、必要な情報が見つからないことが多い。
  2. 探求の浅さ: 一度検索してダメなら、別の角度から探したり、何度も検索し直したりする「粘り強さ」がない。

🚀 新しい技術「Vision-DeepResearch」:執念の探偵

この新しい技術は、AI に**「執念深い探偵」**のような行動パターンを教えました。

1. 画像を「切り抜き」ながら、何度も検索する(マルチスケール・マルチエンティティ)

探偵は、全体写真を見て「分からない」と即座に諦めません。

  • 行動: 「あ、この男の子の顔が小さすぎるな。じゃあ、顔の部分だけ切り取って検索してみよう」「あ、背景の看板がヒントになりそうだから、看板の部分だけ切り取って検索しよう」。
  • 効果: 画像の「どの部分」を「どの大きさ」で検索するかを、AI が自分で判断して何十回も試行錯誤します。これにより、必要な情報が「ヒット」する確率が劇的に上がります。

2. 何十回も検索を繰り返す(ロングホライズン・リーソニング)

探偵は、1 回検索して答えが出なくても、「次はどうしよう?」と考えます。

  • 行動:
    1. 「この男の子はバスケットボール選手かな?」→検索。
    2. 「チーム名が『レイカーズ』と書いてあるな」→検索。
    3. 「レイカーズの選手リストを見て、この顔に合う人を探す」→検索。
    4. 「あ、この選手の奥さんがこの写真の女性だ!奥さんの名前を検索して…」→検索。
  • 効果: 画像検索とテキスト検索を何十回も、何百回も組み合わせて、断片的な証拠をつなぎ合わせ、最終的な答えにたどり着きます。

🏭 どのようにして AI を鍛えたのか?(データ工場の仕組み)

このすごい探偵を育てるために、研究者たちは**「人工的な探偵訓練シミュレーション」**という工場を作りました。

  1. 難しい問題を作る(フェイジー・マルチホップ):
    単に「猫の名前は?」という簡単な質問ではなく、「猫の飼い主が A 社で働いていて、その娘が B 校に通っている。では、猫の名前は?」のように、答えを導くために何段階も検索と推理が必要になる問題を自動生成しました。
  2. 正解までの道筋を作る:
    最強の AI(GPT-5 や Claude などの最新モデル)を使って、「この問題を解くためには、まず画像のどこを切り取って、次に何を検索し、最後にどう推理するか」という**完璧な手順(軌跡)**を大量に作りました。
  3. AI にそれを学ばせる:
    その「完璧な手順」を AI に見せて、「こうすれば正解にたどり着けるよ」と教えました(教師あり学習)。さらに、実際に検索エンジンを使って試行錯誤させ、「正解したときはご褒美、間違えたら反省」というゲーム感覚で、自分で考えながら学習する力を強化しました(強化学習)。

🏆 結果:小さなモデルでも最強に!

この技術を導入した結果、驚くべきことが起こりました。

  • 小さなモデルでも大活躍: 巨大なスーパーコンピュータのようなモデルでなくても、比較的小さなモデル(80 億パラメータなど)でも、GPT-5 や Gemini 2.5 Pro といった、世界最高峰のクローズドソース(中身が見えない)の AI が作った「エージェント(自動作業ロボット)」よりも、はるかに高い性能を発揮しました。
  • 6 つのテストで 1 位: 画像検索や複雑な推理が必要なテストで、既存のどの AI よりも正解率が高くなりました。

💡 まとめ

この論文が伝えていることはシンプルです。

「AI に『全体を見て一発で答えを出す』ことを強いるのではなく、『画像を細かく切り分け、何回も検索し、粘り強く推理する』という、人間のような探偵の行動パターンを教えることで、AI は劇的に賢くなれる」

これまでは「検索エンジンに頼りすぎず、AI 自身の知識だけで答えよう」としていた時代から、「検索エンジンと AI がチームになって、泥臭くでも徹底的に調べ上げる時代」へと進化させた画期的な研究です。