MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

本論文は、検索集約的なマルチモーダル QA データの不足、効果的な検索軌跡の欠如、オンライン検索 API の高コストという 3 つの課題に対処するため、ハイパーグラフに基づくデータ生成法「Hyper-Search」、ツール特化型エキスパートを木探索で再構成する「DR-TTS」、およびオフライン検索エンジンを組み合わせた「MM-DeepResearch」を提案し、複雑な深層検索タスクにおいて優れた性能を実証したものである。

Huanjin Yao, Qixiang Yin, Min Yang, Ziwang Zhao, Yibo Wang, Haotian Luo, Jingyi Zhang, Jiaxing Huang

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「MM-DeepResearch」**という、画像を見て深く調べるのが得意な新しい AI について紹介しています。

従来の AI は「知っていること」だけで答えるのが限界でしたが、この新しい AI は、**「わからないことは自分で検索して、画像と文章を組み合わせて答えを見つける」**ことができます。まるで、優秀な図書館司書が、本だけでなく、写真や地図も使いながら、複雑な謎を解くようなものです。

しかし、そんな賢い AI を作るには、3 つの大きな壁がありました。この論文は、その壁をどう乗り越えたかを説明しています。


🏗️ 3 つの大きな壁と、それを壊すための「魔法の道具」

壁 1:「調べる練習問題」が足りない

【問題】
AI に「検索して答えなさい」と教えるには、大量の「画像を見て、ネット検索して、答えを出す」という練習問題(データ)が必要です。でも、世の中にはそんな高品質な問題がほとんどありませんでした。

【解決策:ハイパー・サーチ(Hyper-Search)】
**「超連結の迷路」**を作りました。

  • 仕組み: 1 枚の画像を起点にして、それに関連する他の画像やウェブサイトの文章を、まるで蜘蛛の巣(ハイパーグラフ)のように広げていきます。
  • 効果: 「この画像の建物は誰が設計した?」という質問に対して、画像検索→関連記事検索→建築家検索…と、複数の検索を繰り返さないと答えられないような、高度な練習問題を自動で大量に作りました。

壁 2:「検索の道筋」がわからない

【問題】
AI が検索する時、「まず画像検索して、次に文章検索して…」という正しい手順(軌跡)を自分で見つけるのが難しいのです。間違った手順を踏んで、迷子になってしまうことが多いです。

【解決策:DR-TTS(分解・再構成ツリーサーチ)】
**「専門家チームによる分業とシミュレーション」**を行いました。

  • 分解: まず、AI を「画像検索の専門家」「文章検索の専門家」などに分け、それぞれが自分の得意分野だけを極限まで練習させます。
  • 再構成: 次に、これらの専門家チームを合体させて、木のように枝分かれする「シミュレーション(木探索)」を行います。「もしこの検索をしたらどうなる?」「あっちの検索の方が良さそう!」と、最も確実な答えにたどり着く道筋を、失敗を繰り返しながら見つけ出します。
  • 効果: 1 人の AI が独りで迷うのではなく、専門家チームが協力して「正解への地図」を描き出し、それを AI に教えます。

壁 3:「検索コスト」が高すぎる

【問題】
AI を訓練する際、実際のインターネット(Google 検索など)を使うと、1 回あたりのコストが数千円になり、訓練自体が破産してしまいます。

【解決策:オフライン検索エンジン】
**「巨大な模擬図書館」**を自前で用意しました。

  • 仕組み: 事前に必要な画像や文章を大量にダウンロードして、AI が検索できる「オフラインのデータベース」を作りました。
  • 効果: 実際のインターネットに接続する必要がなくなるため、訓練コストはほぼゼロになり、何千回も何万回も「検索の練習」を安く、速く行えるようになりました。

🚀 完成した AI「MM-DeepResearch」のすごいところ

この 3 つの工夫を組み合わせることで、生まれたのが**「MM-DeepResearch」**です。

  • どんなことができる?
    • 画像を見て「これはどこ?」と疑問に思う。
    • 画像検索で場所を特定し、さらに文章検索で「誰が設計したか」「いつ建てられたか」を調べる。
    • 複数の情報を組み合わせて、最終的な答えを導き出す。
  • 結果は?
    • 既存の AI や、高価な検索 API を使った他の AI よりも、はるかに高い精度で複雑な質問に答えられることが実験で証明されました。

🎒 まとめ:まるで「探偵」になった AI

この論文は、AI に**「探偵」**としての能力を授けた物語です。

  1. 訓練教材(Hyper-Search): 探偵が解くべき「難事件(複雑な検索問題)」を大量に作成。
  2. 捜査手法(DR-TTS): 探偵が「証拠集め(検索)」の正しい手順を、専門家チームのシミュレーションで学習。
  3. 捜査現場(オフライン検索): 高価な本物の現場に行く代わりに、安価で安全な「模擬現場」で何回も訓練。

これにより、AI は「知っていること」だけでなく、「調べること」自体を得意とし、私たちが画像を見て「あれは何?」と疑問を持った時、まるで優秀な助手のように、必要な情報を集めて答えを導き出せるようになったのです。