Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 従来の AI の問題点：「全体写真」だけ見て諦める探偵

これまでの AI（マルチモーダル大規模言語モデル）は、画像を見て質問に答える際、「全体の写真」を一度だけ検索エンジンに投げかけるというやり方をしていました。

例え話：
探偵が「この写真の中の男の子は誰？」と聞かれました。
従来の AI は、**「写真全体をコピーして検索」**します。しかし、背景にたくさんの人々がいて、男の子が小さく写っていたり、背景がごちゃごちゃしていたりすると、検索結果は「誰か分からない」や「全く関係ない画像」ばかり返ってきます。
さらに、AI は「検索して 1 回で答えが出なかったら、もうダメだ」と考えて、すぐに諦めてしまいます。

この論文は、この 2 つの大きな弱点を指摘しました。

ヒット率の問題： 全体画像や簡単な検索では、必要な情報が見つからないことが多い。
探求の浅さ： 一度検索してダメなら、別の角度から探したり、何度も検索し直したりする「粘り強さ」がない。

🚀 新しい技術「Vision-DeepResearch」：執念の探偵

この新しい技術は、AI に**「執念深い探偵」**のような行動パターンを教えました。

1. 画像を「切り抜き」ながら、何度も検索する（マルチスケール・マルチエンティティ）

探偵は、全体写真を見て「分からない」と即座に諦めません。

行動： 「あ、この男の子の顔が小さすぎるな。じゃあ、顔の部分だけ切り取って検索してみよう」「あ、背景の看板がヒントになりそうだから、看板の部分だけ切り取って検索しよう」。
効果： 画像の「どの部分」を「どの大きさ」で検索するかを、AI が自分で判断して何十回も試行錯誤します。これにより、必要な情報が「ヒット」する確率が劇的に上がります。

2. 何十回も検索を繰り返す（ロングホライズン・リーソニング）

探偵は、1 回検索して答えが出なくても、「次はどうしよう？」と考えます。

行動：
1. 「この男の子はバスケットボール選手かな？」→検索。
2. 「チーム名が『レイカーズ』と書いてあるな」→検索。
3. 「レイカーズの選手リストを見て、この顔に合う人を探す」→検索。
4. 「あ、この選手の奥さんがこの写真の女性だ！奥さんの名前を検索して…」→検索。
効果： 画像検索とテキスト検索を何十回も、何百回も組み合わせて、断片的な証拠をつなぎ合わせ、最終的な答えにたどり着きます。

🏭 どのようにして AI を鍛えたのか？（データ工場の仕組み）

このすごい探偵を育てるために、研究者たちは**「人工的な探偵訓練シミュレーション」**という工場を作りました。

難しい問題を作る（フェイジー・マルチホップ）：
単に「猫の名前は？」という簡単な質問ではなく、「猫の飼い主が A 社で働いていて、その娘が B 校に通っている。では、猫の名前は？」のように、答えを導くために何段階も検索と推理が必要になる問題を自動生成しました。
正解までの道筋を作る：
最強の AI（GPT-5 や Claude などの最新モデル）を使って、「この問題を解くためには、まず画像のどこを切り取って、次に何を検索し、最後にどう推理するか」という**完璧な手順（軌跡）**を大量に作りました。
AI にそれを学ばせる：
その「完璧な手順」を AI に見せて、「こうすれば正解にたどり着けるよ」と教えました（教師あり学習）。さらに、実際に検索エンジンを使って試行錯誤させ、「正解したときはご褒美、間違えたら反省」というゲーム感覚で、自分で考えながら学習する力を強化しました（強化学習）。

🏆 結果：小さなモデルでも最強に！

この技術を導入した結果、驚くべきことが起こりました。

小さなモデルでも大活躍： 巨大なスーパーコンピュータのようなモデルでなくても、比較的小さなモデル（80 億パラメータなど）でも、GPT-5 や Gemini 2.5 Pro といった、世界最高峰のクローズドソース（中身が見えない）の AI が作った「エージェント（自動作業ロボット）」よりも、はるかに高い性能を発揮しました。
6 つのテストで 1 位： 画像検索や複雑な推理が必要なテストで、既存のどの AI よりも正解率が高くなりました。

💡 まとめ

この論文が伝えていることはシンプルです。

「AI に『全体を見て一発で答えを出す』ことを強いるのではなく、『画像を細かく切り分け、何回も検索し、粘り強く推理する』という、人間のような探偵の行動パターンを教えることで、AI は劇的に賢くなれる」

これまでは「検索エンジンに頼りすぎず、AI 自身の知識だけで答えよう」としていた時代から、「検索エンジンと AI がチームになって、泥臭くでも徹底的に調べ上げる時代」へと進化させた画期的な研究です。

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

🕵️‍♂️ 従来の AI の問題点：「全体写真」だけ見て諦める探偵

🚀 新しい技術「Vision-DeepResearch」：執念の探偵

1. 画像を「切り抜き」ながら、何度も検索する（マルチスケール・マルチエンティティ）

2. 何十回も検索を繰り返す（ロングホライズン・リーソニング）

🏭 どのようにして AI を鍛えたのか？（データ工場の仕組み）

🏆 結果：小さなモデルでも最強に！

💡 まとめ

Vision-DeepResearch: マルチモーダル大規模言語モデルにおける深層調査能力の強化

1. 問題定義 (Problem Definition)

2. 手法 (Methodology)

2.1. データパイプラインの構築

2.2. トレーニング戦略

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

5. 意義 (Significance)

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

🕵️‍♂️ 従来の AI の問題点：「全体写真」だけ見て諦める探偵

🚀 新しい技術「Vision-DeepResearch」：執念の探偵

1. 画像を「切り抜き」ながら、何度も検索する（マルチスケール・マルチエンティティ）

2. 何十回も検索を繰り返す（ロングホライズン・リーソニング）

🏭 どのようにして AI を鍛えたのか？（データ工場の仕組み）

🏆 結果：小さなモデルでも最強に！

💡 まとめ

Vision-DeepResearch: マルチモーダル大規模言語モデルにおける深層調査能力の強化

1. 問題定義 (Problem Definition)

2. 手法 (Methodology)

2.1. データパイプラインの構築

2.2. トレーニング戦略

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

5. 意義 (Significance)

関連論文

Bitboard version of Tetris AI

Multiverse: Language-Conditioned Multi-Game Level Blending via Shared Representation

Concerning Uncertainty -- A Systematic Survey of Uncertainty-Aware XAI

Neuro-Symbolic Learning for Predictive Process Monitoring via Two-Stage Logic Tensor Networks with Rule Pruning

Compliance-Aware Predictive Process Monitoring: A Neuro-Symbolic Approach