DeepEyesV2: Toward Agentic Multimodal Model

本論文は、外部ツールの活用を促すために冷間起動と強化学習の 2 段階トレーニングを採用し、実世界のマルチモーダル推論を評価する RealX-Bench を導入することで、ツールを状況に応じて適応的に選択・組み合わせる自律型マルチモーダルモデル「DeepEyesV2」の構築とその有効性を示しています。

Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu

公開日 2026-03-12
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

DeepEyesV2:まるで「探偵」になったAIの物語

この論文は、**「DeepEyesV2(ディープアイズ・バージョン2)」**という新しいAIモデルについて紹介しています。

これまでのAIは、写真を見て「これは猫ですね」と答えるのは得意でしたが、**「なぜその猫がそこにいるのか?」「その猫の品種を調べるにはどうすればいいか?」**と、自ら行動して答えを見つけることは苦手でした。

DeepEyesV2は、そんなAIを**「能動的な探偵(エージェント)」**へと進化させたものです。


🕵️‍♂️ 1. 従来のAI vs 新しいAI(探偵)の違い

  • 従来のAI(受動的な図書館司書):
    本(画像やテキスト)を渡されると、その中から答えを探して返します。しかし、「本に載っていないこと」や「拡大して細部を見る必要があること」には弱く、「わからない」と言って諦めてしまったり、勘違い(ハルシネーション)をして嘘をついたりしていました。

  • DeepEyesV2(能動的な探偵):
    質問を聞くと、ただ本を読むだけでなく、自ら行動します。

    • 拡大鏡(画像操作): 写真の隅々を拡大して、細部を確認する。
    • インターネット検索(Web検索): 最新の情報をネットから探してくる。
    • 計算機(コード実行): 数値を計算して、正確な答えを出す。

    これらを組み合わせて、「証拠を集め、推理し、確実な答え」を導き出します。

🛠️ 2. 探偵になるための「2段階トレーニング」

この論文の最大の特徴は、AIをいきなり「探偵」にしようとして失敗した経験から学んだ**「2段階のトレーニング方法」**です。

第1段階:「見習い探偵」への入門(コールドスタート)

いきなり「自分で考えて行動しなさい」と言っても、AIは混乱して失敗ばかりします(コードを書いても動かない、検索しても意味がない結果が出るなど)。
そこで、まず**「模範解答」を見ながら練習**させます。

  • 何をする? 「この問題は拡大鏡が必要だ」「次はネットで検索しよう」という**正しい手順(思考の道筋)**を大量に学習させます。
  • 目的: 「道具(ツール)を使うこと」自体の癖を体に染み込ませる段階です。

第2段階:「名探偵」への昇進(強化学習)

道具の使い方がわかったら、次は**「正解かどうか」で褒めたり叱ったり**して、より賢くさせます。

  • 何をする? 自分で試行錯誤させて、正解にたどり着ければ「ご褒美(報酬)」をあげます。
  • 効果: 最初は「何でもかんでも道具を使う」傾向がありましたが、学習が進むと**「本当に必要な時だけ道具を使う」という、人間のような「状況に応じた判断力」**が身につきます。無駄な行動が減り、効率的に答えにたどり着けるようになります。

🧩 3. 道具の使い分け:状況に合わせて変身

DeepEyesV2は、問題の種類によって使い分ける「変身」が得意です。

  • 写真の細部を見る問題: 拡大鏡(画像クロップ)や色の変更など、**「視覚的な道具」**を駆使します。
    • 例:「この花の品種は?」→ 花の部分を拡大して、その画像で検索する。
  • 計算や論理の問題: 計算機(コード実行)を使って、**「数値的な道具」**を使います。
    • 例:「グラフの平均値は?」→ 数値を読み取り、プログラムで計算する。
  • 知識が必要な問題: インターネット検索を使って、**「情報収集の道具」**を使います。
    • 例:「この会社の株価は?」→ 最新のニュースや株価サイトを探す。

🏆 4. 新しいテスト「RealX-Bench」の登場

これまでのテストは、「写真を見る力」だけ、あるいは「検索する力」だけを測るものが多かったため、本当の「探偵力」は測れていませんでした。
そこで、この論文では**「RealX-Bench(リアルX・ベンチ)」**という新しいテストを作成しました。

  • 特徴: 「写真を見て(視覚)」+「ネットで検索して(検索)」+「論理的に考えて(推理)」の3つを同時に使うような、現実世界の難しい問題ばかりを集めています。
  • 結果: DeepEyesV2はこのテストで、従来のAIや他のモデルを大きく引き離す成績を残しました。特に、人間でも難しいような複雑な問題で、高い正解率を叩き出しています。

💡 まとめ:なぜこれがすごいのか?

DeepEyesV2は、単に「賢くなった」だけでなく、**「どうやって答えを見つけるか(プロセス)」**を自分で考え、必要な道具を自分で選んで使えるようになった点で画期的です。

  • 嘘をつきにくい: 自分で証拠(画像や検索結果)を集めてから答えるので、根拠のない嘘が減ります。
  • 現実世界で使える: 複雑な現実の問題(株価の比較、地図の読み取り、複雑な図表の分析など)を、人間のように柔軟に解決できます。

この研究は、これからのAIが**「ただ答える機械」から「一緒に考え、行動するパートナー」**へと進化するための重要な一歩を示しています。まるで、AIが「探偵の帽子」をかぶり、事件解決のために自ら動き出すようになったようなイメージです。