Each language version is independently generated for its own context, not a direct translation.

DeepEyesV2：まるで「探偵」になったAIの物語

この論文は、**「DeepEyesV2（ディープアイズ・バージョン2）」**という新しいAIモデルについて紹介しています。

これまでのAIは、写真を見て「これは猫ですね」と答えるのは得意でしたが、**「なぜその猫がそこにいるのか？」「その猫の品種を調べるにはどうすればいいか？」**と、自ら行動して答えを見つけることは苦手でした。

DeepEyesV2は、そんなAIを**「能動的な探偵（エージェント）」**へと進化させたものです。

🕵️‍♂️ 1. 従来のAI vs 新しいAI（探偵）の違い

従来のAI（受動的な図書館司書）：
本（画像やテキスト）を渡されると、その中から答えを探して返します。しかし、「本に載っていないこと」や「拡大して細部を見る必要があること」には弱く、「わからない」と言って諦めてしまったり、勘違い（ハルシネーション）をして嘘をついたりしていました。
DeepEyesV2（能動的な探偵）：
質問を聞くと、ただ本を読むだけでなく、自ら行動します。
- 拡大鏡（画像操作）： 写真の隅々を拡大して、細部を確認する。
- インターネット検索（Web検索）： 最新の情報をネットから探してくる。
- 計算機（コード実行）： 数値を計算して、正確な答えを出す。
これらを組み合わせて、「証拠を集め、推理し、確実な答え」を導き出します。

🛠️ 2. 探偵になるための「2段階トレーニング」

この論文の最大の特徴は、AIをいきなり「探偵」にしようとして失敗した経験から学んだ**「2段階のトレーニング方法」**です。

第1段階：「見習い探偵」への入門（コールドスタート）

いきなり「自分で考えて行動しなさい」と言っても、AIは混乱して失敗ばかりします（コードを書いても動かない、検索しても意味がない結果が出るなど）。
そこで、まず**「模範解答」を見ながら練習**させます。

何をする？ 「この問題は拡大鏡が必要だ」「次はネットで検索しよう」という**正しい手順（思考の道筋）**を大量に学習させます。
目的： 「道具（ツール）を使うこと」自体の癖を体に染み込ませる段階です。

第2段階：「名探偵」への昇進（強化学習）

道具の使い方がわかったら、次は**「正解かどうか」で褒めたり叱ったり**して、より賢くさせます。

何をする？ 自分で試行錯誤させて、正解にたどり着ければ「ご褒美（報酬）」をあげます。
効果： 最初は「何でもかんでも道具を使う」傾向がありましたが、学習が進むと**「本当に必要な時だけ道具を使う」という、人間のような「状況に応じた判断力」**が身につきます。無駄な行動が減り、効率的に答えにたどり着けるようになります。

🧩 3. 道具の使い分け：状況に合わせて変身

DeepEyesV2は、問題の種類によって使い分ける「変身」が得意です。

写真の細部を見る問題： 拡大鏡（画像クロップ）や色の変更など、**「視覚的な道具」**を駆使します。
- 例：「この花の品種は？」→ 花の部分を拡大して、その画像で検索する。
計算や論理の問題： 計算機（コード実行）を使って、**「数値的な道具」**を使います。
- 例：「グラフの平均値は？」→ 数値を読み取り、プログラムで計算する。
知識が必要な問題： インターネット検索を使って、**「情報収集の道具」**を使います。
- 例：「この会社の株価は？」→ 最新のニュースや株価サイトを探す。

🏆 4. 新しいテスト「RealX-Bench」の登場

これまでのテストは、「写真を見る力」だけ、あるいは「検索する力」だけを測るものが多かったため、本当の「探偵力」は測れていませんでした。
そこで、この論文では**「RealX-Bench（リアルX・ベンチ）」**という新しいテストを作成しました。

特徴： 「写真を見て（視覚）」＋「ネットで検索して（検索）」＋「論理的に考えて（推理）」の3つを同時に使うような、現実世界の難しい問題ばかりを集めています。
結果： DeepEyesV2はこのテストで、従来のAIや他のモデルを大きく引き離す成績を残しました。特に、人間でも難しいような複雑な問題で、高い正解率を叩き出しています。

💡 まとめ：なぜこれがすごいのか？

DeepEyesV2は、単に「賢くなった」だけでなく、**「どうやって答えを見つけるか（プロセス）」**を自分で考え、必要な道具を自分で選んで使えるようになった点で画期的です。

嘘をつきにくい： 自分で証拠（画像や検索結果）を集めてから答えるので、根拠のない嘘が減ります。
現実世界で使える： 複雑な現実の問題（株価の比較、地図の読み取り、複雑な図表の分析など）を、人間のように柔軟に解決できます。

この研究は、これからのAIが**「ただ答える機械」から「一緒に考え、行動するパートナー」**へと進化するための重要な一歩を示しています。まるで、AIが「探偵の帽子」をかぶり、事件解決のために自ら動き出すようになったようなイメージです。

DeepEyesV2: Toward Agentic Multimodal Model

DeepEyesV2：まるで「探偵」になったAIの物語

🕵️‍♂️ 1. 従来のAI vs 新しいAI（探偵）の違い

🛠️ 2. 探偵になるための「2段階トレーニング」

第1段階：「見習い探偵」への入門（コールドスタート）

第2段階：「名探偵」への昇進（強化学習）

🧩 3. 道具の使い分け：状況に合わせて変身

🏆 4. 新しいテスト「RealX-Bench」の登場

💡 まとめ：なぜこれがすごいのか？

DeepEyesV2: 能動的なマルチモーダルモデルに向けた研究

技術的サマリー（日本語）

1. 背景と問題定義

2. 提案手法：DeepEyesV2

2.1 二段階トレーニングパイプライン

2.2 統合された推論ループ

3. 主要な貢献

4. 実験結果

5. 意義と結論

DeepEyesV2: Toward Agentic Multimodal Model

DeepEyesV2：まるで「探偵」になったAIの物語

🕵️‍♂️ 1. 従来のAI vs 新しいAI（探偵）の違い

🛠️ 2. 探偵になるための「2段階トレーニング」

第1段階：「見習い探偵」への入門（コールドスタート）

第2段階：「名探偵」への昇進（強化学習）

🧩 3. 道具の使い分け：状況に合わせて変身

🏆 4. 新しいテスト「RealX-Bench」の登場

💡 まとめ：なぜこれがすごいのか？

DeepEyesV2: 能動的なマルチモーダルモデルに向けた研究

技術的サマリー（日本語）

1. 背景と問題定義

2. 提案手法：DeepEyesV2

2.1 二段階トレーニングパイプライン

2.2 統合された推論ループ

3. 主要な貢献

4. 実験結果

5. 意義と結論

関連論文

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA