Each language version is independently generated for its own context, not a direct translation.

DeepEyes（ディープアイズ）：画像を見て「考える」AI の物語

こんにちは！今日は、最新の AI 研究「DeepEyes（ディープアイズ）」について、難しい専門用語を使わずに、まるで物語のようにお話しします。

🕵️‍♂️ 従来の AI は「目隠し」で推理していた？

まず、これまでの「大規模な画像と言語の AI（VLM）」はどんな感じだったか想像してみてください。

彼らはとても頭が良いのですが、「目隠し」をして推理しているようなものでした。
例えば、「この写真の左側に時計はある？」と聞かれたとき、AI は写真全体を一度に「パッと」見て、テキスト（言葉）だけで「あ、左側には時計がないな」と推測します。

でも、もし写真がものすごく高解像度で、時計が小さく、遠くにあったり、ぼやけていたりしたらどうでしょう？
従来の AI は「全体像」しか見られないので、「たぶんないだろうな」という勘で答えてしまい、間違ったり、実際にはあるのに「ない」と言ったり（これを「幻覚」と呼びます）していました。

👁️ DeepEyes の登場：「実際に覗き込んで」考える

そこで登場するのが、今回のDeepEyesです。
この AI は、ただ写真を見るだけでなく、**「実際に双眼鏡を持って、気になる部分を拡大して覗き込む」**という行動を、自分で考えながら実行します。

これを**「画像を使って考える（Thinking with Images）」**と呼んでいます。

🎮 ゲームで例えると？

従来の AI：広大な森の地図を一枚見て、「北東に宝箱があるはずだ」と推測して答える。
DeepEyes：「ん？この木の下、影が変だぞ」と思ったら、**「よし、ここを拡大してみよう！」**と自分で地図を拡大（ズームイン）し、実際に木の下を覗き込んで「あ、宝箱だ！」と確認してから答える。

🧠 どうやって「賢く」なったの？（魔法のトレーニング）

DeepEyes がこのすごい能力を身につけたのは、**「正解したらご褒美」**というゲームのルール（強化学習）のおかげです。

最初は失敗ばかり：最初は AI も「あ、ここを拡大しようかな？」と迷ったり、間違った場所を拡大したりしていました。
ご褒美のルール：研究者たちは、「間違った場所を拡大してもご褒美は出ない。でも、『正解』を導き出すために、必要な場所で拡大したなら、ご褒美を倍にする！」というルールを作りました。
成長のプロセス：
- 第 1 段階（探検）：とりあえずあちこち拡大してみる。
- 第 2 段階（過剰反応）：「拡大すれば正解する！」と気づき、必要以上に拡大しすぎる。
- 第 3 段階（達人）：「あ、ここだけ拡大すればいいんだな」と、必要な時だけ、必要な場所をピンポイントで拡大するようになる。

このプロセスは、人間が「よくわからないから、拡大鏡でよく見てみよう」と考えるプロセスとそっくりです。

🌟 DeepEyes ができるすごいこと

高解像度の写真もバッチリ：
従来の AI が「見えない」と言って諦めてしまう、小さな文字や細かい模様も、拡大して読むことができます。テストでは、従来の AI よりも18% も性能が上がりました（これはすごい差です！）。
嘘をつかなくなる（幻覚の防止）：
「写真に時計がある？」と聞かれて、AI が「ある」と勘違いして答えるのを防ぎます。拡大して「あ、ないな」と確認するから、嘘をつかなくなるのです。
特別なツールは不要：
以前は「拡大鏡機能」を使うために、別の専門の AI をつなげたり、複雑な手順を教え込んだりしていました。でも DeepEyes は、最初からその能力を内蔵しており、特別な準備なしに「自分で拡大する」ことを学びました。

🎭 人間の思考に似た「思考パターン」

DeepEyes は、以下のような人間の思考パターンを自然に身につけました。

🔍 探索（Visual Search）：「どこにあるかわからないから、あちこち探してみよう」と、画像をスキャンする。
⚖️ 比較（Visual Comparison）：「A と B、どっちが変だっけ？」と、複数の部分を拡大して比べる。
✅ 確認（Visual Confirmation）：「あれ？これって〇〇かな？いや、もっとよく見て確認しよう」と、自信が持てない部分を再確認する。
🚫 訂正（Hallucination Mitigation）：「最初は黒い服だと思ったけど、拡大したら赤だった！訂正する！」と、自分の間違いを直す。

🚀 まとめ：AI も「目」を使って考える時代へ

DeepEyes は、AI が「ただの言葉の生成機」から、**「実際に世界を見て、確認しながら考えるパートナー」**へと進化するための大きな一歩です。

まるで、探偵が事件現場で「あ、この足跡、拡大鏡で見ないとわからないな」と言って、自ら証拠を集めるように、AI もこれからは**「画像を覗き込んで、深く考える」**ことができるようになります。

これからの AI は、もっと人間らしく、賢く、そして頼もしい存在になっていくかもしれませんね！

Each language version is independently generated for its own context, not a direct translation.

DeepEyes: 強化学習による「画像で考える」能力の誘発に関する技術的サマリー

本論文は、大規模視覚言語モデル（VLM）が従来のテキストベースの推論に留まらず、人間のように**「画像で考える（Thinking with Images）」**能力を習得するための新しいアプローチ「DeepEyes」を提案しています。このモデルは、事前の教師あり微調整（SFT）や外部の専門モデルを必要とせず、エンドツーエンドの強化学習（RL）によって推論プロセスに能動的な視覚認識（Active Perception）を統合します。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細をまとめます。

1. 背景と問題定義

近年の視覚言語モデル（VLM）は、長鎖の思考（Chain-of-Thought: CoT）を用いて複雑なタスクを処理できるようになりました。しかし、既存のモデルには以下の根本的な課題がありました。

テキスト中心の推論: 推論プロセスの大部分がテキスト言語に依存しており、視覚情報の統合が不十分である。
人間型認知の欠如: 人間は視覚的注視（fixation）を順次行い、情報を抽出して推論を行うが、VLM はこれを模倣できていない。
既存手法の限界: 視覚情報を CoT に組み込むための事前定義されたワークフローや外部ツール（ROI 検出など）を用いる手法は、モジュール化による最適性の欠如や、複雑なデータ収集・チューニングを必要とする。

OpenAI の o3 モデルなどが「画像で考える」能力を示したものの、その内部機構は非公開であり、オープンソースコミュニティでは再現が困難でした。

2. 提案手法：DeepEyes

DeepEyes は、モデル自身のナティブなグラウンディング（位置特定）能力を「能動的知覚（Active Perception）」のメカニズムとして活用し、強化学習を通じて推論プロセスに統合するモデルです。

2.1 交差型マルチモーダル CoT (iMCoT)

DeepEyes は、テキストの思考と視覚的な操作（ズームイン）をシームレスに交互に行うInterleaved Multi-modal Chain-of-Thought (iMCoT) を採用します。

プロセス: 入力画像と質問に対し、モデルはテキストで推論を進めつつ、必要な場合に「画像ズームインツール」を呼び出し、特定の領域を切り出して詳細を確認します。
特徴: このプロセスは反復的に行われ、最終的な回答に至るまで、視覚情報とテキスト推論が相互に補完し合います。

2.2 エンドツーエンド強化学習 (Agentic RL)

DeepEyes の最大の特徴は、コールドスタート用の SFT データを必要としない点です。

マルコフ決定過程 (MDP) の拡張: 従来のテキスト CoT の MDP に「観測トークン（外部関数呼び出しからの結果）」を追加し、モデルが生成したテキストと、ズームインによって得られた新しい画像を交互に状態として扱います。
報酬設計:
- 精度報酬 ( $R_{acc}$ ): 最終回答の正誤。
- フォーマット報酬 ( $R_{format}$ ): 出力形式の正当性。
- 条件付きボーナス ( $R_{tool}$ ): 正解かつ能動的知覚（ズームイン）が実行された場合のみ付与されるボーナス。これにより、単なるツール呼び出しではなく、「正解するために必要な視覚的検証」を促します。
最適化: GRPO (Group Relative Policy Optimization) を用い、軌道全体を最適化します。

2.3 データ選定と学習戦略

SFT がない初期段階での学習効率を高めるため、以下の戦略を採用しています。

データ選定: 能動的知覚の効果が期待できる難易度適度なデータ（V*, ArxivQA, ThinkLite-VL など）をフィルタリングし、初期サンプリング効率を最大化します。
報酬条件化: 正解時のみツール使用にボーナスを与えることで、モデルが不要なズームインを減らし、戦略的に視覚情報を活用するよう学習を誘導します。

3. 主要な貢献

SFT 不要な「画像で考える」能力の誘発: 事前の推論データや外部専門モデルなしで、エンドツーエンドの RL によって iMCoT を実現。
能動的知覚の最適化メカニズム: データ選定と条件付き報酬戦略により、モデルが「いつ、どこを、なぜ」見るべきかを自律的に学習させることに成功。
RL 学習ダイナミクスの解明: 能動的知覚の進化が「初期の探索」→「高頻度での利用」→「効率的で選択的な活用」という 3 つの段階を経て成熟することを発見。
多様な推論パターンの出現: 人間の視覚認知に類似した「視覚的検索」「視覚的比較」「視覚的確認」「ハルシネーションの抑制」などの推論パターンが自然に出現することを実証。

4. 実験結果

DeepEyes は、7B パラメータモデル（Qwen2.5-VL ベース）を用いて、広範なベンチマークで SOTA を更新しました。

高解像度ベンチマーク:
- V Bench:* 7B モデルで 90.1%（ベースライン比 +18.9%）。
- HR-Bench (4K/8K): それぞれ +6.3%、+7.3% の改善。
- 複雑なパイプラインを持つ既存手法（SEAL, ZoomEye など）を凌駕し、単純な RL だけで高解像度視覚推論が可能であることを示しました。
一般知覚・推論: MME-RealWorld-Lite などで、7B モデルが 32B モデルを含む既存モデルを上回る性能を発揮。
グラウンディングとハルシネーション: 物体の位置特定精度の向上と、ハルシネーション（虚構）の大幅な減少を確認。特に、視覚的詳細に焦点を当てることで言語的バイアスを打ち消す能力が向上しました。
数学的推論: MathVista や MathVerse などの難易度の高いタスクでも一貫した性能向上が見られました。

5. 学習ダイナミクスと発見

RL 学習過程におけるモデルの振る舞いを分析した結果、以下の 3 つの段階が観察されました。

初期探索 (Steps 0-20): システムプロンプトに従って試行錯誤するが、戦略が未熟でグラウンディング精度が低い。
高頻度利用 (Steps 20-45): 視覚情報を過剰に利用し、広範囲をスキャンするが、効率は低い。
効率的活用 (Steps 45-80): 必要な場面でのみ選択的にズームインを行い、高い精度と短い応答時間でタスクを完了する。これは、モデルが内部で視覚的範囲を絞り込み、仮説を検証する「暗黙的な計画」を獲得したことを示唆します。

6. 意義と将来展望

DeepEyes は、VLM が「受動的な画像理解」から「能動的な視覚的推論」へと進化するための重要なステップです。

解釈可能性: 人間の視覚的推論プロセス（注視、比較、確認）を模倣するパターンが出現することで、AI の推論プロセスをより透明で解釈可能にします。
スケーラビリティ: 大規模モデル（32B）へスケールさせることで、さらに高度な推論能力とグラウンディング精度が向上することが確認されました。
汎用性: 画像の切り出し（クロップ）という単純なツールから始めても、ゼロショットで回転ツールなどの新ツールを統合できる柔軟性を示しました。

本研究は、外部ツールや大規模な SFT データに依存せず、モデル自体の能力を強化学習で引き出すことで、真のマルチモーダル推論を実現する可能性を提示しました。

DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning