DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

本論文は、事前の推論データや外部モデルに依存せず、強化学習によってモデル自身が視覚情報を戦略的に活用して推論する「画像で思考する」能力を自然に獲得し、多様なベンチマークで顕著な性能向上と人間に近い視覚推論パターンを実現する DeepEyes を提案するものである。

Ziwei Zheng, Michael Yang, Jack Hong, Chenxiao Zhao, Guohai Xu, Le Yang, Chao Shen, Xing Yu

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

DeepEyes(ディープアイズ):画像を見て「考える」AI の物語

こんにちは!今日は、最新の AI 研究「DeepEyes(ディープアイズ)」について、難しい専門用語を使わずに、まるで物語のようにお話しします。

🕵️‍♂️ 従来の AI は「目隠し」で推理していた?

まず、これまでの「大規模な画像と言語の AI(VLM)」はどんな感じだったか想像してみてください。

彼らはとても頭が良いのですが、「目隠し」をして推理しているようなものでした。
例えば、「この写真の左側に時計はある?」と聞かれたとき、AI は写真全体を一度に「パッと」見て、テキスト(言葉)だけで「あ、左側には時計がないな」と推測します。

でも、もし写真がものすごく高解像度で、時計が小さく、遠くにあったり、ぼやけていたりしたらどうでしょう?
従来の AI は「全体像」しか見られないので、「たぶんないだろうな」という勘で答えてしまい、間違ったり、実際にはあるのに「ない」と言ったり(これを「幻覚」と呼びます)していました。

👁️ DeepEyes の登場:「実際に覗き込んで」考える

そこで登場するのが、今回のDeepEyesです。
この AI は、ただ写真を見るだけでなく、**「実際に双眼鏡を持って、気になる部分を拡大して覗き込む」**という行動を、自分で考えながら実行します。

これを**「画像を使って考える(Thinking with Images)」**と呼んでいます。

🎮 ゲームで例えると?

  • 従来の AI:広大な森の地図を一枚見て、「北東に宝箱があるはずだ」と推測して答える。
  • DeepEyes:「ん?この木の下、影が変だぞ」と思ったら、**「よし、ここを拡大してみよう!」**と自分で地図を拡大(ズームイン)し、実際に木の下を覗き込んで「あ、宝箱だ!」と確認してから答える。

🧠 どうやって「賢く」なったの?(魔法のトレーニング)

DeepEyes がこのすごい能力を身につけたのは、**「正解したらご褒美」**というゲームのルール(強化学習)のおかげです。

  1. 最初は失敗ばかり:最初は AI も「あ、ここを拡大しようかな?」と迷ったり、間違った場所を拡大したりしていました。
  2. ご褒美のルール:研究者たちは、「間違った場所を拡大してもご褒美は出ない。でも、『正解』を導き出すために、必要な場所で拡大したなら、ご褒美を倍にする!」というルールを作りました。
  3. 成長のプロセス
    • 第 1 段階(探検):とりあえずあちこち拡大してみる。
    • 第 2 段階(過剰反応):「拡大すれば正解する!」と気づき、必要以上に拡大しすぎる。
    • 第 3 段階(達人):「あ、ここだけ拡大すればいいんだな」と、必要な時だけ、必要な場所をピンポイントで拡大するようになる。

このプロセスは、人間が「よくわからないから、拡大鏡でよく見てみよう」と考えるプロセスとそっくりです。

🌟 DeepEyes ができるすごいこと

  1. 高解像度の写真もバッチリ
    従来の AI が「見えない」と言って諦めてしまう、小さな文字や細かい模様も、拡大して読むことができます。テストでは、従来の AI よりも18% も性能が上がりました(これはすごい差です!)。

  2. 嘘をつかなくなる(幻覚の防止)
    「写真に時計がある?」と聞かれて、AI が「ある」と勘違いして答えるのを防ぎます。拡大して「あ、ないな」と確認するから、嘘をつかなくなるのです。

  3. 特別なツールは不要
    以前は「拡大鏡機能」を使うために、別の専門の AI をつなげたり、複雑な手順を教え込んだりしていました。でも DeepEyes は、最初からその能力を内蔵しており、特別な準備なしに「自分で拡大する」ことを学びました。

🎭 人間の思考に似た「思考パターン」

DeepEyes は、以下のような人間の思考パターンを自然に身につけました。

  • 🔍 探索(Visual Search):「どこにあるかわからないから、あちこち探してみよう」と、画像をスキャンする。
  • ⚖️ 比較(Visual Comparison):「A と B、どっちが変だっけ?」と、複数の部分を拡大して比べる。
  • ✅ 確認(Visual Confirmation):「あれ?これって〇〇かな?いや、もっとよく見て確認しよう」と、自信が持てない部分を再確認する。
  • 🚫 訂正(Hallucination Mitigation):「最初は黒い服だと思ったけど、拡大したら赤だった!訂正する!」と、自分の間違いを直す。

🚀 まとめ:AI も「目」を使って考える時代へ

DeepEyes は、AI が「ただの言葉の生成機」から、**「実際に世界を見て、確認しながら考えるパートナー」**へと進化するための大きな一歩です。

まるで、探偵が事件現場で「あ、この足跡、拡大鏡で見ないとわからないな」と言って、自ら証拠を集めるように、AI もこれからは**「画像を覗き込んで、深く考える」**ことができるようになります。

これからの AI は、もっと人間らしく、賢く、そして頼もしい存在になっていくかもしれませんね!