AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

本論文は、現実世界の複雑な視覚シナリオと長期的なツール利用を評価するための新しいベンチマーク「AgentVista」を提案し、最先端のマルチモーダルエージェントがこれらのタスクにおいて依然として大きな課題を抱えていることを示しています。

Zhaochen Su, Jincheng Gao, Hangyu Guo, Zhenhua Liu, Lueyang Zhang, Xinyu Geng, Shijue Huang, Peng Xia, Guanyu Jiang, Cheng Wang, Yue Zhang, Yi R. Fung, Junxian He

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

📸 現実世界の「AI 探偵」をテストする新しい試験:AgentVista の解説

この論文は、**「AgentVista(エージェント・ヴィスタ)」**という、新しい AI のテスト基準(ベンチマーク)を紹介するものです。

これまでの AI のテストは、どちらかというと「学校の試験」や「クイズ大会」のようなものでした。「この写真を見て、何が見えますか?」「この文章の続きを言ってください」といった、一度きりの質問に答える能力を測るものが主流でした。

しかし、現実世界で AI が活躍するには、もっと複雑なことが必要です。例えば、**「壊れた家電の写真をアップロードしたら、AI が自分でマニュアルを検索し、修理方法を調べ、必要な部品を注文して、最終的に修理完了を報告する」**ような、**一連の長い作業(ワークフロー)**をこなせる能力です。

AgentVista は、まさにこの**「現実世界の複雑なタスク」**に挑む AI の能力を測る、非常にハードなテストです。


🏗️ AgentVista とは何か?(アナロジーで解説)

AgentVista を理解するために、以下の 3 つの比喩を使ってみましょう。

1. 「クイズ大会」ではなく「冒険クエスト」

  • これまでのテスト(クイズ大会): 先生が「この写真の犬は何色?」と聞いて、AI が即答する。正解すれば合格。
  • AgentVista(冒険クエスト): 「この写真の犬が病気っぽいです。ネットで症状を調べ、近くの動物病院を探し、予約を取り、治療費を計算してください」という長い物語が始まります。AI は自分で地図を読み、道具(検索エンジンや計算機)を使い、道中で迷子にならないようにしながらゴールを目指さなければなりません。

2. 「道具箱」の使い方が鍵

このテストでは、AI には 4 つの強力な「道具」が与えられます。

  • 🌐 Web 検索: 情報を探す。
  • 🔍 画像検索: 似た写真や図面を探す。
  • 🚶 ページ移動: 検索結果のサイトに入って中身を読む。
  • 💻 コード実行: 画像を切り取ったり、サイズを測ったり、複雑な計算をしたりする。

AgentVista の難しいところは、これらの道具を「交互に」使いながら、長い間(最大 25 回以上も!)作業を続けなければならない点です。

例: 「このフローリングの柄に合うものを探して(画像検索)→ 価格を調べる(Web 検索)→ 部屋の広さを測って(画像処理)→ 総額を計算して(コード実行)」というように、道具を次々と切り替えながら進みます。

3. 「25 問のサブ科目」がある総合テスト

AgentVista は、7 つの大きな分野(商業、地理、技術、エンタメなど)と、25 の細かい分野(スポーツ分析、レゴの組み立て、料理のレシピなど)にまたがっています。

  • 技術系: 「CPU の写真を見て、キャッシュの容量を計算して」
  • 生活系: 「アレルギーがある友達へのチョコレート選び(成分表示を読み、ネットと照らし合わせる)」
  • 地理系: 「閉店時間を考慮して、効率的な移動ルートを組んで」

これらはすべて、「写真や図面」という現実の証拠に基づいて行われるため、AI は単に言葉を並べるだけでなく、「目」を使って現実を理解しなければなりません。


📉 現在の AI はどうだった?(結果の衝撃)

このテストで、世界最高峰の AI たち(GPT-5 や Gemini-3 など)をテストしたところ、結果はあまり良くなかったのです。

  • 最高成績でも 27.3% しか正解しなかった:
    最も得意な AI(Gemini-3-PRO)でも、209 問中 27 問程度しか正解できませんでした。つまり、7 割以上は失敗していることになります。
  • どこでつまずく?
    多くの失敗は、**「写真の細かい部分を見間違える」**ことから始まります。

    例: 「この部品は A だ」と勘違いして検索をかけると、その後のすべての作業が間違った方向に進んでしまい、最終的に「正解」から遠ざかってしまいます。

これは、現在の AI が「一度に大量の情報を処理する力」はあっても、**「長い道のりを、途中で迷わず、道具を使いこなして歩き続ける力」**がまだ十分ではないことを示しています。


🚀 なぜこれが重要なのか?

このテスト(AgentVista)は、AI 開発者にとって**「羅針盤」**のような役割を果たします。

  1. 現実の壁を突きつける:
    「すごい AI」だと言われても、複雑な現実のタスク(旅行計画、家電修理、買い物など)ではまだ頼りにならない、という真実を浮き彫りにしました。
  2. 次の進化への道標:
    「視覚的な理解」と「道具(ツール)の使い方」をどう組み合わせれば、AI がもっと賢く、頼もしくなるかが見えてきました。

結論

AgentVista は、AI に**「学校の成績」ではなく「社会人としての実力」を問う、非常にハードな試験です。
今の AI は、まだ「新人研修生」レベルで、複雑な現場では失敗も多いですが、このテストを通じて、
「写真を見て、道具を使い、長い間考え続ける」**ことができる、本当に頼れる AI への道が開かれていくでしょう。


一言で言うと:

「AI に『写真を見て、自分で調べ、計算して、問題を解決する』という、現実世界の『冒険』をさせてみたところ、まだ道に迷ってばかりだった。でも、このテストがあれば、AI をもっと賢く育てるヒントが得られる!」