Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

本論文は、既存の参照表現理解ベンチマークの弱点を克服し、言語的複雑性と困難な敵対的ノイズを備えた新しいベンチマーク「Ref-Adv」を提案し、多モーダル大規模言語モデルが既存タスクでは高い性能を示すものの、この新しいベンチマークでは視覚推論やグラウンディングの能力不足とショートカットへの依存が露呈することを示しています。

Qihua Dong, Kuo Yang, Lin Ju, Handong Zhao, Yitian Zhang, Yizhou Wang, Huimin Zeng, Jianglin Lu, Yun Fu

公開日 2026-03-02
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

1. 今までのテストは「甘すぎる」

これまでの AI 評価テスト(RefCOCO など)では、AI は非常に高い点数(90% 以上)を取っていました。しかし、著者たちは「これは AI が本当に賢くなったからではなく、テストの出し方が甘すぎるからだ」と指摘しています。

【例え話:お菓子の箱】

  • 今のテスト: 箱の中に「赤いリンゴ」が 1 つだけ入っていて、他の果物は入っていない状態です。「赤いリンゴを取って」と言われれば、AI は「リンゴ」という言葉さえ知っていれば、箱の中身を確認しなくても「あ、これだ!」と即座に答えられます。
  • 問題点: AI はリンゴの形や色を詳しく見て判断しているのではなく、「赤いリンゴ」という言葉と「箱に 1 つしかない」という状況から、**「ショートカット(近道)」**で正解を出しているに過ぎません。

2. 新しいテスト「Ref-Adv」の登場

そこで著者たちは、**「AI に本当の推理力を試す」**ための新しいテスト「Ref-Adv」を作りました。

【例え話:混雑したスーパーマーケット】

  • 新しいテスト: 棚には「リンゴ」が 10 個も並んでいます。そのうち、**「赤くて、少し傷がついていて、左から 3 番目にあるもの」**を指し示してください、と言います。
  • 難易度アップ:
    • 似たものがたくさんある: 似たリンゴ(ダミー)が大量にいて、間違えやすい。
    • 言葉が複雑: 「左から 3 番目」「傷がついている」など、複数の条件を組み合わせないと正解できません。
    • 裏技禁止: 「赤いリンゴ」と言っても、傷がついていない赤いリンゴもあれば、右側にある赤いリンゴもあります。条件を全部満たすものを探す必要があります。

3. 結果:AI は「近道」に頼っていた

この新しいテストで、最新の AI(マルチモーダル LLM)をテストしたところ、劇的に成績が落ちました。

  • これまでのテスト: 90% 以上の正解率(「リンゴ」って言えば正解だった)。
  • 新しいテスト: 50% 前後まで低下(「傷がついていない赤いリンゴ」を選んでしまうなど、条件を無視した)。

【例え話:暗記 vs 理解】
これは、AI が「リンゴ=赤いもの」という単純な暗記パターン認識で答えを出していたことは明らかになりました。複雑な条件(「傷がある」「左から 3 番目」)を論理的に組み合わせて、画像の中から探る**「本当の推理力」**はまだ十分ではないことがバレてしまったのです。

4. 思考プロセス(CoT)の重要性

このテストでは、AI に「答えを出す前に、なぜそう思ったかを説明させる(思考プロセス)」と、少しだけ成績が良くなりました。

  • 例え: 「リンゴを探す」だけでなく、「まず赤いものを探し、次に傷があるか確認し、最後に位置を確認する」と手順を踏むことで、正解率が上がります。
  • しかし、それでもまだ完璧ではなく、AI は「似たようなダミー(紛らわしいリンゴ)」に騙されることが多いことが分かりました。

5. この研究のメッセージ

この論文は、**「AI が 90% 正解しても、それは『賢い』とは限らない」**と警鐘を鳴らしています。

  • 現状: 今のテストは、AI が「勘」や「近道」で正解しているだけかもしれない。
  • 未来: 私たちは、AI が本当に人間のように「見て、考え、推理する」能力を持っているかを確認できる、もっと厳しいテストが必要です。

まとめ:
この論文は、AI の「視力」を測るために、**「混雑した部屋から、特定の条件を満たす 1 人の人を見つける」**という、より現実的で難しいゲームを提案したものです。今の AI は、まだそのゲームで「勘」に頼りすぎていることが分かりました。これから、AI がもっと賢く、本当に「見て理解する」ようになるための道しるべとなる研究です。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →