IRIS: Intent Resolution via Inference-time Saccades for Open-Ended VQA in Large Vision-Language Models

本論文は、大規模視覚言語モデルにおける曖昧な画像質問応答タスクの精度を、推論時の視線追跡データを活用して二倍以上に向上させる新たなトレーニング不要手法「IRIS」を提案し、大規模なユーザー研究と新規ベンチマークを通じてその有効性を実証したものである。

Parsa Madinei, Srijita Karmakar, Russell Cohen Hoffing, Felix Gervitz, Miguel P. Eckstein

公開日 2026-02-19
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

「IRIS」:AI に「何を見てるの?」と尋ねるための新しい目覚め

この論文は、**「AI(人工知能)が画像を見て質問に答えるとき、人間の『視線』を手がかりに使えば、曖昧な質問でも正解にたどり着ける」**という画期的な方法を紹介しています。

その名も**「IRIS(アイリス)」**。
これは、AI が人間の「意図」を解きほぐすための新しい技術です。

🧐 問題:AI は「それ」がどれかわからない

想像してみてください。
机の上に赤いリンゴ青いリンゴが並んでいます。
あなたが AI に向かって**「あれ、何色?」**と聞きました。

AI は困ります。「あれ」って、どっちのリンゴのこと?
これまでの AI は、文脈が曖昧だと、ランダムに推測したり、間違った方を選んだりしてしまいます。これを「参照の曖昧さ(Referential Ambiguity)」と呼びます。

👁️ 解決策:AI に「目線」を教える

ここで登場するのがIRISです。
これは、AI の性能を上げるために「追加で学習させる」必要はありません。既存の AI に、**「あなたが質問している瞬間、どこを見ていたか(視線データ)」**を渡すだけで動きます。

🎯 比喩で説明すると…

IRIS の仕組みを、**「料理の注文」**に例えてみましょう。

  • 従来の AI(目隠し状態):
    料理人が客の顔も見ずに、「あの料理、辛いですか?」と聞かれます。客は指もささず、ただ「あの料理」と言うだけ。料理人は「えっ、どの料理?唐辛子?それともカレー?」と迷ってしまいます。

  • IRIS を使った AI(目が見えている状態):
    客が「あの料理、辛いですか?」と聞いている瞬間、料理人は客の**「視線」をそっと確認します。
    「あ、客は
    赤い唐辛子**をじっと見つめているな!」
    すると、料理人は即座に「赤い唐辛子ですね、とても辛いですよ!」と正解を答えることができます。

IRIS は、この「視線」と「言葉」を同期させる技術です。

🚀 驚きの結果:正解率が倍増!

研究者たちは、500 組の「画像と質問」を使って実験を行いました。

  • 視線なしの場合: 曖昧な質問に対する正解率は約 35%(3 回に 1 回しか正解しない)。
  • 視線ありの場合: 正解率が約 77%(3 回に 2 回以上正解)に跳ね上がりました。

これは、**「AI の能力を倍増させた」**と言っても過言ではありません。しかも、この方法は AI の中身(仕組み)をいじる必要がなく、既存の AI なら誰でもすぐに使える「トレーニング不要」の技術です。

⏱️ 重要な発見:「質問している瞬間」の視線が最強

実験から面白い発見がありました。
「質問を言い始める直前と直後(約 1 秒間)の視線」が最も重要だということです。

  • 話している最中に視線が定まると: 「あ、このリンゴについて聞いているんだ!」と AI が理解します。
  • 話が終わった後の視線: すでに意味をなさず、ノイズになってしまいます。

人間の脳は、「何かを指差して話す」前に、まずその対象に視線を向けるという習性があります。IRIS は、この人間の自然な行動を AI が理解できるように翻訳しているのです。

🌟 未来への応用:AR/VR との相性抜群

この技術は、今すぐAR(拡張現実)や VR(仮想現実)のメガネに応用できます。

例えば、AR メガネをかけてショッピングモールを歩いているとします。
「あれ、安いですか?」と聞くと、AI はあなたが今、どの商品をじっと見ているかを瞬時に察知し、その商品の価格を教えてくれます。

「あれ」や「それ」という曖昧な言葉でも、「あなたの目線」が通訳となり、AI と人間の会話がスムーズになる未来が、もうすぐそこに来ているのです。


まとめ:
IRIS は、AI に「目」を与えて、人間の「意図」を読み取る技術です。
「何を見てるの?」という視線のヒントを AI に与えるだけで、曖昧な質問でも正解にたどり着けるようになります。まるで、AI があなたの心の内(何を知りたいか)を、あなたの目を通して理解できるようになる魔法のような技術です。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →