IRIS: Intent Resolution via Inference-time Saccades for Open-Ended VQA in Large Vision-Language Models

本文提出了名为 IRIS 的训练-free 方法,通过实时利用眼动数据(特别是提问前的注视点)来消除大型视觉语言模型在开放式视觉问答中的歧义,从而将模糊问题的回答准确率从 35.2% 显著提升至 77.2%。

Parsa Madinei, Srijita Karmakar, Russell Cohen Hoffing, Felix Gervitz, Miguel P. Eckstein

发布于 2026-02-19
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 IRIS(全称:通过推理时的眼跳进行意图解析)的新系统。简单来说,它给现在的“看图说话”人工智能(AI)装上了一双“读心术”的眼睛,专门用来解决 AI 经常犯的一个糊涂病:指代不明

我们可以用几个生动的比喻来理解这项技术:

1. 核心痛点:AI 是个“路痴”

想象一下,你站在一个有很多个苹果的房间里,指着其中一个问 AI:“那个是什么颜色的?”

  • 现在的 AI 会懵圈:它看着满屋子的苹果,不知道你到底是指左边那个红的,还是右边那个青的。它可能会猜一个,或者回答“我不知道”,甚至胡乱编造一个答案。这就是论文里说的“指代歧义”(Referential Ambiguity)。
  • 人类的直觉:当你问这个问题时,你的眼睛其实早就死死盯着那个特定的苹果看了。你的眼神在告诉你:“就是那个!”

2. IRIS 的解决方案:让 AI 学会“看眼神”

IRIS 就像是一个超级翻译官,它不修改 AI 的大脑(不需要重新训练),而是在 AI 回答问题的那一瞬间,把你的眼神轨迹(眼动数据)直接“喂”给 AI。

  • 比喻:这就好比你在和一个有点耳背的朋友打电话。你问:“那个东西在哪?”朋友听不清。这时,你直接把手指指向那个东西,或者用激光笔照一下。朋友瞬间就懂了。
  • IRIS 的做法:它捕捉你提问时眼睛盯着哪里(比如盯着那个红苹果),然后把一个白色的十字标记叠加在图片上,告诉 AI:“看这里!用户问的就是这个!”

3. 关键发现:眼神的“时间差”很重要

研究人员发现,并不是你盯着图片看的所有眼神都有用。

  • 比喻:就像你在写一封信,当你刚要开口说出“那个”这个词的一瞬间,你的眼睛通常已经锁定目标了。
  • 研究发现:IRIS 特别聪明,它只抓取你开口说话前后几百毫秒内的眼神数据。这段时间的眼神最诚实、最准确。如果抓你看了很久之前的眼神,或者你问完话后眼神乱飘的数据,反而会把 AI 带偏。

4. 效果如何?从“瞎猜”到“神准”

研究人员做了个实验,找了 500 张图和对应的问题,让 10 个人参与测试。

  • 没有眼神辅助时:面对模糊的问题(比如“那个是什么?”),AI 的准确率只有 35%(差不多在瞎蒙)。
  • 加上眼神辅助后:准确率飙升到了 77%
  • 神奇之处:对于那些本来就很清楚的问题(比如“图片里唯一的猫是什么颜色的?”),加上眼神数据后,AI 的表现依然很好,没有变差。这说明 IRIS 是个“只帮倒忙,不帮倒忙”的助手。

5. 为什么这很重要?

  • 不用换大脑:这项技术不需要把现有的 AI 模型推倒重来,它是“外挂”式的,任何现有的先进 AI 都能直接用上。
  • 未来的应用:想象一下未来的AR 眼镜(增强现实眼镜)。当你戴着它看世界,指着某个复杂的机器零件问:“这个怎么修?”AI 不需要你描述“左边第三个红色的螺丝”,它直接通过你的眼神就知道你在看哪个,瞬间给出答案。

总结

IRIS 就像给 AI 装上了一个“读心术”的滤镜。它利用人类说话时眼神的自然本能,在 AI 最困惑的时候,轻轻点一下它:“嘿,别猜了,用户看的是这儿!”

这项技术让 AI 从“猜谜游戏”的参与者,变成了真正能理解人类意图的“贴心助手”,而且不需要给 AI 上任何复杂的“补习班”(重新训练),直接就能用。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →