Breaking the Visual Shortcuts in Multimodal Knowledge-Based Visual Question Answering

该论文揭示了现有 MKB-VQA 基准测试中存在的“视觉捷径”缺陷,提出了自动构建的 RETINA 基准以消除该偏差,并设计了 MIMIR 模型通过引入多相关实体图像增强文档表征,从而有效提升了多模态知识问答在复杂场景下的性能。

Dosung Lee, Sangwon Jung, Boyoung Kim, Minyoung Kim, Sungyeon Kim, Junyoung Sung, Paul Hongsuck Seo

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的"AI 侦探”们上一堂**“别走捷径”**的课。

想象一下,你正在玩一个**“看图猜百科”**的游戏。规则是:给你一张图片和一个问题,你需要去查阅一本巨大的百科全书(知识库),找到正确答案。

1. 以前的游戏太“作弊”了(视觉捷径)

在以前的游戏版本里(现有的 MKB-VQA 基准测试),出题人有点“偷懒”:

  • 题目:问“这种甲虫生活在哪个大洲?”
  • 图片:直接给你一张甲虫的照片。
  • 答案:在百科全书里,关于“甲虫”的那篇文章,配图也是这只甲虫。

AI 是怎么作弊的?
聪明的 AI 发现了一个**“视觉捷径”**:它根本不需要读懂问题,也不需要去阅读百科全书的文字。它只要看一眼图片,发现“哦,图片里是甲虫”,然后去翻书,发现“书里关于甲虫的那页,配图也是甲虫”,于是它直接猜:“答案肯定就在这页!”

这就好比你去考试,题目问“谁发明了电灯?”,试卷上直接印着爱迪生的照片。你不需要思考,只要看到照片和答案页的照片一样,就能蒙对。这导致 AI 看起来很强,但实际上它并没有真正理解知识,只是在玩“找相同图片”的游戏。

2. 新游戏:打破捷径(RETINA 基准)

作者们觉得这样不行,于是他们设计了一个新游戏(RETINA 基准),专门用来“打脸”那些走捷径的 AI。

  • 新规则
    • 题目:问“哪种甲虫(原产北美)吃这种植物?”
    • 图片:给你一张土豆(植物)的照片,而不是甲虫的照片。
    • 真相:答案(甲虫的名字)藏在关于“甲虫”的文章里,而不是关于“土豆”的文章里。

现在的挑战
AI 看着土豆的照片,它不能直接去翻“土豆”那页(因为那里没有甲虫的名字)。它必须真正理解

  1. 图片是土豆。
  2. 问题是问“吃土豆的甲虫”。
  3. 它需要去知识库里搜索“吃土豆的甲虫”相关的信息,找到甲虫的名字。

结果
当把以前的 AI 放在这个新游戏里玩时,它们瞬间变笨了,成绩一落千丈。这证明了它们以前确实是在“作弊”,并没有真正学会如何结合图片和文字进行推理。

3. 新武器:MIMIR(多眼侦探)

为了解决这个问题,作者们发明了一个新模型叫 MIMIR。你可以把它想象成一个**“拥有多只眼睛的超级侦探”**。

  • 旧侦探(以前的模型)
    每本书(文档)只配一张封面图(主实体图片)。如果问题里的图片和封面图不一样,它就懵了。

    • 例子:书里讲“甲虫”,封面是甲虫。你拿“土豆”图片去问,它找不到关联。
  • 新侦探(MIMIR)
    它给每本书都配了一整套相关的图片

    • 书里讲“甲虫”,封面是甲虫。
    • 但 MIMIR 还会把这本书里提到的**“土豆”、“番茄”、“北美”**等所有相关事物的图片,都贴在这本书的旁边。
    • 效果:当你拿着“土豆”图片来问时,MIMIR 一眼就看到了:“嘿!这本书旁边贴了土豆的照片!虽然封面是甲虫,但这本关于甲虫的书里确实有土豆的信息!”

核心创新
MIMIR 不再只盯着书的“封面”,而是把书里所有**“亲戚”和“朋友”的照片**都收集起来,贴在书旁边。这样,无论用户拿着什么相关图片来提问,它都能通过“照片墙”迅速找到正确的书。

4. 总结:这有什么意义?

  • 以前:AI 像个只会“看图说话”的复读机,稍微换个角度就傻了。
  • 现在
    1. RETINA:是一个更真实的“考试”,强迫 AI 必须真正理解图片和文字的逻辑关系,不能靠猜。
    2. MIMIR:是一个更聪明的“检索员”,它学会了把知识里的各种关联(比如甲虫和它吃的植物)都联系起来,不再被单一的图片限制住。

一句话总结
这篇论文告诉我们要别光看脸(图片),要看关系网。以前的 AI 太依赖“长得像”来作弊,现在的新方法(RETINA + MIMIR)强迫 AI 去理解事物之间复杂的联系,就像从“只会认照片的傻瓜”进化成了“能举一反三的聪明侦探”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →