Benchmarking Deflection and Hallucination in Large Vision-Language Models

该论文针对现有大视觉语言模型基准测试在应对图文冲突、知识缺失时的拒答能力评估不足及数据易过时等问题,提出了动态数据筛选流程、包含 2775 个样本的 VLM-DeflectionBench 基准及细粒度评估协议,以揭示模型在证据冲突或不足时的行为缺陷并推动可靠的检索增强评估。

Nicholas Moratelli, Christopher Davis, Leonardo F. R. Ribeiro, Bill Byrne, Gonzalo Iglesias

发布于 2026-04-15
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要是在给现在的“超级智能”(大型视觉 - 语言模型,LVLM)做一场压力测试

想象一下,你家里养了一个无所不知的“超级管家”。它既能看懂你拍的照片,又能阅读海量的书籍。以前,我们只测试它“能不能答对问题”。但这项研究指出,光会答对还不够,它还得知道什么时候该“闭嘴”

以下是用通俗语言和比喻对这篇论文的解读:

1. 核心问题:管家太爱“瞎编”了

现在的 AI 管家在面对复杂问题时,通常有两种反应:

  • 瞎编(幻觉):明明不知道答案,或者手里的资料是错的,它却自信满满地编造一个答案。就像管家看着一张模糊的猫的照片,却信誓旦旦地告诉你:“这是一只叫‘旺财’的狗,它昨天刚去过火星。”
  • 推脱(Deflection):当资料不足或矛盾时,诚实地说:“抱歉,我查不到确切信息,我不能乱说。”

论文发现:现在的 AI 管家太喜欢“瞎编”了。哪怕资料是错的,或者根本找不到资料,它们也倾向于强行给个答案,而不是承认“我不知道”。

2. 旧尺子不好用了:为什么需要新测试?

以前的测试题就像过期的考卷

  • 问题太简单:很多以前需要去图书馆查书才能回答的问题,现在的 AI 因为“背”了太多书(训练数据),直接就能背出来。这就像考学生“一加一等于几”,它不需要查书也能答对,但这测不出它查资料的能力。
  • 缺乏干扰项:以前的测试只给正确答案,没给“陷阱题”。

新工具:VLM-DeflectionBench(防忽悠基准)
作者们造了一个新的“考场”,里面有 2775 道精心设计的题目。这个考场的特点就像一场带有“干扰项”的侦探游戏

  • 动态更新:如果 AI 变聪明了,能直接背出答案了,系统就会自动把这些题踢出去,换上更难、必须查资料才能答的题。保证考试永远有挑战性。
  • 设置陷阱:给 AI 的资料里,既有真话(黄金证据),也有假话(干扰项/噪音)
    • 场景 A(只有真话):看它能不能答对。
    • 场景 B(真话 + 假话混在一起):看它能不能识别出假话,不被带偏。
    • 场景 C(全是假话):看它能不能果断拒绝回答,而不是跟着假话瞎编。

3. 实验结果:管家们“翻车”了

作者找了 20 个最厉害的 AI 管家(包括开源的和商业的,如 GPT-5, Claude, Gemini 等)来考试,结果很扎心:

  • 面对假资料,它们太自信:当给它们一堆错误的、误导性的资料时,绝大多数 AI 依然会强行给出一个答案,而且这个答案通常是错的(幻觉)。它们就像一个固执的导游,哪怕地图是错的,也坚持要带你去错误的地方,而不是停下来问路。
  • 文字比图片更“霸道”:这是一个有趣的发现。如果给 AI 一张正确的图片,但配上一段错误的文字描述,AI 往往会相信文字,忽略图片。就像你指着苹果说“这是香蕉”,AI 就会信以为真。
  • 逼它“闭嘴”的指令是一把双刃剑
    • 如果你严厉地命令 AI:“不知道就别说!”它确实会少编造,但连知道答案的时候也不敢说了(过度防御)。
    • 如果你指令太松,它又开始瞎编。
    • 结论:目前的 AI 还学不会“精准地判断自己什么时候该闭嘴”。

4. 这个研究有什么用?

这就好比给自动驾驶汽车装了一个新的刹车测试系统
以前我们只测车能不能跑得快(准确率)。现在我们要测:

  1. 当路标被涂改(噪音干扰)时,车是继续乱开,还是停下来?
  2. 当路标完全消失时,车是盲目冲过去,还是安全停车?

总结来说
这篇论文告诉我们,真正的智能不仅仅是“知道答案”,更是“知道何时不知道”。目前的 AI 在“诚实”和“自信”之间还没找到平衡点。作者们提供的这个新测试平台,就像是一个不断进化的“防忽悠训练场”,帮助未来的 AI 学会在信息混乱时保持冷静,不再乱编乱造,从而变得更可靠、更值得信赖。

一句话概括
现在的 AI 像个过度自信的学霸,遇到不会的题或者被误导时,总爱瞎蒙一个答案;这篇论文设计了一套新考题,专门逼它学会在不懂的时候诚实说“我不知道”,而不是为了面子瞎编。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →