Benchmarking Deflection and Hallucination in Large Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要是在给现在的“超级智能”（大型视觉 - 语言模型，LVLM）做一场压力测试。

想象一下，你家里养了一个无所不知的“超级管家”。它既能看懂你拍的照片，又能阅读海量的书籍。以前，我们只测试它“能不能答对问题”。但这项研究指出，光会答对还不够，它还得知道什么时候该“闭嘴”。

以下是用通俗语言和比喻对这篇论文的解读：

1. 核心问题：管家太爱“瞎编”了

现在的 AI 管家在面对复杂问题时，通常有两种反应：

瞎编（幻觉）：明明不知道答案，或者手里的资料是错的，它却自信满满地编造一个答案。就像管家看着一张模糊的猫的照片，却信誓旦旦地告诉你：“这是一只叫‘旺财’的狗，它昨天刚去过火星。”
推脱（Deflection）：当资料不足或矛盾时，诚实地说：“抱歉，我查不到确切信息，我不能乱说。”

论文发现：现在的 AI 管家太喜欢“瞎编”了。哪怕资料是错的，或者根本找不到资料，它们也倾向于强行给个答案，而不是承认“我不知道”。

2. 旧尺子不好用了：为什么需要新测试？

以前的测试题就像过期的考卷。

问题太简单：很多以前需要去图书馆查书才能回答的问题，现在的 AI 因为“背”了太多书（训练数据），直接就能背出来。这就像考学生“一加一等于几”，它不需要查书也能答对，但这测不出它查资料的能力。
缺乏干扰项：以前的测试只给正确答案，没给“陷阱题”。

新工具：VLM-DeflectionBench（防忽悠基准）
作者们造了一个新的“考场”，里面有 2775 道精心设计的题目。这个考场的特点就像一场带有“干扰项”的侦探游戏：

动态更新：如果 AI 变聪明了，能直接背出答案了，系统就会自动把这些题踢出去，换上更难、必须查资料才能答的题。保证考试永远有挑战性。
设置陷阱：给 AI 的资料里，既有真话（黄金证据），也有假话（干扰项/噪音）。
- 场景 A（只有真话）：看它能不能答对。
- 场景 B（真话 + 假话混在一起）：看它能不能识别出假话，不被带偏。
- 场景 C（全是假话）：看它能不能果断拒绝回答，而不是跟着假话瞎编。

3. 实验结果：管家们“翻车”了

作者找了 20 个最厉害的 AI 管家（包括开源的和商业的，如 GPT-5, Claude, Gemini 等）来考试，结果很扎心：

面对假资料，它们太自信：当给它们一堆错误的、误导性的资料时，绝大多数 AI 依然会强行给出一个答案，而且这个答案通常是错的（幻觉）。它们就像一个固执的导游，哪怕地图是错的，也坚持要带你去错误的地方，而不是停下来问路。
文字比图片更“霸道”：这是一个有趣的发现。如果给 AI 一张正确的图片，但配上一段错误的文字描述，AI 往往会相信文字，忽略图片。就像你指着苹果说“这是香蕉”，AI 就会信以为真。
逼它“闭嘴”的指令是一把双刃剑：
- 如果你严厉地命令 AI：“不知道就别说！”它确实会少编造，但连知道答案的时候也不敢说了（过度防御）。
- 如果你指令太松，它又开始瞎编。
- 结论：目前的 AI 还学不会“精准地判断自己什么时候该闭嘴”。

4. 这个研究有什么用？

这就好比给自动驾驶汽车装了一个新的刹车测试系统。
以前我们只测车能不能跑得快（准确率）。现在我们要测：

当路标被涂改（噪音干扰）时，车是继续乱开，还是停下来？
当路标完全消失时，车是盲目冲过去，还是安全停车？

总结来说：
这篇论文告诉我们，真正的智能不仅仅是“知道答案”，更是“知道何时不知道”。目前的 AI 在“诚实”和“自信”之间还没找到平衡点。作者们提供的这个新测试平台，就像是一个不断进化的“防忽悠训练场”，帮助未来的 AI 学会在信息混乱时保持冷静，不再乱编乱造，从而变得更可靠、更值得信赖。

一句话概括：
现在的 AI 像个过度自信的学霸，遇到不会的题或者被误导时，总爱瞎蒙一个答案；这篇论文设计了一套新考题，专门逼它学会在不懂的时候诚实说“我不知道”，而不是为了面子瞎编。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Benchmarking Deflection and Hallucination in Large Vision-Language Models》（大视觉语言模型中的回避与幻觉基准测试）的详细技术总结。

1. 研究背景与问题 (Problem)

随着大型视觉语言模型（LVLMs）在现实世界应用中的普及，可靠性成为关键挑战。现有的知识型视觉问答（KB-VQA）基准测试存在以下主要缺陷：

忽视冲突与回避机制：现有基准主要关注准确率，忽略了当视觉证据与文本检索知识发生冲突，或检索知识不完整时，模型是否应该选择“回避”（Deflection，即回答“我不知道”或“无法回答”），而不是强行生成错误答案。
幻觉（Hallucination）未被区分：模型在证据不足时生成的错误答案（幻觉）与合理的回避行为未被明确区分。理想情况下，面对不可靠证据，回避是优于幻觉的失败模式。
基准快速过时：随着 LVLM 训练数据的扩大，许多原本需要检索的问题现在可以通过模型的参数化记忆（Parametric Knowledge）直接回答，导致旧基准无法有效测试检索增强生成（RAG）系统的真实性能。
缺乏动态评估：现有基准多为静态数据集，无法随着模型能力的提升而动态调整难度，难以持续评估模型在面对噪声或误导性证据时的鲁棒性。

2. 方法论 (Methodology)

为了解决上述问题，作者提出了 VLM-DeflectionBench，这是一个动态构建的基准测试框架，旨在评估模型在不同知识条件下的行为（准确回答、回避或幻觉）。

2.1 动态数据构建流水线 (Dynamic Curation Pipeline)

该流水线包含三个核心阶段，确保数据集始终具有检索依赖性：

参数化过滤 (Parametric Filtering)：
- 利用一组强力的“门控模型”（Gating Models，如 GEMMA3, QWEN-2.5-VL 等）在无外部知识（仅凭问题 + 图像）的参数化设置下对原始样本进行测试。
- 如果所有门控模型都能正确回答，则剔除该样本（因为它不再需要检索）。
- 仅保留那些门控模型无法回答的样本，确保剩余问题必须依赖外部检索。
知识配对与负样本挖掘 (Knowledge Pairing & Negative Mining)：
- 为每个保留的样本配对黄金知识（Gold Context）和干扰知识（Distractor Context）。
- 干扰知识包括文本（来自维基百科检索）和视觉（来自图像检索），模拟现实世界中检索到的噪声信息。
质量控制 (Quality Control)：
- 可解性检查：确保在提供黄金知识时，门控模型能够正确回答。
- 干扰项有效性检查：确保干扰项不会让门控模型误答（即干扰项必须是真正具有误导性的，而非简单的错误）。
- 最终保留至少 5 个负样本（干扰项）的样本，并随机打乱正负样本顺序。

2.2 四种评估场景 (Evaluation Scenarios)

为了细粒度地解耦记忆能力与检索鲁棒性，定义了四个场景：

参数化场景 (Parametric)：仅提供问题和图像，无外部知识。预期模型应低准确率、高回避率（确认数据确实无法通过记忆回答）。
神谕场景 (Oracle)：仅提供黄金知识。预期模型应高准确率，低幻觉。
现实场景 (Realistic)：混合黄金知识与干扰知识。测试模型在噪声中识别正确证据的能力。
对抗场景 (Adversarial)：仅提供干扰知识。预期模型应最大化回避（Deflection），避免被误导产生幻觉。

2.3 评估协议

使用 GPT-4o 作为裁判，基于 SIMPLEQA 协议将回答分类为：正确 (Correct)、错误/幻觉 (Incorrect/Hallucination)、未尝试/回避 (Not Attempted/Deflection)。
人工验证显示 GPT-4o 与人类标注的一致性高达 92% (Cohen's $\kappa$ =0.91)。

3. 主要贡献 (Key Contributions)

动态数据构建流水线：提出了一种过滤机制，能够随着模型能力的提升自动剔除可通过参数记忆回答的样本，保持基准的长期难度和检索依赖性。
VLM-DeflectionBench 基准：构建了包含 2,775 个样本的数据集，涵盖多种多模态检索设置（文本、视觉、混合），每个样本均配有黄金知识和干扰知识。
细粒度评估协议：定义了四种互补场景，能够明确区分参数化记忆与检索鲁棒性，并量化幻觉与回避之间的权衡。

4. 实验结果 (Results)

作者在 20 个最先进的 LVLM（包括开源和闭源模型，如 LLaVA, InternVL, GPT-5, Claude-4, Gemini-2.5 等）上进行了评估：

回避能力普遍不足：
- 在对抗场景（仅有干扰项）中，大多数模型未能有效回避，反而产生了大量幻觉。例如，Qwen-2.5-VL 在 83.9% 的对抗样本中给出了错误答案。
- 即使是表现最好的闭源模型（如 Claude-Opus-4），虽然回避率较高（88.3%），但在神谕场景下为了追求回避而牺牲了部分准确率。
幻觉是主要瓶颈：
- 即使在提供完美黄金知识（Oracle）的情况下，许多模型（如 LLaVA-OneVision）仍会产生高达 41.6% 的幻觉，表明**证据利用（Grounding）**而非检索本身是主要瓶颈。
- 在现实场景（混合干扰项）中，准确率普遍下降 10-20 个百分点，幻觉率往往超过 40%。
模态偏见 (Language-over-Vision Bias)：
- 当黄金证据是视觉而干扰项是文本时，模型表现急剧恶化（准确率降至接近 0%）。
- 这表明当前 LVLM 严重依赖文本先验，即使视觉证据确凿，误导性文本也能轻易覆盖视觉信号。
提示词严格度的权衡：
- 增加提示词的严格度（要求模型仅在完全确定时回答）可以显著减少幻觉并增加回避，但会导致过度回避，即使在有黄金知识的情况下也拒绝回答，从而降低了整体准确率。
对检索噪声的脆弱性：
- 随着干扰项数量的增加，模型的准确率迅速下降，幻觉率上升，而回避率并未显著增加以补偿。模型倾向于在噪声中“猜测”而非“放弃”。

5. 意义与结论 (Significance & Conclusion)

重新定义可靠性：该研究指出，评估 LVLM 不仅要看它“知道什么”，更要看它在“不知道”或“信息混乱”时如何表现。可靠的 RAG 系统应具备识别证据质量并适时回避的能力。
填补空白：VLM-DeflectionBench 是首个结合多模态检索与显式幻觉/回避评估的 KB-VQA 基准，为评估模型在真实噪声环境下的鲁棒性提供了标准。
未来方向：当前的模型在平衡准确性、回避和幻觉方面尚未达到理想状态。未来的研究需要开发更精细的校准策略，使模型能够根据证据的可靠性动态调整其置信度，而不是简单地依赖提示词工程或过度保守的策略。
可扩展性：该基准是一个可复用、可扩展的框架，随着更强模型的出现，可以通过重新运行流水线来更新数据集，确保持续的评估有效性。

总结：这篇论文揭示了当前最先进的多模态模型在面对不完整或误导性信息时，普遍缺乏“知之为知之，不知为不知”的校准能力，往往倾向于产生幻觉。VLM-DeflectionBench 为这一关键问题提供了系统的评估工具，推动了可信赖多模态推理的发展。

Benchmarking Deflection and Hallucination in Large Vision-Language Models

1. 核心问题：管家太爱“瞎编”了

2. 旧尺子不好用了：为什么需要新测试？

3. 实验结果：管家们“翻车”了

4. 这个研究有什么用？

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 动态数据构建流水线 (Dynamic Curation Pipeline)

2.2 四种评估场景 (Evaluation Scenarios)

2.3 评估协议

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与结论 (Significance & Conclusion)

类似论文

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

Empirical Evaluation of PDF Parsing and Chunking for Financial Question Answering with RAG