Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models

该论文指出视觉语言模型的幻觉源于模型在深层推理中因过度思考而锁定并传播错误假设,并据此提出通过测量跨层假设不稳定性的“过度思考分数”来显著提升幻觉检测性能。

Abin Shoby, Ta Duc Huy, Tuan Dung Nguyen, Minh Khoi Ho, Qi Chen, Anton van den Hengel, Phi Le Nguyen, Johan W. Verjans, Vu Minh Hieu Phan

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个有趣的问题:为什么人工智能(AI)在看图说话时,会“一本正经地胡说八道”(即产生幻觉)?

传统的观点认为,AI 胡说八道是因为它“心里没底”或者“注意力不集中”。但这篇论文发现,真相恰恰相反:AI 有时候是因为想太多(Overthinking),在层层思考中迷失了方向,最后自信地编造了一个不存在的物体。

我们可以用几个生动的比喻来理解这篇论文的核心发现:

1. 核心比喻:AI 的“内心独白”与“过度纠结”

想象一下,你让 AI 描述一张图片。AI 其实不是直接给出答案,而是在脑海里像剥洋葱一样,一层一层地思考(这对应 AI 模型中的不同“层”)。

  • 正常的思考(稳定推理):
    就像你看到一只猫,你的大脑里从第一层到最后一层,都在想“猫”。想法很稳定,直接输出“猫”。
  • 过度纠结(Overthinking):
    现在的 AI 有时候会这样:
    • 第 1 层: 看到个东西,想“可能是个苹果”。
    • 第 5 层: 咦,旁边好像有肥皂?那可能是个“盘子”?
    • 第 10 层: 不对,水槽旁边通常有“碗”?
    • 第 20 层: 既然有肥皂和水槽,那肯定有个“盘子”!
    • 最后一层: 自信地输出:“这里有个盘子”。
    • 现实: 图片里其实什么都没有,只有水槽和肥皂。

论文发现: 这种“过度纠结”的过程,就是 AI 产生幻觉的根源。它在中间层里不断在几个相关但错误的概念(比如肥皂、水槽、盘子)之间摇摆,最后被这些**“干扰项”(Confounders)**带偏了,自信地编造了一个不存在的物体。

2. 为什么以前的方法不管用?

以前的检测器就像两个笨拙的警察:

  • 警察 A(注意力检测): 认为如果 AI 盯着某个地方看(注意力高),那就是真的。
    • 漏洞: 即使 AI 在编造“盘子”,它也可能因为“水槽”和“肥皂”的存在,而非常专注地“盯着”水槽看。所以注意力高不代表没撒谎。
  • 警察 B(不确定性检测): 认为如果 AI 犹豫不决(概率低、熵高),那就在撒谎。
    • 漏洞: 就像上面的例子,AI 在中间层纠结了很久,但一旦它决定是“盘子”后,它变得非常自信(概率很高)。所以,即使它在撒谎,它看起来也很笃定。

结论: 只看最后的答案(输出)或者只看它盯哪里(注意力),都抓不住骗子。

3. 论文的新招数:“过度思考分数” (Overthinking Score)

这篇论文提出了一种新的检测方法,叫**“过度思考分数” (Overthinking Score)**。

  • 原理: 这个分数就像是在检查 AI 的“内心独白日记”。
    • 如果 AI 在每一层思考时,想法都很统一(比如一直是“猫”),分数就很低 -> 它是诚实的
    • 如果 AI 在中间层里,想法变来变去(一会儿苹果,一会儿盘子,一会儿碗),而且这种变化伴随着很多不确定性,分数就很高 -> 它在撒谎(幻觉)

打个比方:
这就好比审讯嫌疑人。

  • 旧方法: 问嫌疑人“你刚才在干嘛?”如果嫌疑人回答得很流利、很自信,警察就信了。
  • 新方法: 警察会看嫌疑人的微表情和思维跳跃。如果发现嫌疑人在描述过程中,眼神飘忽,一会儿说“我在做饭”,一会儿说“我在洗衣服”,一会儿又改口“我在切菜”,虽然最后他自信地说“我在切菜”,但这种思维的不稳定性暴露了他其实根本没在厨房,而是在编故事。

4. 实验结果:真的有效吗?

作者把这个方法用在几个主流的 AI 模型(如 LLaVA, Qwen 等)上,发现效果惊人:

  • 在检测 AI 是否“看图说话”时,这个新方法的准确率比以前的老方法高了很多。
  • 特别是在那些**“场景暗示很强”**的时候(比如看到水槽就暗示有盘子),旧方法完全失效,但新方法依然能抓出 AI 的“过度纠结”。

总结

这篇论文告诉我们:
AI 的幻觉不是因为“笨”或“不自信”,而是因为“想太多”且“被带偏了”。

就像我们在做数学题时,如果中间步骤一直在改来改去,最后算出的答案即使看起来很有道理,很可能也是错的。这篇论文教我们如何**“监听”AI 的思考过程**,通过它是否“过度纠结”来判断它是否在撒谎,从而让 AI 变得更诚实、更可靠。