NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

本文提出了一种无需训练的 NoLan 框架,通过动态抑制语言先验来有效缓解大型视觉语言模型中的物体幻觉问题。

Lingfeng Ren, Weihao Yu, Runpeng Yu, Xinchao Wang

发布于 2026-02-26
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 NoLan 的新方法,旨在解决大型视觉 - 语言模型(LVLMs)中一个非常头疼的问题:“物体幻觉”

简单来说,就是这些 AI 在看图说话时,经常**“指鹿为马”或者“无中生有”**。比如图片里明明只有一只猫,AI 却信誓旦旦地说:“看,这里还有一只狗和一辆自行车。”

为了让你更容易理解,我们可以把这篇论文的核心思想拆解成几个生动的比喻:

1. 问题的根源:是“眼睛”瞎了,还是“嘴巴”太爱吹牛?

以前的研究觉得,AI 犯错是因为它的“眼睛”(视觉编码器)不够亮,没看清图里的东西。但 NoLan 的作者通过实验发现了一个反直觉的真相:

  • 眼睛其实很亮: 如果只让 AI 的“眼睛”去判断图里有没有狗,它通常能答对。
  • 嘴巴太爱“脑补”: 真正的问题出在 AI 的“大脑/嘴巴”(语言解码器)上。这个“大脑”受过海量文本训练,它太依赖**“语言常识”**(Priors)了。

🌰 比喻:
想象一个**“过度自信的导游”**。

  • 图片是游客眼前的真实风景。
  • 语言模型是导游的嘴。
  • 当游客问:“图里有什么?”
  • 如果导游太依赖他背过的**“导游词”**(语言先验),哪怕游客指着空地说“这里什么都没有”,导游可能还是会顺口说:“哦,这里通常会有只大象,虽然我现在没看见,但根据我的经验……"
  • 结论: 幻觉不是因为导游看不见(眼睛没问题),而是因为他太爱按“剧本”说话,忽略了眼前的真实情况。

2. NoLan 的解决方案:给导游戴上“对比眼镜”

NoLan 提出了一种不需要重新训练模型(Training-free)的简单方法,就像给导游戴上了一副**“对比眼镜”**,让他时刻意识到自己是在“看图说话”,而不是在“背课文”。

🛠️ 工作原理(三步走):

  1. 第一步(看图说话): 让 AI 看着图片回答问题,记下它想说什么(比如它想说“有只熊”)。
  2. 第二步(蒙眼说话): 把图片拿走,只给 AI 看同样的文字问题(比如“图里有什么动物?”),让它在没有图片的情况下回答。这时候,AI 只能靠“瞎猜”和“背课文”(语言先验)来回答。
  3. 第三步(动态纠偏): NoLan 会比较这两次回答。
    • 如果 AI 在“蒙眼”时也说“有只熊”,说明它可能是在瞎编(因为没图它也这么想)。
    • 如果 AI 在“看图”时说了“有只熊”,但在“蒙眼”时没提,说明它是真的看见了。
    • NoLan 的做法: 它会削弱那些“蒙眼”时也会出现的词(抑制语言先验),增强那些“只有看图”才出现的词。

🎭 比喻:
这就像在考试时,老师(NoLan)站在旁边。

  • 如果你看着题目(图片)答题,老师会鼓励你。
  • 如果你不看题目,光靠死记硬背(语言先验)瞎写,老师就会立刻按住你的手,说:“停!这个答案你没看图就敢写,肯定是错的,扣掉!”
  • 通过这种**“对比”**,AI 被迫把注意力拉回到图片本身,而不是依赖它脑子里的“套路”。

3. 为什么这个方法很厉害?

  • 简单粗暴(Plug-and-Play): 不需要给 AI 重新上课(训练),也不需要额外的昂贵工具。就像给现有的软件打了一个“补丁”,插上就能用。
  • 效果显著: 论文测试了多种主流模型(如 LLaVA, Qwen-VL 等)。在著名的“找茬”测试(POPE)中,NoLan 让 AI 的准确率提升了 6% 到 8% 以上。这在 AI 领域是非常巨大的进步。
  • 动态调整: 它有两种模式:
    • NoLan-Base: 简单直接,一直按固定比例“压制”瞎编的倾向。
    • NoLan-Plus: 更聪明,它会计算“瞎编”和“看图”的差距有多大。如果差距很小(说明 AI 快瞎编了),它就加大压制力度;如果差距大,就少干预一点。

4. 总结

NoLan 的核心思想就是:别让 AI 太依赖它脑子里的“老经验”,强迫它时刻盯着眼前的“新图片”。

这就好比教一个总是爱“想当然”的学生,告诉他:“别光靠猜,要看证据!”通过对比“有证据(看图)”和“没证据(盲猜)”时的回答差异,NoLan 成功地让 AI 变得更诚实、更靠谱,大大减少了那些“指鹿为马”的幻觉现象。

这对于自动驾驶、医疗诊断等需要高度准确的领域来说,是一个非常重要的安全改进。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →