Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

本文提出了名为 CIPHER 的训练-free 方法,通过构建反事实图像扰动数据集识别并抑制大型视觉语言模型中由视觉模态引发的幻觉,利用扩散模型编辑图像提取幻觉特征子空间,并在推理阶段将隐藏状态投影出该子空间,从而在保持任务性能的同时显著降低幻觉率。

Hamidreza Dastmalchi, Aijun An, Ali Cheraghian, Hamed Barzamini

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 CIPHER 的新方法,旨在解决大型视觉 - 语言模型(LVLM)的一个常见毛病:“幻觉”

简单来说,就是这些 AI 在看图说话时,经常**“指鹿为马”或者“无中生有”**。比如,图片里明明只有一只猫,AI 却非要描述说“猫旁边还有一只狗在睡觉”。

CIPHER 就像是一个**“防忽悠专家”**,它不需要重新训练 AI(省去了巨大的算力和时间成本),而是在 AI 回答问题的那一瞬间,悄悄帮它“纠偏”。

下面我用几个生活中的比喻来拆解它是怎么工作的:

1. 核心问题:AI 为什么会“幻觉”?

想象一下,你让一个**“有点健忘且爱脑补的画家”**(AI)看着一张照片写描述。

  • 正常情况:照片里有个苹果,他说“有个苹果”。
  • 幻觉情况:他看着苹果,脑子里突然闪过以前见过的香蕉,于是他说“有个苹果和香蕉”。
    以前的方法大多是在“文字”层面修修补补(比如让他多读几遍自己的话,或者用外部工具检查),但这就像是在画家画完画后,拿着橡皮擦去擦掉“香蕉”两个字,既慢又容易把画弄花。

2. CIPHER 的绝招:制造“平行宇宙”

CIPHER 的聪明之处在于,它不直接去改 AI 的脑子,而是先给 AI 上一堂**“对比课”**。

第一步:离线备课(制造“假照片”)

在正式考试(推理)之前,研究人员先给 AI 准备了一套特殊的教材,叫 OHC-25K

  • 怎么做? 他们拿一张真实的照片(比如:桌子上有苹果),然后用一种叫“扩散模型”的 AI 技术,把照片稍微改一下,故意在照片里 P 上一个原本不存在的香蕉(但看起来非常逼真,就像真的放在那一样)。
  • 关键点:虽然照片变了(多了个香蕉),但文字描述没变(还是说“桌子上有苹果”)。
  • 目的:这就制造了一个**“矛盾”**。AI 看着这张“假照片”(有香蕉),却必须配合原来的文字(只提苹果)。

第二步:寻找“幻觉的指纹”

当 AI 处理这张“假照片”时,它的大脑(内部神经层)会产生一种特定的反应模式,因为它看到了不存在的香蕉,但文字没提,这种**“视觉和文字的冲突”会在 AI 的神经信号里留下一个特殊的“指纹”**(也就是论文里说的“幻觉子空间”)。

  • 研究人员收集了 25,000 个这样的例子,把这些“指纹”汇总起来,画出了一张**“幻觉地图”**。这张地图告诉 AI:“当你脑子里出现这种信号时,你就在‘瞎编’了。”

3. 实战应用:考试时的“实时纠偏”

现在,真正的考试开始了。用户给 AI 看一张真实的照片(没有香蕉),让它描述。

  • 传统 AI:看到苹果,脑子里可能又忍不住想“哎,这像不像香蕉?”,于是开始瞎编。
  • CIPHER 版 AI
    1. AI 开始看图,大脑产生信号。
    2. CIPHER 系统(就像一位**“随身裁判”**)立刻检查这个信号。
    3. 裁判发现:“嘿!这个信号里包含了我们在‘假照片’课上见过的‘幻觉指纹’(想编香蕉的冲动)。”
    4. 动作:裁判立刻把这个“幻觉指纹”从 AI 的脑子里**“投影”出去**(就像把水里的杂质过滤掉,或者把收音机里的杂音消除)。
    5. 结果:AI 剩下的信号就是纯净的“苹果”信号,它只能老老实实地说“桌子上有苹果”,再也编不出香蕉了。

4. 为什么这个方法很厉害?

  • 不用重新训练(Training-free):就像给一个已经毕业的学生发了一本“错题集”和“防作弊指南”,而不是把他送回学校重读四年。这省下了巨大的成本。
  • 速度极快:它不需要让 AI 把话写好几遍再修改(那是以前的笨办法),而是在 AI 写每一个字的时候,瞬间完成过滤。就像给流水线上安装了一个自动除杂机,不耽误生产速度。
  • 专治“看图说话”的毛病:以前的方法多关注文字逻辑,CIPHER 专门针对**“看图时产生的幻觉”**,抓住了问题的根源。

总结

CIPHER 就像是一个**“视觉防骗导师”
它先通过制造“假照片”来教会 AI 识别什么是“瞎编”的信号,然后在 AI 真正看图说话时,实时把这些“瞎编”的念头
“一键屏蔽”**。

最终结果是:AI 依然能流利地说话(保留了创造力),但不再胡编乱造(提高了真实性),而且这一切发生得飞快,不需要给 AI 增加任何额外的负担。