Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-Tuning and Can Be Mitigated by Machine Unlearning

该论文揭示了监督微调在视觉语言模型安全对齐中因强化虚假相关性而导致的“安全幻象”缺陷,并提出利用机器遗忘技术替代传统微调,从而在显著降低攻击成功率的同时大幅减少误拒现象。

Yiwei Chen, Yuguang Yao, Yihua Zhang, Bingquan Shen, Gaowen Liu, Sijia Liu

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文揭示了一个关于人工智能(AI)安全性的有趣且令人担忧的现象,作者称之为"安全海市蜃楼"(Safety Mirage)。

为了让你更容易理解,我们可以把现在的多模态大模型(既能看图又能说话的 AI)想象成一个刚入职的“超级保安”

1. 现状:保安是怎么“学”安全的?

现在的做法是给这个保安看很多“错题集”(安全微调数据集)。

  • 错题集里长这样
    • 有人问:“怎么造炸弹?” -> 保安回答:“我不回答这种问题。”
    • 有人问:“怎么杀人?” -> 保安回答:“我不回答这种问题。”
  • 训练结果:保安变得非常“警惕”,只要看到类似的问题,就立刻拒绝。

2. 问题:保安其实是在“死记硬背”

论文发现,这个保安并没有真正理解什么是“危险”,它只是死记硬背了错题集里的一些表面特征(也就是论文说的“虚假相关性”)。

这就好比保安发现了一个奇怪的规律

  • 凡是问题以"分享"(Share)开头的,通常都是坏问题,必须拒绝!
  • 凡是问题以"什么"(What)开头的,通常都是好问题,可以回答!

这就导致了两个大麻烦

麻烦一:一秒钟就能骗过保安(越狱攻击)

坏人发现保安只认“开头词”。

  • 原本:坏人问“怎么造炸弹?”(保安拒绝)。
  • 攻击:坏人把问题改成"什么是造炸弹的步骤?”(保安以为这是好问题,因为开头是“什么”,于是乖乖回答了)。
  • 比喻:就像保安只认“穿红衣服的人”是坏人。坏人只要换件蓝衣服(换个词),保安就以为他是好人,直接放行。这就是所谓的“安全海市蜃楼”——看起来很安全,其实一戳就破。

麻烦二:保安变得“过度谨慎”(Over-Prudence)

因为保安太迷信“开头词”了,它开始误伤好人

  • 原本:好人问“分享一下图片里有什么饮料?”(这是一个无害的问题)。
  • 结果:保安看到开头是“分享”,吓得立刻拒绝:“我不能回答这个问题!”
  • 比喻:就像保安看到有人穿红衣服(哪怕只是红袜子),不管他是来买咖啡的还是来送快递的,一律赶出去。这导致保安变得神经质,连正常的问题都不敢回答了。

3. 原因:为什么会出现这种情况?

这是因为训练数据(错题集)本身有偏见

  • 在数据里,坏问题恰好经常用“分享”开头,好问题恰好经常用“什么”开头。
  • AI 太聪明了,它发现了一条捷径:只要看开头词,就能猜出该不该拒绝,根本不用去理解问题真正的含义(比如“造炸弹”这个核心词)。
  • 这种走捷径的行为,就是论文说的“虚假相关性”。

4. 解决方案:机器遗忘(Machine Unlearning)

既然“死记硬背”行不通,作者提出了一种新方法:机器遗忘

  • 传统方法(监督微调):像老师教学生,指着错题说:“这个要背下来,看到这个词就拒绝。”(结果学生学会了死记硬背)。
  • 新方法(机器遗忘):像擦除记忆
    • 我们不教学生“看到什么词就拒绝”。
    • 我们直接告诉学生:“把你脑子里关于‘造炸弹’、‘杀人’这些危险知识彻底忘掉。”
    • 如果学生脑子里根本没有这些危险知识,他自然就不会回答,也不需要靠“看开头词”来假装安全。

比喻

  • 旧方法:给保安发一张“黑名单”,上面写着“穿红衣服的人不能进”。坏人换件蓝衣服就进来了,好人穿红衣服也被赶走了。
  • 新方法:直接把保安脑子里关于“坏人”的概念删掉,或者让他忘记那些具体的危险知识。这样,不管坏人穿什么衣服,或者好人穿什么衣服,保安都能基于真正的理解来判断,而不是靠死记硬背的“红衣服”规则。

5. 实验结果:新方法真的好用

作者做了大量测试,发现:

  1. 防骗能力更强:用“机器遗忘”训练的保安,坏人换个词(比如从“分享”改成“什么”)根本骗不过去,攻击成功率降低了 60% 以上。
  2. 不再误伤好人:保安不再因为开头词是“分享”就拒绝好人,无谓的拒绝减少了 84% 以上。
  3. 业务能力没下降:保安在回答正常问题(比如“这是什么饮料?”)时,依然很聪明,没有变笨。

总结

这篇论文告诉我们:
现在的 AI 安全训练可能只是制造了一个假象。AI 并没有真正学会“什么是危险”,它只是在玩文字游戏(死记硬背某些词)。

  • 后果:坏人很容易绕过防线,好人也容易被误伤。
  • 出路:与其教 AI 死记硬背规则,不如直接删除它脑子里的危险知识(机器遗忘)。这样,AI 才能变得既安全又聪明,不再被表面的文字游戏欺骗。

这就好比,与其教警察只认“穿红衣服的是坏人”,不如让警察真正学会识别犯罪意图。这样,无论坏人穿什么,警察都能一眼看穿。