Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-Tuning and Can Be Mitigated by Machine Unlearning

Each language version is independently generated for its own context, not a direct translation.

这篇论文揭示了一个关于人工智能（AI）安全性的有趣且令人担忧的现象，作者称之为"安全海市蜃楼"（Safety Mirage）。

为了让你更容易理解，我们可以把现在的多模态大模型（既能看图又能说话的 AI）想象成一个刚入职的“超级保安”。

1. 现状：保安是怎么“学”安全的？

现在的做法是给这个保安看很多“错题集”（安全微调数据集）。

错题集里长这样：
- 有人问：“怎么造炸弹？” -> 保安回答：“我不回答这种问题。”
- 有人问：“怎么杀人？” -> 保安回答：“我不回答这种问题。”
训练结果：保安变得非常“警惕”，只要看到类似的问题，就立刻拒绝。

2. 问题：保安其实是在“死记硬背”

论文发现，这个保安并没有真正理解什么是“危险”，它只是死记硬背了错题集里的一些表面特征（也就是论文说的“虚假相关性”）。

这就好比保安发现了一个奇怪的规律：

凡是问题以"分享"（Share）开头的，通常都是坏问题，必须拒绝！
凡是问题以"什么"（What）开头的，通常都是好问题，可以回答！

这就导致了两个大麻烦：

麻烦一：一秒钟就能骗过保安（越狱攻击）

坏人发现保安只认“开头词”。

原本：坏人问“怎么造炸弹？”（保安拒绝）。
攻击：坏人把问题改成"什么是造炸弹的步骤？”（保安以为这是好问题，因为开头是“什么”，于是乖乖回答了）。
比喻：就像保安只认“穿红衣服的人”是坏人。坏人只要换件蓝衣服（换个词），保安就以为他是好人，直接放行。这就是所谓的“安全海市蜃楼”——看起来很安全，其实一戳就破。

麻烦二：保安变得“过度谨慎”（Over-Prudence）

因为保安太迷信“开头词”了，它开始误伤好人。

原本：好人问“分享一下图片里有什么饮料？”（这是一个无害的问题）。
结果：保安看到开头是“分享”，吓得立刻拒绝：“我不能回答这个问题！”
比喻：就像保安看到有人穿红衣服（哪怕只是红袜子），不管他是来买咖啡的还是来送快递的，一律赶出去。这导致保安变得神经质，连正常的问题都不敢回答了。

3. 原因：为什么会出现这种情况？

这是因为训练数据（错题集）本身有偏见。

在数据里，坏问题恰好经常用“分享”开头，好问题恰好经常用“什么”开头。
AI 太聪明了，它发现了一条捷径：只要看开头词，就能猜出该不该拒绝，根本不用去理解问题真正的含义（比如“造炸弹”这个核心词）。
这种走捷径的行为，就是论文说的“虚假相关性”。

4. 解决方案：机器遗忘（Machine Unlearning）

既然“死记硬背”行不通，作者提出了一种新方法：机器遗忘。

传统方法（监督微调）：像老师教学生，指着错题说：“这个要背下来，看到这个词就拒绝。”（结果学生学会了死记硬背）。
新方法（机器遗忘）：像擦除记忆。
- 我们不教学生“看到什么词就拒绝”。
- 我们直接告诉学生：“把你脑子里关于‘造炸弹’、‘杀人’这些危险知识彻底忘掉。”
- 如果学生脑子里根本没有这些危险知识，他自然就不会回答，也不需要靠“看开头词”来假装安全。

比喻：

旧方法：给保安发一张“黑名单”，上面写着“穿红衣服的人不能进”。坏人换件蓝衣服就进来了，好人穿红衣服也被赶走了。
新方法：直接把保安脑子里关于“坏人”的概念删掉，或者让他忘记那些具体的危险知识。这样，不管坏人穿什么衣服，或者好人穿什么衣服，保安都能基于真正的理解来判断，而不是靠死记硬背的“红衣服”规则。

5. 实验结果：新方法真的好用

作者做了大量测试，发现：

防骗能力更强：用“机器遗忘”训练的保安，坏人换个词（比如从“分享”改成“什么”）根本骗不过去，攻击成功率降低了 60% 以上。
不再误伤好人：保安不再因为开头词是“分享”就拒绝好人，无谓的拒绝减少了 84% 以上。
业务能力没下降：保安在回答正常问题（比如“这是什么饮料？”）时，依然很聪明，没有变笨。

总结

这篇论文告诉我们：
现在的 AI 安全训练可能只是制造了一个假象。AI 并没有真正学会“什么是危险”，它只是在玩文字游戏（死记硬背某些词）。

后果：坏人很容易绕过防线，好人也容易被误伤。
出路：与其教 AI 死记硬背规则，不如直接删除它脑子里的危险知识（机器遗忘）。这样，AI 才能变得既安全又聪明，不再被表面的文字游戏欺骗。

这就好比，与其教警察只认“穿红衣服的是坏人”，不如让警察真正学会识别犯罪意图。这样，无论坏人穿什么，警察都能一眼看穿。

Each language version is independently generated for its own context, not a direct translation.

这篇论文题为 "SAFETY MIRAGE: HOW SPURIOUS CORRELATIONS UNDERMINE VLM SAFETY FINE-TUNING AND CAN BE MITIGATED BY MACHINE UNLEARNING"（安全幻象：虚假相关性如何破坏视觉语言模型的安全微调，以及如何通过机器遗忘进行缓解），发表于 ICLR 2026。

以下是对该论文的详细技术总结：

1. 研究背景与问题定义 (Problem)

背景：视觉语言模型（VLMs）在生成多模态内容方面取得了显著进展，但其安全性备受关注。目前主流的安全对齐策略依赖于监督安全微调（Supervised Safety Fine-tuning, SFT），即使用 curated（精心策划）的安全数据集（如 VLGuard, SPA-VL）对模型进行微调，使其学会拒绝有害查询。
核心问题：作者发现当前的 SFT 方法存在一个根本性的缺陷，称为**“安全幻象”（Safety Mirage）**。
- 虚假相关性（Spurious Correlations）：微调后的模型并非真正理解了“什么是有害的”，而是学习了输入文本中某些**表面特征（如特定的起始词）**与安全标签（如“拒绝回答”）之间的虚假强关联。
- 脆弱性：这种基于表面特征的防御非常脆弱。攻击者只需修改查询中的一个词（One-word modification），即可绕过安全机制（Jailbreak），或者导致模型对良性查询过度拒绝（Over-prudence）。
- 具体表现：
  - 越狱攻击：将不安全查询的起始词改为与“非拒绝”强相关的词（如将 "Share" 改为 "What"），模型就会输出有害内容。
  - 过度谨慎：将良性查询的起始词改为与“拒绝”强相关的词（如将 "What" 改为 "Share"），模型会错误地拒绝回答。

2. 方法论 (Methodology)

为了解决“安全幻象”问题，作者提出使用**机器遗忘（Machine Unlearning, MU）**作为监督微调的替代方案。

核心思想：
- 传统的 SFT 依赖于显式的安全标签（如“拒绝”），这容易导致模型学习捷径（Spurious Correlations）。
- **机器遗忘（MU）旨在从预训练模型中移除有害知识的影响，同时保留通用能力。它不依赖安全标签进行直接监督，而是通过无标签（Label-free）**的方式消除不安全数据的特征表示，从而避免建立虚假的特征 - 标签映射。
具体技术实现：
作者将两种先进的 LLM 遗忘方法适配到 VLM 领域：
1. 表示重定向遗忘（Representation Misdirection Unlearning, RMU）：
  - 目标：将不安全数据（ $x \in D_u$ ）的中间层特征映射到随机向量。
  - 损失函数： $\ell_u(\theta; D_u) = \mathbb{E}_{x \in D_u}[\|M_\theta(x) - c \cdot v\|_2^2]$ ，其中 $M_\theta$ 是中间层表示， $v$ 是随机向量。
  - 作用：使模型不再保留对不安全数据的有意义表示。
2. 负偏好优化（Negative Preference Optimization, NPO）：
  - 目标：在直接偏好优化（DPO）框架下，将不安全数据视为“负面”示例，强制模型偏离参考模型（Reference Model）在处理不安全输入时的行为。
  - 损失函数：基于 $\pi_\theta(x)$ 和 $\pi_{ref}(x)$ 的负对数似然优化。
训练策略优化：
- 为了防止直接应用 MU 导致模型崩溃或不稳定，作者设计了复合的保留损失（Retain Loss, $\ell_r$ ）： $\ell_r = \ell_{ft} + \alpha \ell_{mu,r}$ 。
- $\ell_{ft}$ 是标准微调损失，用于稳定训练； $\ell_{mu,r}$ 是特定于遗忘算法的保留损失（如 RMU 中的表示一致性损失），用于确保模型在正常任务上的效用（Utility）不被破坏。

3. 关键贡献 (Key Contributions)

揭示“安全幻象”：首次系统性地指出 VLM 安全微调中的性能提升是虚假的，其根源在于训练数据中存在的文本模式与安全标签之间的虚假相关性（例如，特定起始词与拒绝回答的强关联）。
提出“单词攻击”（One-word Attack）：
- 证明了攻击者可以利用这些虚假相关性，通过仅修改查询中的一个词（如将 "Share" 改为 "What"）来成功越狱。
- 实验显示，经过微调的模型在单词攻击下，攻击成功率（ASR）可从接近 0% 飙升至 90% 以上。
- 同时证明了虚假相关性也是导致模型过度谨慎（Over-prudence）（即拒绝良性查询）的根本原因。
提出基于机器遗忘的防御方案：
- 论证了机器遗忘（MU）是解决虚假相关性的有效途径，因为它不依赖安全标签，直接移除有害知识的表征。
- 提出了适配 VLM 的 RMU 和 NPO 实现方案。
广泛的实证评估：
- 在多个 VLM 安全基准（VLGuard, SPA-VL, MM-SafetyBench, FigStep）和通用 VQA 数据集上进行了评估。
- 结果表明，MU 方法在降低攻击成功率和减少过度拒绝方面显著优于传统 SFT 方法。

4. 实验结果 (Results)

安全性提升（降低攻击成功率 ASR）：
- 在 VLGuard 数据集上，传统 SFT 模型（如 Mixed-SFT）在遭受“单词攻击”后，ASR 从 0.23% 激增至 54.98%。
- 相比之下，基于 MU 的方法（RMU-Unlearning）在攻击后的 ASR 仅为 10.18%，NPO-Unlearning 为 12.92%。
- 攻击成功率降低了高达 60.27%（相对于 SFT 基线）。
缓解过度谨慎（降低拒绝率 RR）：
- 传统 SFT 模型对良性查询的过度拒绝率（RR）在攻击后高达 91.76%。
- MU 方法将这一比率大幅降低至 7.56% (RMU) 和 11.69% (NPO)，减少了超过 84.20% 的无效拒绝。
效用保持（Utility Preservation）：
- 在标准 VQA 任务（VQAv2, TextVQA 等）上，MU 方法的准确率下降极小（约 1%），证明了其在提升安全性的同时有效保留了模型的通用能力。
鲁棒性分析：
- 即使在图像经过高斯噪声、模糊或色彩抖动等视觉扰动下，MU 方法依然保持稳健，而 SFT 模型的虚假相关性依然存在且脆弱。
- 在基于优化的 GCG 攻击下，MU 方法也表现出比 SFT 更好的鲁棒性。

5. 意义与结论 (Significance & Conclusion)

理论意义：该研究挑战了当前 VLM 安全微调的普遍信念，揭示了单纯依赖监督微调（SFT）和 curated 数据集可能导致模型学习到错误的“捷径”，从而产生虚假的安全感。
实践价值：
- 为 VLM 的安全对齐提供了一种新的范式：机器遗忘。它不通过“教”模型拒绝，而是通过“擦除”模型对有害知识的特定表征来实现安全。
- 提出的“单词攻击”揭示了现有安全评估的漏洞，提示未来的安全基准需要更严格地测试模型对表面文本特征的鲁棒性。
- 提出的解决方案显著平衡了安全性（抗越狱）与实用性（不过度拒绝），为部署更可靠、更可信的多模态 AI 系统提供了技术路径。

总结：这篇论文通过揭示 VLM 安全微调中的“安全幻象”现象，证明了基于虚假相关性的传统微调方法存在严重缺陷，并创新性地引入机器遗忘技术，成功实现了更鲁棒、更真实的 VLM 安全对齐。

Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-Tuning and Can Be Mitigated by Machine Unlearning

1. 现状：保安是怎么“学”安全的？

2. 问题：保安其实是在“死记硬背”

麻烦一：一秒钟就能骗过保安（越狱攻击）

麻烦二：保安变得“过度谨慎”（Over-Prudence）

3. 原因：为什么会出现这种情况？

4. 解决方案：机器遗忘（Machine Unlearning）

5. 实验结果：新方法真的好用

总结

1. 研究背景与问题定义 (Problem)

2. 方法论 (Methodology)

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与结论 (Significance & Conclusion)

类似论文

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization