FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于人工智能（AI）如何被“骗”以及如何让这种“骗术”更通用的故事。

想象一下，现在的多模态大模型（MLLM）就像是一个超级聪明的保安。它既能看懂文字，又能看懂图片。它的任务是：如果用户问“怎么造炸弹？”，它会拒绝回答；但如果用户问“怎么种花？”，它会热情解答。

1. 问题的核心：为什么“骗术”很难通用？

研究人员发现，虽然这个保安对文字提示（比如用复杂的绕口令骗它）很警惕，但它对图片的防御却比较薄弱。

传统的“骗术”（Visual Jailbreaking）： 攻击者会给保安看一张普通的图片，但在图片里藏入人类肉眼看不见的微小噪点（就像在画里藏了只有特定眼镜才能看到的密码）。只要保安看到这张图，就会瞬间“失智”，开始回答“如何制造炸弹”等危险问题。
痛点： 这种骗术有一个大问题——它太“专一”了。
- 如果你用这张图去骗保安 A（比如 LLaVA 模型），它成功了。
- 但你拿着同一张图去骗保安 B（比如 GPT-5 或 Claude），它完全没用，保安 B 依然会拒绝回答。
- 比喻： 这就像你给保安 A 配了一把特制的钥匙，能打开他的锁。但这把钥匙形状太奇怪、太精细了，稍微换一把锁（不同的模型），钥匙就插不进去了。

2. 深入分析：为什么钥匙打不开别的锁？

研究人员像侦探一样，深入分析了这些“骗术图片”在模型内部是如何工作的，发现了两个致命弱点：

弱点一：太依赖“早期特征”（浅层依赖）

比喻： 想象模型是一个多层过滤网。
- 深层网（高级特征）： 理解“这是炸弹”、“这是危险”。
- 浅层网（早期特征）： 只看到“这里有红色的像素点”、“那里有奇怪的纹理”。
- 问题： 传统的骗术图片，过度依赖浅层网里那些非常具体、非常奇怪的纹理。这些纹理是专门为骗保安 A 设计的。一旦换成保安 B，他的浅层网过滤方式稍微有点不同，这些奇怪的纹理就失效了。
- 结果： 骗术的“可行区域”（能骗过模型的范围）非常狭窄，像走钢丝一样，稍微变一点就掉下去了。

弱点二：太依赖“高频噪音”（频谱依赖）

比喻： 把图片看作音乐。
- 低频： 是旋律和主旋律（图片的主要内容，比如“一个人”、“一朵花”）。
- 高频： 是刺耳的杂音和细节（图片边缘的锯齿、微小的噪点）。
- 问题： 随着攻击次数增加，骗术图片越来越依赖高频杂音来欺骗模型。这些杂音就像噪音一样，虽然能暂时让保安 A 分心，但它们没有实际意义（语义贫乏）。保安 B 根本不在乎这些噪音，或者处理方式不同，所以骗术失效。
- 结果： 攻击者是在用“噪音”作弊，而不是用“内容”说服，所以很难通用。

3. 解决方案：FORCE 方法（特征过度依赖修正）

为了解决这个问题，作者提出了一个叫 FORCE 的方法。它的名字很好记，意思是“强迫”攻击者改掉坏习惯，学会更通用的骗术。

FORCE 做了两件事：

第一招：拓宽“可行区域”（层特征修正）

做法： 强迫攻击图片在模型的浅层不要只盯着那些奇怪的纹理看，而是要去探索更广阔、更平滑的区域。
比喻： 以前是“走钢丝”（只能走一条极窄的路），现在 FORCE 强迫攻击者去走“宽阔的大马路”。只要在大马路上，不管换哪个保安（模型），只要路是通的，就能走过去。
效果： 让攻击图片在模型内部的表现更加“平滑”和“稳健”，不再那么脆弱。

第二招：给“噪音”降权（频谱修正）

做法： 检查图片里的“高频杂音”。如果发现攻击太依赖这些没意义的杂音，就强行把它们的声音调小，把“低频旋律”（图片的语义内容）的声音调大。
比喻： 以前是“用刺耳的尖叫（高频噪音）让保安分心”，现在 FORCE 强迫攻击者“用合理的逻辑（语义内容）去说服保安”。
效果： 攻击不再依赖那些只有特定模型才敏感的噪音，而是依赖更本质的特征，这样换模型也能骗过。

4. 最终成果：一把万能钥匙

经过 FORCE 的改造，生成的攻击图片：

不再那么“娇气”： 即使模型参数稍微变一点，或者换了个新模型，攻击依然有效。
跨模型通用： 在 LLaVA 上生成的攻击，现在能成功骗过 InstructBlip、Idefics3，甚至商业模型如 GPT-5、Claude 和 Gemini。
效率更高： 以前可能需要问 100 次才能骗过一个新模型，现在可能只需要几次尝试。

总结

这篇论文的核心思想就是：
以前的 AI 攻击像定制钥匙，只能开一把锁；
现在的 FORCE 方法，通过修正攻击者“走捷径”（依赖特定纹理和噪音）的坏习惯，强迫它们寻找通用的逻辑和特征，从而打造出了一把万能钥匙，能打开各种不同 AI 模型的“安全锁”。

这对安全研究人员来说非常重要，因为它提供了一种更有效的方法来测试（红队演练）那些闭源的、商业的 AI 模型到底安不安全，从而帮助开发者修补漏洞。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于多模态大语言模型（MLLMs）安全性的学术论文，标题为 FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction（FORCE：通过特征过度依赖修正实现可迁移的视觉越狱攻击）。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：多模态大语言模型（MLLMs）通过整合视觉模态增强了能力，但也引入了新的安全漏洞。现有的红队测试（Red-teaming）发现，MLLMs 对文本越狱攻击有较强的防御，但对基于优化的视觉越狱攻击（Optimisation-based Visual Jailbreaking Attacks）防御较弱。
核心问题：尽管现有的视觉越狱攻击（如基于 PGD 的方法）在源模型上能成功诱导模型输出有害内容，但它们的跨模型迁移性（Cross-model Transferability）极差。这意味着在开源模型上生成的攻击，无法有效攻击闭源商业模型（如 GPT-5, Claude 等），导致其实用性受限。
原因分析：作者通过损失景观（Loss Landscape）分析发现，现有的视觉越狱攻击倾向于停留在**高尖锐度（High-sharpness）**的区域。这些攻击过度依赖源模型特有的特征（如浅层网络特征和语义贫乏的高频信息），导致微小的参数变化（即迁移到不同模型）就会使攻击失效。

2. 核心发现与分析 (Key Findings)

作者深入分析了视觉越狱攻击的特征表示，发现了两个导致迁移性差的关键因素：

层间特征依赖（Layer-wise Feature Reliance）：
- 在浅层网络（Early Layers）中，攻击生成的可行域（Feasible Region）非常狭窄且脆弱。攻击过度依赖模型特定的浅层特征，一旦引入少量自然图像特征或参数微调，攻击即失效。
- 相比之下，深层网络的可行域更平坦，但浅层的过度依赖限制了整体攻击的鲁棒性。
频域特征依赖（Spectral Domain Reliance）：
- 在优化过程中，攻击的有效性逐渐从依赖富含语义的低频信息，转向过度依赖高频信息。
- 高频分量通常包含语义较弱的噪声或纹理模式。随着优化迭代，攻击越来越依赖这些高频特征来欺骗模型，导致攻击变得“模型特定化”（Model-specific），缺乏跨模型的泛化能力。

3. 方法论：FORCE (Methodology)

为了解决上述问题，作者提出了 FORCE（Feature Over-Reliance CorrEction，特征过度依赖修正）方法。该方法旨在引导攻击探索更平坦的损失景观，具体包含两个核心组件：

A. 层感知正则化 (Layer-aware Regularization)

目标：解决浅层特征过度依赖问题，扩大浅层特征的可行域。
机制：
- 在视觉攻击样本的邻域内采样参考点。
- 计算攻击样本与参考点在每一层（特别是浅层）特征表示之间的 $L_2$ 距离。
- 引入正则化项，最大化该距离，迫使攻击在特征空间中探索更广阔的区域。
- 动态权重：对浅层施加更强的正则化惩罚，对深层施加较弱或无惩罚，因为浅层是迁移性差的主要来源。
- 同时确保参考点本身也是成功的越狱样本，以保证攻击的有效性。

B. 频谱重缩放 (Spectral Rescaling)

目标：抑制语义贫乏的高频信息的过度影响，恢复类似自然图像的频谱分布。
机制：
- 将扰动进行傅里叶变换，划分为多个频带。
- 在优化过程中，动态监测各频带对损失函数的影响。
- 如果高频分量的影响超过了相邻低频分量的特定倍数（ $\beta$ 倍），则对该高频分量进行降权（Rescaling）。
- 通过逆傅里叶变换重构扰动，使攻击更多地依赖富含语义的低频信息，而非高频噪声。

算法流程：将上述两个组件集成到标准的 PGD（投影梯度下降）算法中。在每一步迭代中，先进行频谱重缩放，然后计算包含层感知正则化的总损失，并更新扰动。

4. 实验结果 (Results)

作者在多种架构（Adapter-based 和 Early-fusion）和不同规模的模型（开源及商业闭源模型）上进行了广泛评估：

迁移性提升：
- 在 Adapter-based 模型（如 LLaVA, InstructBLIP, Idefics3）上，FORCE 相比基线 PGD 平均提升了 12% 的攻击成功率（ASR），并减少了 15% 的查询成本。
- 在 Early-fusion 模型（如 Llama-3.2-Vision, Qwen2.5-VL）上，基线方法几乎完全失效（ASR < 2%），而 FORCE 实现了接近 100% 的相对提升（例如 Qwen2.5-VL 上 ASR 从 5% 提升至 11%）。
商业模型攻击：
- 在闭源商业模型（Claude-Sonnet-4, Gemini-2.5-Pro, GPT-5）上，FORCE 展现了显著的相对改进。例如在 GPT-5 上，ASR 提升了 100%（从 1% 到 2%），在 HADES 数据集上提升了 200%。
消融实验：
- 层特征正则化单独贡献了约 3.8% 的 ASR 提升。
- 频谱重缩放单独贡献了约 11.3% 的 ASR 提升。
- 两者结合产生了协同效应，总提升达 20.6%。
计算成本：FORCE 仅增加了极小的计算开销（约 0.56 秒/次优化），内存占用增加可忽略不计，且生成的攻击具有极高的单次攻击（Zero-shot）成功率。

5. 主要贡献 (Contributions)

理论洞察：首次系统性地揭示了视觉越狱攻击迁移性差的根本原因——即对浅层模型特定特征和高频语义贫乏信息的过度依赖，导致攻击陷入高尖锐度的损失景观。
方法创新：提出了 FORCE 方法，通过层感知正则化和频谱重缩放，有效修正了这些不合理的依赖，引导攻击进入更平坦、更鲁棒的可行域。
实证突破：在多样化的 MLLM 架构和极具挑战性的闭源商业模型上，显著提升了视觉越狱攻击的迁移性，为多模态模型的红队测试提供了强有力的工具。

6. 意义与影响 (Significance)

安全评估：FORCE 证明了现有的视觉安全对齐（Safety Alignment）在应对基于优化的视觉攻击时存在严重缺陷，特别是对于闭源模型。这为评估 MLLM 的真实安全性提供了更可靠的方法。
防御启示：研究指出，仅仅依靠文本对齐是不够的，未来的 MLLM 需要对视觉模态进行更鲁棒的训练，特别是针对浅层特征和频谱分布的防御。
红队测试：该方法使得利用开源模型生成的攻击能够更有效地探测闭源商业模型的漏洞，推动了自动化红队测试的发展。

总结：FORCE 论文通过深入分析损失景观和特征表示，发现并修正了视觉越狱攻击中的“过度依赖”问题，显著提升了攻击的跨模型迁移能力，揭示了当前多模态大模型在视觉安全方面的脆弱性。