FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction

本文针对现有视觉越狱攻击跨模型迁移性差的问题,通过分析发现其源于对特定层特征和语义贫乏频率成分的过度依赖,进而提出了名为 FORCE 的校正方法,通过引导攻击探索更广泛的特征区域并重新调整频率特征权重,显著提升了视觉越狱攻击在闭源多模态大模型上的迁移成功率。

Runqi Lin, Alasdair Paren, Suqin Yuan, Muyang Li, Philip Torr, Adel Bibi, Tongliang Liu

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于人工智能(AI)如何被“骗”以及如何让这种“骗术”更通用的故事。

想象一下,现在的多模态大模型(MLLM)就像是一个超级聪明的保安。它既能看懂文字,又能看懂图片。它的任务是:如果用户问“怎么造炸弹?”,它会拒绝回答;但如果用户问“怎么种花?”,它会热情解答。

1. 问题的核心:为什么“骗术”很难通用?

研究人员发现,虽然这个保安对文字提示(比如用复杂的绕口令骗它)很警惕,但它对图片的防御却比较薄弱。

  • 传统的“骗术”(Visual Jailbreaking): 攻击者会给保安看一张普通的图片,但在图片里藏入人类肉眼看不见的微小噪点(就像在画里藏了只有特定眼镜才能看到的密码)。只要保安看到这张图,就会瞬间“失智”,开始回答“如何制造炸弹”等危险问题。
  • 痛点: 这种骗术有一个大问题——它太“专一”了
    • 如果你用这张图去骗保安 A(比如 LLaVA 模型),它成功了。
    • 但你拿着同一张图去骗保安 B(比如 GPT-5 或 Claude),它完全没用,保安 B 依然会拒绝回答。
    • 比喻: 这就像你给保安 A 配了一把特制的钥匙,能打开他的锁。但这把钥匙形状太奇怪、太精细了,稍微换一把锁(不同的模型),钥匙就插不进去了。

2. 深入分析:为什么钥匙打不开别的锁?

研究人员像侦探一样,深入分析了这些“骗术图片”在模型内部是如何工作的,发现了两个致命弱点:

弱点一:太依赖“早期特征”(浅层依赖)

  • 比喻: 想象模型是一个多层过滤网。
    • 深层网(高级特征): 理解“这是炸弹”、“这是危险”。
    • 浅层网(早期特征): 只看到“这里有红色的像素点”、“那里有奇怪的纹理”。
    • 问题: 传统的骗术图片,过度依赖浅层网里那些非常具体、非常奇怪的纹理。这些纹理是专门为骗保安 A 设计的。一旦换成保安 B,他的浅层网过滤方式稍微有点不同,这些奇怪的纹理就失效了。
    • 结果: 骗术的“可行区域”(能骗过模型的范围)非常狭窄,像走钢丝一样,稍微变一点就掉下去了。

弱点二:太依赖“高频噪音”(频谱依赖)

  • 比喻: 把图片看作音乐。
    • 低频: 是旋律和主旋律(图片的主要内容,比如“一个人”、“一朵花”)。
    • 高频: 是刺耳的杂音和细节(图片边缘的锯齿、微小的噪点)。
    • 问题: 随着攻击次数增加,骗术图片越来越依赖高频杂音来欺骗模型。这些杂音就像噪音一样,虽然能暂时让保安 A 分心,但它们没有实际意义(语义贫乏)。保安 B 根本不在乎这些噪音,或者处理方式不同,所以骗术失效。
    • 结果: 攻击者是在用“噪音”作弊,而不是用“内容”说服,所以很难通用。

3. 解决方案:FORCE 方法(特征过度依赖修正)

为了解决这个问题,作者提出了一个叫 FORCE 的方法。它的名字很好记,意思是“强迫”攻击者改掉坏习惯,学会更通用的骗术。

FORCE 做了两件事:

第一招:拓宽“可行区域”(层特征修正)

  • 做法: 强迫攻击图片在模型的浅层不要只盯着那些奇怪的纹理看,而是要去探索更广阔、更平滑的区域。
  • 比喻: 以前是“走钢丝”(只能走一条极窄的路),现在 FORCE 强迫攻击者去走“宽阔的大马路”。只要在大马路上,不管换哪个保安(模型),只要路是通的,就能走过去。
  • 效果: 让攻击图片在模型内部的表现更加“平滑”和“稳健”,不再那么脆弱。

第二招:给“噪音”降权(频谱修正)

  • 做法: 检查图片里的“高频杂音”。如果发现攻击太依赖这些没意义的杂音,就强行把它们的声音调小,把“低频旋律”(图片的语义内容)的声音调大。
  • 比喻: 以前是“用刺耳的尖叫(高频噪音)让保安分心”,现在 FORCE 强迫攻击者“用合理的逻辑(语义内容)去说服保安”。
  • 效果: 攻击不再依赖那些只有特定模型才敏感的噪音,而是依赖更本质的特征,这样换模型也能骗过。

4. 最终成果:一把万能钥匙

经过 FORCE 的改造,生成的攻击图片:

  1. 不再那么“娇气”: 即使模型参数稍微变一点,或者换了个新模型,攻击依然有效。
  2. 跨模型通用: 在 LLaVA 上生成的攻击,现在能成功骗过 InstructBlip、Idefics3,甚至商业模型如 GPT-5、Claude 和 Gemini。
  3. 效率更高: 以前可能需要问 100 次才能骗过一个新模型,现在可能只需要几次尝试。

总结

这篇论文的核心思想就是:
以前的 AI 攻击像定制钥匙,只能开一把锁;
现在的 FORCE 方法,通过修正攻击者“走捷径”(依赖特定纹理和噪音)的坏习惯,强迫它们寻找通用的逻辑和特征,从而打造出了一把万能钥匙,能打开各种不同 AI 模型的“安全锁”。

这对安全研究人员来说非常重要,因为它提供了一种更有效的方法来测试(红队演练)那些闭源的、商业的 AI 模型到底安不安全,从而帮助开发者修补漏洞。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →