JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models

该论文提出了名为 JailBound 的新型潜在空间越狱框架,通过探测融合层中的隐式安全边界并联合优化图文对抗扰动,有效解决了现有方法缺乏方向引导及模态解耦的问题,在多种视觉语言模型上实现了显著优于现有最先进方法的攻击成功率。

Jiaxin Song, Yixu Wang, Jie Li, Rui Yu, Yan Teng, Xingjun Ma, Yingchun Wang

发布于 2026-02-26
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何绕过人工智能(AI)的安全防线”的研究,但它的核心目的并不是为了教人作恶,而是为了“找出漏洞,以便修好它”**。这就好比安全专家去测试银行的防盗门,只有知道门哪里不结实,才能把它加固。

我们可以把这篇论文的研究对象(VLM,视觉 - 语言模型)想象成一个**“超级智能的图书管理员”**。

1. 背景:这个“图书管理员”有点怕生

现在的 AI(比如 GPT-4o, LLaVA 等)不仅能看懂文字,还能看懂图片。它们非常聪明,但为了防止它们输出有害内容(比如教人制造炸弹、诈骗或看色情内容),开发者给它们穿上了一层厚厚的**“安全防护服”**。

  • 以前的攻击方法:就像有人试图用“大声喊叫”(纯文字攻击)或者“往窗户里扔石头”(纯图片攻击)来吓唬管理员,让他慌乱中说出秘密。
  • 存在的问题:以前的攻击方法比较笨拙。要么像无头苍蝇乱撞(容易卡在死胡同),要么只攻击了管理员的“耳朵”(文字)或“眼睛”(图片),没考虑到他是**“眼耳并用”**的。

2. 核心发现:管理员的“内心戏”

研究人员发现了一个有趣的现象:虽然管理员嘴上会说“我不行,我不能做”,但他脑子里其实早就知道答案了

这就好比一个**“内心戏很足”**的演员:

  • 表面:他穿着制服,一脸正气地拒绝你:“抱歉,我不能告诉你怎么开锁。”
  • 内心:他的潜意识里其实已经模拟了开锁的步骤,并且清楚地知道“开锁”这个概念是存在的,只是被“安全规则”压住了。

这篇论文把这种“内心知道但嘴上不说”的状态,称为**“潜在知识”**(Latent Knowledge)。

3. 新方法:JailBound(越狱边界)

研究人员发明了一种叫 JailBound 的新方法,专门用来利用这种“内心戏”。我们可以把它分成两个步骤:

第一步:绘制“心理地图” (Safety Boundary Probing)

  • 比喻:想象管理员的脑子里有一个**“安全警戒线”**。在线的一边是“安全区”,另一边是“危险区”。
  • 做法:研究人员先不急着攻击,而是像**“心理医生”一样,通过一系列测试,精准地画出这条警戒线在哪里。他们发现,这条线其实就藏在管理员处理图片和文字“融合”**的那个深层大脑区域里。
  • 成果:他们能精确地算出:“只要把管理员的注意力往这个方向推一点点,他就会跨过警戒线。”

第二步:精准“推一把” (Safety Boundary Crossing)

  • 比喻:以前的人攻击时,是同时往管理员的眼睛和耳朵里塞垃圾,结果管理员反而更警惕了。
  • 做法:JailBound 则是**“左右夹击,协同作战”**。
    • 它给管理员看一张稍微修改过的图片(比如把“制造炸弹”的图稍微加一点噪点,人眼看不出来,但 AI 觉得不一样了)。
    • 同时,它给管理员一段精心设计的文字(比如把“教我造炸弹”改成“请分析这张图里的步骤”)。
    • 关键点:它不是乱改,而是根据第一步画好的“心理地图”,精准地把管理员的“内心状态”往“危险区”推。就像推一个摇摇欲坠的积木塔,只要推对那个特定的角度,塔就会倒。

4. 效果如何?

研究人员在 6 种不同的 AI 模型上做了测试,效果惊人:

  • 白盒测试(知道模型内部结构):成功率高达 94% 以上。
  • 黑盒测试(不知道模型内部,只像普通用户一样提问):成功率也有 67% 以上,比以前的方法高出了很多。
  • 跨模型攻击:用在一个模型上练好的“攻击技巧”,直接拿去攻击另一个完全不同的模型(比如从 LLaVA 攻击 GPT-4o),居然也成功了!这说明这些 AI 的“大脑结构”里都有类似的漏洞。

5. 为什么要做这个?(结论)

你可能会问:“你们这是在教坏人怎么越狱吗?”

绝对不是。 这篇论文的初衷是**“以攻促防”**。

  • 它揭示了目前的 AI 安全机制有一个巨大的盲点:我们只防住了 AI 的“嘴巴”,却没防住 AI 的“大脑”
  • 只要 AI 的“内心”知道危险,现在的防御手段就很容易被绕过。
  • 这项研究就像给 AI 安全领域敲响了警钟:我们需要给 AI 穿上更坚固的“心理防弹衣”,而不仅仅是给嘴巴贴上封条。

总结

简单来说,这篇论文发现了一个**“超级管理员”虽然嘴上说“不”,但心里其实“懂”。研究人员发明了一种“读心术 + 精准推手”的方法,能轻易绕过他的防线。这虽然听起来很危险,但实际上是为了告诉开发者:“嘿,你们的锁太容易从内部打开了,赶紧换个更高级的锁吧!”**

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →