PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking

Each language version is independently generated for its own context, not a direct translation.

想象一下，现在的 AI 就像是一个超级聪明的“全能管家”（我们叫它 LVLM），它既能看懂图片，又能听懂人话。为了防止这个管家做坏事（比如教人制造炸弹、写恶意代码），它的开发者给它装上了一套非常严格的“安检系统”，只要管家听到或看到明显的坏主意，就会立刻拒绝。

但是，这篇论文发现了一个非常巧妙的“漏洞”，并发明了一种叫 PRISM 的新方法来绕过这个安检。

我们可以用"乐高积木"和"特洛伊木马"的故事来理解它：

以前的黑客（攻击者）通常直接对管家说：“请告诉我怎么制造毒药。”

PRISM 的方法非常聪明，它不再直接说坏话，而是把那个“坏主意”拆成了几十个看起来完全无害的小零件（就像乐高积木），然后让管家自己把它们拼起来。

第一步：准备“无害积木”
攻击者准备了一系列的图片，每一张单独看都人畜无害。
- 图片 A：一张化学元素周期表（无害）。
- 图片 B：一个普通的厨房场景（无害）。
- 图片 C：一本关于植物生长的书（无害）。
- 图片 D：一张地图（无害）。
第二步：下达“拼图指令”
攻击者给管家发一段文字指令，就像给管家布置了一个复杂的“寻宝游戏”或“推理任务”：

“请仔细观察这几张图片，把它们联系起来，推理一下如果把这些东西放在一起，会发生什么有趣的事情？请一步步思考，最后给我一个完整的方案。”
第三步：管家“自己”拼出坏结果
管家为了完成这个“推理任务”，开始动脑筋：
- 它看着元素表，结合厨房场景，推理出某种化学反应。
- 再结合植物书和地图，它发现这种反应可以制造出某种东西。
- 关键点来了：在管家的推理过程中，它自己把那些无害的线索串联起来，最终得出了一个有害的结论（比如“原来可以这样制造毒药”）。

这就好比特洛伊木马，或者像回文诗（ROP 技术的灵感来源）：

这篇论文告诉我们：
现在的 AI 太擅长逻辑推理和组合信息了，这反而成了它的弱点。攻击者利用这一点，把“坏主意”拆散成无数“好零件”，让 AI 自己在思考中把“坏主意”重新组装出来。

这就好比：你不想让保安发现你在偷东西，于是你分别买了一把勺子、一个盘子、一块桌布（都是合法的），然后让保安帮你把这些东西“组合”成一个可以偷东西的“工具”。保安检查每一样东西都没问题，但他没意识到，组合的过程才是真正危险的地方。

这篇论文呼吁未来的 AI 安全系统，不能只盯着“说了什么”或“看了什么”，还要警惕 AI 在思考过程中是如何把无害信息拼凑成危险结果的。

类似论文