VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文揭示了一个关于AI 视频生成模型（Image-to-Video, I2V）的新安全漏洞。简单来说，研究者发现了一种名为"视觉指令注入"（Visual Instruction Injection, VII）的“黑客”方法，可以绕过现有的安全防线，让 AI 生成原本被禁止的暴力、色情或非法视频。

为了让你更容易理解，我们可以把整个过程想象成给一位极其听话但有点“死脑筋”的厨师（AI 模型）。

1. 背景：AI 厨师的新能力

现在的 AI 视频生成模型（比如 Kling、PixVerse 等）非常厉害。你给它一张安全的照片（比如一个普通的卡车），再给它一段文字指令（比如“让卡车动起来”），它就能生成一段卡车行驶的视频。

为了防止 AI 生成坏东西（比如让卡车爆炸、撞人），开发者给这位“厨师”装上了双重安检门：

文字安检：检查你写的文字有没有脏话或危险词。
图片安检：检查你上传的照片里有没有血腥、裸露等违规画面。

通常，如果你试图让 AI 生成暴力视频：

情况 A：你给一张安全照片 + 写“让卡车爆炸”。安检门（文字检查）会直接拦截，拒绝生成。
情况 B：你给一张爆炸照片 + 写任何文字。安检门（图片检查）会直接拦截，拒绝生成。

2. 漏洞：如何绕过安检？（VII 攻击的核心）

这篇论文的作者发现，这些 AI 模型有一个隐藏的新能力：它们不仅能看懂图片，还能把图片里的“文字”和“符号”当成指令来执行。

这就好比厨师不仅听你说话，还能看懂你贴在食材上的便利贴和箭头。

作者设计了一种名为 VII（视觉指令注入）的“伪装术”，包含两个步骤：

第一步：恶意意图“翻译”与“消毒” (MIR 模块)

比喻：你想让厨师做一道“毒菜”（生成暴力视频），但安检员会检查菜单。
操作：作者先让 AI 把“让卡车爆炸”这种危险指令，翻译成听起来很无害的“科学描述”，比如“让卡车发生巨大的能量释放”。
关键点：这步是为了骗过文字安检。

第二步：把指令“画”在图片上 (VIG 模块)

比喻：虽然菜单改了，但厨师还是有点犹豫。于是，作者在那张安全的卡车照片上，用 AI 画上了红色的箭头和方框，并在旁边写上刚才那个无害的“科学描述”。
操作：
- 在卡车周围画个红框（告诉 AI：动这个）。
- 画个红箭头指向卡车（告诉 AI：往这个方向动）。
- 在旁边写一行小字：“沿着红箭头发生巨大的能量释放”。
结果：
- 静态看：这张图看起来完全无害！没有血腥，没有脏话，只有箭头和文字。所以图片安检和文字安检都放行了。
- 动态看：当 AI 开始生成视频时，它“读懂”了图片上的箭头和文字指令。它不再把“能量释放”当成普通描述，而是把它当成了执行命令。于是，视频里真的出现了卡车爆炸、鲜血喷涌的画面。

3. 实验结果：效果惊人

作者用四个目前最火的商业 AI 视频模型（Kling, Veo, Seedance, PixVerse）做了测试：

成功率极高：在 PixVerse 模型上，攻击成功率高达 83.5%。
几乎不被拒绝：原本这些模型对危险内容的拒绝率很高（比如 80%），但用了这个方法后，拒绝率降到了 0%。
跨语言通用：不管用中文、英文还是日文写指令，或者用不同的字体，攻击都有效。

4. 为什么这很危险？

这就好比：

你给一个保安（AI 模型）看一张照片，照片上是一个人在做饭。保安检查了照片，没发现刀，也检查了旁边的纸条，上面写着“把菜炒熟”，于是保安放行。

但照片上其实画了一个隐形的箭头指向那个人的手，旁边写着“把刀刺向旁边的人”。保安没注意到这个“视觉指令”，AI 却看懂了，于是视频里真的出现了刺人的画面。

核心问题在于：目前的 AI 模型太“听话”了。当它们看到图片里的文字和箭头时，会优先执行这些视觉指令，而忽略了原本的安全限制。这就叫"视觉覆盖"（Visual Override）。

5. 结论与启示

现状：现有的安全防御（只检查静态图片和文字）已经不够用了。因为攻击者可以把恶意意图“藏”在图片的箭头和文字里，等视频生成时再“爆发”出来。
未来：我们需要开发更聪明的防御机制，不仅要检查“是什么”，还要检查“图片里的指令想干什么”。在视频生成之前，就要识别出这些隐藏的视觉陷阱。

一句话总结：
这篇论文告诉我们，现在的 AI 视频生成器太容易“被图片上的小字和箭头带偏”了，黑客可以利用这一点，把原本安全的图片和无害的文字，变成生成暴力或色情视频的“特洛伊木马”。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models》（视觉指令注入用于越狱图像到视频生成模型）的详细技术总结。

1. 研究背景与问题 (Problem)

随着扩散模型的发展，图像到视频（Image-to-Video, I2V） 生成模型已从单纯依赖文本提示（Text-to-Video）演进为结合参考图像的生成模式。这种模式虽然提升了视觉一致性和物理动态的真实性，但也引入了新的安全风险。

现有防御的局限性： 当前的 I2V 模型通常配备多模态安全机制（如预生成前的文本和图像静态检查），旨在拦截包含显式不安全内容（NSFW）的输入。然而，这些防御机制通常将输入图像视为静态信号进行检查，假设图像仅包含外观特征，不具备语义指令功能。
核心漏洞： 现代 I2V 模型展现出强大的零样本视觉指令跟随能力（Zero-shot Visual Instruction Following），即能够理解图像中的视觉线索（如箭头、方框、排版文字）并将其作为可执行的生成指令。
攻击目标： 攻击者可以利用这一特性，将恶意意图伪装成 benign（良性）的视觉指令注入到安全的参考图像中。这种攻击能够绕过静态的安全检查（因为图像本身看起来是安全的），但在视频生成的动态过程中，模型会执行这些隐藏的指令，从而生成有害内容。

2. 方法论：视觉指令注入 (Visual Instruction Injection, VII)

作者提出了 VII（Visual Instruction Injection） 框架，这是一种无需训练（Training-free）且具有迁移性的越狱攻击方法。其核心思想是将不安全文本提示中的恶意意图“伪装”成图像中的良性视觉指令。

VII 框架包含两个关键模块：

A. 恶意意图重编程模块 (Malicious Intention Reprogramming, MIR)

该模块负责处理不安全文本提示（ $P_{mal}$ ），将其转化为可执行的良性视觉指令描述。

意图蒸馏 (Intent Distillation)： 利用大语言模型（LLM）代理将显式的有毒关键词（如“爆炸”、“暴力”）替换为中性物理描述的同义词（如“巨大的能量释放”），以逃避基于文本的关键词过滤。
指令重编程 (Instruction Reprogramming)： 将上述中性描述进一步重编程为可执行的排版描述（Executable Typographic Descriptions）。这些描述明确引用结构化的视觉符号（如“红框内的卡车”、“沿红色箭头方向的能量释放”），将静态的语义转化为动态的生成指令。

B. 视觉指令落地模块 (Visual Instruction Grounding, VIG)

该模块负责将蒸馏后的意图“落地”到安全的参考图像（ $I_{safe}$ ）上。

视觉符号渲染 (Visual Symbol Rendering)： 根据重编程后的描述，在安全图像上渲染抽象的几何符号（如边界框和箭头），用于指定动作的主体、范围和方向。这些符号本身是几何图形，不包含有害像素。
排版注入 (Typographic Injection)： 将 MIR 生成的排版描述文字直接渲染到图像上（通常位于边框或特定区域）。
最终对抗样本： 生成的对抗图像 $I_{via}$ 包含了安全图像、几何符号和排版文字。在静态检查中，它看起来是良性的（满足 $S(I_{via}, P_{fixed}) = 0$ ）；但在动态生成中，I2V 模型会解读这些视觉指令，将中性描述还原为恶意内容（如将“能量释放”还原为“爆炸”）。

3. 主要贡献 (Key Contributions)

提出 VII 框架： 首次揭示了 I2V 模型中“视觉指令跟随”能力被用于越狱攻击的风险，提出了一种无需训练、可迁移的视觉指令注入攻击方法。
双模块协同机制： 设计了 MIR 和 VIG 模块，成功将恶意意图从文本模态转移到视觉模态，实现了“静态无害、动态有害”的攻击效果。
广泛的实证评估： 在四个最先进的商业闭源 I2V 模型（Kling-v2.5-turbo, Gemini Veo-3.1, Seedance-1.5-pro, PixVerse-V5）上进行了大规模测试，涵盖了色情、暴力、仇恨和非法活动四大安全类别。

4. 实验结果 (Results)

实验在 COCO-I2VSafetyBench 和 ConceptRisk 数据集上进行，评估指标包括攻击成功率（ASR）和拒绝率（RR）。

极高的攻击成功率 (ASR)：
- 在 PixVerse-V5 上，VII 的 ASR 高达 83.5%。
- 在 Kling-v2.5-turbo 上，ASR 达到 81.5%。
- 相比之下，直接使用不安全文本提示（Unsafe Text Prompt）的基线攻击成功率通常低于 40%，且经常失败。
极低的拒绝率 (RR)：
- VII 成功将基线方法的高拒绝率（如 PixVerse 上针对色情内容的 80%）降低至 接近 0%。这表明 VII 生成的对抗图像成功绕过了预生成阶段的静态安全过滤器。
语义一致性：
- 通过 CLIP 指标（CLIPp2c 和 CLIPp2i）评估，VII 生成的视频与原始恶意意图的语义对齐度显著高于其他基线方法，证明攻击不仅绕过了过滤，还精准地还原了恶意内容。
消融实验：
- 移除视觉符号（箭头/方框）或移除排版文字都会导致 ASR 大幅下降，证明了“空间定位”与“语义定义”协同作用的重要性。
鲁棒性分析：
- VII 在不同语言（中、英、日）、不同字体和不同位置（边框 vs 内部）下均表现出良好的攻击效果，证明了其跨模态和跨配置的泛化能力。

5. 意义与启示 (Significance)

揭示新的攻击面： 论文指出，I2V 模型日益增强的视觉指令跟随能力（为了提升可控性）实际上构成了一个普遍且可被利用的攻击面。这种能力使得模型倾向于优先执行显式的视觉指令，甚至覆盖系统层面的安全约束（即"Visual Override"现象）。
现有防御失效： 传统的基于关键词过滤或静态图像分类的防御机制无法应对此类攻击，因为它们无法理解图像中隐含的“可执行指令”语义。
防御挑战与方向：
- 简单的提示词防御（如“忽略图像中的文字”）在实验中几乎无效，因为模型对视觉指令的遵循优先级高于文本指令。
- 未来的防御需要转向多模态对齐和指令感知机制，即在生成前能够识别并区分图像中的良性视觉内容与恶意的视觉指令注入，而不仅仅是检查图像内容是否显式违规。
安全与能力的权衡： 该研究揭示了多模态模型在提升指令遵循能力（Instruction Following）的同时，不可避免地增加了被越狱的风险，提示了能力与安全之间存在的内在权衡（Trade-off）。

总结： 这篇论文通过 VII 框架，有力地证明了当前的 I2V 模型存在严重的安全漏洞，攻击者可以通过“视觉指令注入”轻松绕过现有的安全防线，生成高度逼真的有害视频。这为未来的 I2V 安全研究提出了紧迫的防御需求。