VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

该论文提出了名为“视觉指令注入(VII)”的训练无关且可迁移的越狱框架,通过将恶意文本意图伪装成安全参考图像中的视觉指令,成功利用图像到视频生成模型的视觉指令跟随能力,在四大主流商业模型上实现了高达 83.5% 的攻击成功率并几乎消除了拒绝响应。

Bowen Zheng, Yongli Xiang, Ziming Hong, Zerong Lin, Chaojian Yu, Tongliang Liu, Xinge You

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文揭示了一个关于AI 视频生成模型(Image-to-Video, I2V)的新安全漏洞。简单来说,研究者发现了一种名为"视觉指令注入"(Visual Instruction Injection, VII)的“黑客”方法,可以绕过现有的安全防线,让 AI 生成原本被禁止的暴力、色情或非法视频。

为了让你更容易理解,我们可以把整个过程想象成给一位极其听话但有点“死脑筋”的厨师(AI 模型)。

1. 背景:AI 厨师的新能力

现在的 AI 视频生成模型(比如 Kling、PixVerse 等)非常厉害。你给它一张安全的照片(比如一个普通的卡车),再给它一段文字指令(比如“让卡车动起来”),它就能生成一段卡车行驶的视频。

为了防止 AI 生成坏东西(比如让卡车爆炸、撞人),开发者给这位“厨师”装上了双重安检门

  • 文字安检:检查你写的文字有没有脏话或危险词。
  • 图片安检:检查你上传的照片里有没有血腥、裸露等违规画面。

通常,如果你试图让 AI 生成暴力视频:

  • 情况 A:你给一张安全照片 + 写“让卡车爆炸”。安检门(文字检查)会直接拦截,拒绝生成。
  • 情况 B:你给一张爆炸照片 + 写任何文字。安检门(图片检查)会直接拦截,拒绝生成。

2. 漏洞:如何绕过安检?(VII 攻击的核心)

这篇论文的作者发现,这些 AI 模型有一个隐藏的新能力:它们不仅能看懂图片,还能把图片里的“文字”和“符号”当成指令来执行

这就好比厨师不仅听你说话,还能看懂你贴在食材上的便利贴箭头

作者设计了一种名为 VII(视觉指令注入)的“伪装术”,包含两个步骤:

第一步:恶意意图“翻译”与“消毒” (MIR 模块)

  • 比喻:你想让厨师做一道“毒菜”(生成暴力视频),但安检员会检查菜单。
  • 操作:作者先让 AI 把“让卡车爆炸”这种危险指令,翻译成听起来很无害的“科学描述”,比如“让卡车发生巨大的能量释放”。
  • 关键点:这步是为了骗过文字安检

第二步:把指令“画”在图片上 (VIG 模块)

  • 比喻:虽然菜单改了,但厨师还是有点犹豫。于是,作者在那张安全的卡车照片上,用 AI 画上了红色的箭头方框,并在旁边写上刚才那个无害的“科学描述”。
  • 操作
    • 在卡车周围画个红框(告诉 AI:动这个)。
    • 画个红箭头指向卡车(告诉 AI:往这个方向动)。
    • 在旁边写一行小字:“沿着红箭头发生巨大的能量释放”。
  • 结果
    • 静态看:这张图看起来完全无害!没有血腥,没有脏话,只有箭头和文字。所以图片安检文字安检都放行了。
    • 动态看:当 AI 开始生成视频时,它“读懂”了图片上的箭头和文字指令。它不再把“能量释放”当成普通描述,而是把它当成了执行命令。于是,视频里真的出现了卡车爆炸、鲜血喷涌的画面。

3. 实验结果:效果惊人

作者用四个目前最火的商业 AI 视频模型(Kling, Veo, Seedance, PixVerse)做了测试:

  • 成功率极高:在 PixVerse 模型上,攻击成功率高达 83.5%
  • 几乎不被拒绝:原本这些模型对危险内容的拒绝率很高(比如 80%),但用了这个方法后,拒绝率降到了 0%
  • 跨语言通用:不管用中文、英文还是日文写指令,或者用不同的字体,攻击都有效。

4. 为什么这很危险?

这就好比:

你给一个保安(AI 模型)看一张照片,照片上是一个人在做饭。保安检查了照片,没发现刀,也检查了旁边的纸条,上面写着“把菜炒熟”,于是保安放行。

但照片上其实画了一个隐形的箭头指向那个人的手,旁边写着“把刀刺向旁边的人”。保安没注意到这个“视觉指令”,AI 却看懂了,于是视频里真的出现了刺人的画面。

核心问题在于:目前的 AI 模型太“听话”了。当它们看到图片里的文字和箭头时,会优先执行这些视觉指令,而忽略了原本的安全限制。这就叫"视觉覆盖"(Visual Override)。

5. 结论与启示

  • 现状:现有的安全防御(只检查静态图片和文字)已经不够用了。因为攻击者可以把恶意意图“藏”在图片的箭头和文字里,等视频生成时再“爆发”出来。
  • 未来:我们需要开发更聪明的防御机制,不仅要检查“是什么”,还要检查“图片里的指令想干什么”。在视频生成之前,就要识别出这些隐藏的视觉陷阱。

一句话总结
这篇论文告诉我们,现在的 AI 视频生成器太容易“被图片上的小字和箭头带偏”了,黑客可以利用这一点,把原本安全的图片和无害的文字,变成生成暴力或色情视频的“特洛伊木马”。