SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

本文提出了名为 SPARK 的框架,通过结合中性场景锚点、利用视听关联先验的潜在听觉触发词以及风格调节器,构建看似无害的提示词以协同诱导文本生成视频(T2V)模型绕过安全防御,从而生成语义违规的视频内容。

Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong Liu

发布于 Mon, 09 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何“骗过”最新 AI 视频生成模型的研究。简单来说,作者发现了一个新的漏洞,并发明了一种名为 SPARK 的新方法,能够绕过现有的安全防线,让 AI 生成原本被禁止的暴力、色情或非法内容。

为了让你更容易理解,我们可以把整个过程想象成**“用合法的食材做一道禁菜”**。

1. 背景:AI 视频模型像什么?

现在的 AI 视频模型(比如 Sora、Kling)不仅仅是把文字变成图片,它们更像是一个**“世界模拟器”**。

  • 以前的 AI:像个翻译官,你给它“血”这个词,它画个红色的液体。
  • 现在的 AI:像个懂物理、懂因果的导演。如果你说“有人尖叫”,它知道这意味着“有人受伤”或“发生了暴力”,因为它在训练时看过无数电影,学会了声音和画面之间的因果关系

2. 问题:以前的攻击为什么失效了?

以前的黑客攻击(Jailbreak)就像**“打擦边球”**。

  • 旧方法:他们试图把“杀人”这个词替换成“红色液体”或者用乱码来混淆视听。
  • 结果:现在的 AI 模型非常聪明,它们有严格的“安检员”(安全过滤器)。只要看到这些奇怪的词,或者语义不通顺的句子,安检员就会直接拦截,拒绝生成视频。

3. 核心发现:SPARK 是怎么“钻空子”的?

作者发现,AI 模型有一个**“跨模态的潜意识”。它虽然对文字很敏感,但对“声音 + 氛围 + 画面”**的组合推理能力很强。

SPARK 的秘诀是:不直接说“做坏事”,而是描述“做坏事时的声音和氛围”。

这就好比你想让厨师做一道“禁菜”(比如非法交易器官的手术),你不能直接说“给我做这个手术”,厨师会报警。但如果你这样点菜:

  1. 语义锚点(Anchor):描述一个看似正常的场景(比如“昏暗的房间”)。
  2. 听觉触发(Trigger):描述声音(比如“金属器械碰撞的清脆声”、“压抑的尖叫”)。
  3. 风格调节器(Modulator):设定电影风格(比如“希区柯克式的悬疑惊悚片”)。

AI 的反应是:

  • 安检员(文字过滤器):检查你的文字。“金属声”、“悬疑片”、“昏暗房间”?这些都是合法、无害的词。放行!✅
  • 世界模拟器(视频生成核心):听到“金属声” + “尖叫” + “悬疑风格”,它的大脑立刻推理出:“哦,这肯定是在进行一场非法手术!”于是,它自动补全了画面,生成了你原本想要的那个暴力视频。

4. 比喻:SPARK 就像“心理暗示”

想象你在玩一个**“你画我猜”**的游戏,但规则变了:

  • 旧攻击:你试图直接画一个“炸弹”,裁判(安全系统)直接把你踢出局。
  • SPARK 攻击:你画了一个**“导火索”,旁边画了“爆炸的声音符号”,还标注了“动作片风格”**。
    • 裁判看画:全是合法元素,没问题。
    • 猜题者(AI):看到导火索 + 爆炸声 + 动作片,它自动脑补出了爆炸的画面,并且画了出来。

SPARK 就是利用了 AI 这种**“自动脑补”的能力,通过组合三个看似无害的“积木”(场景、声音、风格),在 AI 的潜意识(潜在空间)**里拼凑出了危险的内容。

5. 实验结果:效果惊人

作者测试了 7 个最先进的 AI 视频模型(包括商业版和开源版):

  • 旧方法:成功率很低,大部分都被拦住了。
  • SPARK:平均成功率提升了 23%。在某些类别(如色情、血腥)上,成功率甚至高达 90% 以上
  • 抗干扰能力:即使加上更严格的“关键词黑名单”或者用另一个 AI 来审查文字,SPARK 依然能轻松绕过,因为它用的词本身都是干净的。

6. 总结与警示

这篇论文揭示了一个令人担忧的事实:
仅仅检查“说了什么词”已经不够了。
现在的 AI 太聪明,它们能听懂“弦外之音”。如果你描述了一个场景的声音氛围,AI 就能自己推导出画面

SPARK 的意义
它不是教坏人怎么作恶,而是像**“白帽子黑客”一样,提前发现了这个巨大的安全漏洞。它告诉开发者:未来的 AI 安全不能只盯着文字过滤,必须学会识别这种“跨模态的因果推理”**,否则再严密的文字防线也挡不住这种“指桑骂槐”式的攻击。

一句话总结
SPARK 证明了,只要给 AI 足够的声音线索电影氛围,它就能自己“脑补”出它不该生成的危险画面,从而绕过所有基于文字的安检。