Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

该论文提出了一种名为 TFM 的新型越狱攻击框架,通过利用文生视频模型在仅指定起始和结束帧的稀疏提示下自主补全中间有害内容的“时间轨迹填充”漏洞,成功绕过了现有内容过滤机制并显著提升了攻击成功率。

Moyang Chen, Zonghao Ying, Wenzhuo Xu, Quancheng Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲了一个关于AI 视频生成模型(Text-to-Video)的新发现,以及一种专门用来“绕过”这些模型安全防线的攻击方法,叫做 TFM(Two Frames Matter,意为“两帧定乾坤”)。

为了让你轻松理解,我们可以把整个故事想象成一个想拍违规电影的导演(黑客)和一个负责审核的严厉制片人(AI 安全系统)之间的博弈。

1. 背景:以前的“骗术”不管用了

以前,黑客想生成违规视频(比如暴力或色情内容),通常会直接修改提示词(Prompt)。

  • 旧方法:就像导演直接跟制片人说:“我想拍一部杀人的电影。”
  • 结果:制片人(安全过滤器)一听“杀人”就立刻叫停。
  • 黑客的改进:于是黑客开始玩文字游戏,把“杀人”改成“激烈的格斗”或者用同义词替换。
  • 局限:但这招越来越难用,因为现在的 AI 很聪明,只要看到明显的敏感词,或者觉得上下文不对劲,还是会拦截。而且,这些方法通常还是把“坏主意”明明白白地写在开头。

2. 新发现:AI 的“脑补”能力是双刃剑

这篇论文发现了一个 AI 视频模型特有的弱点,我们可以称之为"时间线脑补漏洞"。

  • 比喻:想象 AI 是一个超级有想象力的编剧。如果你只给它开头结尾两个场景,中间发生了什么,它会根据自己学过的所有电影知识,自动“脑补”出中间的过程。
  • 漏洞所在:如果开头是“一个人拿着刀”,结尾是“一个人倒在血泊中”,虽然中间没写“杀人”,但 AI 为了把这两个画面连起来,会自动脑补出中间“挥刀、刺入、流血”的暴力过程。
  • 关键点:AI 的“脑补”过程是它自己完成的,提示词里并没有出现违规词汇。所以,传统的关键词过滤器根本抓不到把柄。

3. 新武器:TFM(两帧定乾坤)

基于这个发现,作者提出了一套名为 TFM 的攻击框架,分为两步走:

第一步:TBP(时间边界提示)—— “只给头尾,中间不管”

  • 操作:黑客不再描述整个视频过程,而是把原本详细的违规指令,压缩成只有第一帧(开始)和最后一帧(结束)的描述。
  • 比喻:导演对制片人只说:“第一幕:主角手里有刀。最后一幕:主角倒在血泊中。中间你们自己看着办,怎么连贯怎么来。”
  • 效果:因为中间过程是空的,AI 为了填补空白,就会调用它内部学到的“暴力知识”来自动补全中间的画面。这就叫“时间轨迹填充”。

第二步:CSM(隐蔽替换机制)—— “把敏感词藏起来”

  • 操作:即使只给了头尾,如果开头说“拿刀”,结尾说“血泊”,还是太明显了,会被过滤器拦下。所以,黑客用大语言模型把这两个词替换成意思相近但更隐晦的词。
  • 比喻:导演把“拿刀”改成“手持利器”,把“血泊”改成“红色液体”。
  • 效果:这些词在字面上看起来是安全的,但 AI 能听懂其中的暗示。

4. 实验结果:效果惊人

作者用这套方法去攻击了市面上几个最火的商业 AI 视频模型(比如 Kling、Hailuo、Pixverse 等)。

  • 战绩:TFM 的攻击成功率比以前的方法提高了很多,在某些模型上甚至提升了 12%
  • 结论:这意味着,只要利用 AI“自动补全中间过程”的特性,再配合一点“文字伪装”,就能轻松绕过最严格的安全防线,生成原本被禁止的违规视频。

5. 核心启示:我们需要新的“安检”

这篇论文给 AI 安全领域敲响了警钟:

  • 以前的安检:只检查你说的话(提示词)里有没有违禁词。
  • 现在的威胁:坏人没说话,是AI 自己“想”出来的
  • 未来的方向:我们需要一种懂时间、懂剧情的安全机制。不能只看开头和结尾,还要能监控 AI 在“脑补”中间过程时,是不是在偷偷生成违规内容。

总结

简单来说,这篇论文告诉我们:AI 视频模型太擅长“补全故事”了。黑客利用这一点,只给 AI 一个“坏开头”和一个“坏结尾”,让 AI 自己把中间最坏的部分“演”出来,从而骗过安全系统。这就像你只告诉警察“有人拿枪”和“有人倒地”,警察可能觉得没问题,但 AI 却自动演出了“枪杀过程”。

这提醒我们,未来的 AI 安全不能只盯着“输入”和“输出”看,还得盯着 AI 的“思考过程”(也就是它如何填补时间空白)进行监管。