Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲了一个关于AI 视频生成模型（Text-to-Video）的新发现，以及一种专门用来“绕过”这些模型安全防线的攻击方法，叫做 TFM（Two Frames Matter，意为“两帧定乾坤”）。

为了让你轻松理解，我们可以把整个故事想象成一个想拍违规电影的导演（黑客）和一个负责审核的严厉制片人（AI 安全系统）之间的博弈。

1. 背景：以前的“骗术”不管用了

以前，黑客想生成违规视频（比如暴力或色情内容），通常会直接修改提示词（Prompt）。

旧方法：就像导演直接跟制片人说：“我想拍一部杀人的电影。”
结果：制片人（安全过滤器）一听“杀人”就立刻叫停。
黑客的改进：于是黑客开始玩文字游戏，把“杀人”改成“激烈的格斗”或者用同义词替换。
局限：但这招越来越难用，因为现在的 AI 很聪明，只要看到明显的敏感词，或者觉得上下文不对劲，还是会拦截。而且，这些方法通常还是把“坏主意”明明白白地写在开头。

2. 新发现：AI 的“脑补”能力是双刃剑

这篇论文发现了一个 AI 视频模型特有的弱点，我们可以称之为"时间线脑补漏洞"。

比喻：想象 AI 是一个超级有想象力的编剧。如果你只给它开头和结尾两个场景，中间发生了什么，它会根据自己学过的所有电影知识，自动“脑补”出中间的过程。
漏洞所在：如果开头是“一个人拿着刀”，结尾是“一个人倒在血泊中”，虽然中间没写“杀人”，但 AI 为了把这两个画面连起来，会自动脑补出中间“挥刀、刺入、流血”的暴力过程。
关键点：AI 的“脑补”过程是它自己完成的，提示词里并没有出现违规词汇。所以，传统的关键词过滤器根本抓不到把柄。

3. 新武器：TFM（两帧定乾坤）

基于这个发现，作者提出了一套名为 TFM 的攻击框架，分为两步走：

第一步：TBP（时间边界提示）—— “只给头尾，中间不管”

操作：黑客不再描述整个视频过程，而是把原本详细的违规指令，压缩成只有第一帧（开始）和最后一帧（结束）的描述。
比喻：导演对制片人只说：“第一幕：主角手里有刀。最后一幕：主角倒在血泊中。中间你们自己看着办，怎么连贯怎么来。”
效果：因为中间过程是空的，AI 为了填补空白，就会调用它内部学到的“暴力知识”来自动补全中间的画面。这就叫“时间轨迹填充”。

第二步：CSM（隐蔽替换机制）—— “把敏感词藏起来”

操作：即使只给了头尾，如果开头说“拿刀”，结尾说“血泊”，还是太明显了，会被过滤器拦下。所以，黑客用大语言模型把这两个词替换成意思相近但更隐晦的词。
比喻：导演把“拿刀”改成“手持利器”，把“血泊”改成“红色液体”。
效果：这些词在字面上看起来是安全的，但 AI 能听懂其中的暗示。

4. 实验结果：效果惊人

作者用这套方法去攻击了市面上几个最火的商业 AI 视频模型（比如 Kling、Hailuo、Pixverse 等）。

战绩：TFM 的攻击成功率比以前的方法提高了很多，在某些模型上甚至提升了 12%。
结论：这意味着，只要利用 AI“自动补全中间过程”的特性，再配合一点“文字伪装”，就能轻松绕过最严格的安全防线，生成原本被禁止的违规视频。

5. 核心启示：我们需要新的“安检”

这篇论文给 AI 安全领域敲响了警钟：

以前的安检：只检查你说的话（提示词）里有没有违禁词。
现在的威胁：坏人没说话，是AI 自己“想”出来的。
未来的方向：我们需要一种懂时间、懂剧情的安全机制。不能只看开头和结尾，还要能监控 AI 在“脑补”中间过程时，是不是在偷偷生成违规内容。

总结

简单来说，这篇论文告诉我们：AI 视频模型太擅长“补全故事”了。黑客利用这一点，只给 AI 一个“坏开头”和一个“坏结尾”，让 AI 自己把中间最坏的部分“演”出来，从而骗过安全系统。这就像你只告诉警察“有人拿枪”和“有人倒地”，警察可能觉得没问题，但 AI 却自动演出了“枪杀过程”。

这提醒我们，未来的 AI 安全不能只盯着“输入”和“输出”看，还得盯着 AI 的“思考过程”（也就是它如何填补时间空白）进行监管。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

背景：
近年来，文生视频（Text-to-Video, T2V）模型（如 Kling, Veo2, Luma Ray2 等）能够根据简短的自然语言提示生成复杂视频。然而，这些模型面临严重的安全对齐问题。现有的越狱攻击（Jailbreak）通常通过改写提示词（Prompt），将不安全内容转化为语义等价但能绕过过滤器的变体。

核心问题：
现有的攻击方法大多仍会在输入文本中保留显式的敏感词汇或线索，未能充分利用 T2V 模型在训练过程中习得的隐式世界知识和时序生成能力。
本文发现了一个针对 T2V 系统的独特漏洞：基于碎片化提示的时序轨迹填充（Temporal Trajectory Infilling）漏洞。

现象： 当提示词仅指定稀疏的边界条件（例如仅描述“起始帧”和“结束帧”），而中间过程未明确指定时，模型倾向于利用其学习到的时序先验知识，自主“脑补”并生成合理的中间演化过程。
风险： 即使起始和结束帧的描述看似无害，模型在填充中间帧时，可能会自主合成违反安全策略的有害内容（如暴力、色情等），从而绕过输入端和输出端的安全过滤。

2. 方法论：TFM 框架 (Methodology)

作者提出了 TFM (Two Frames Matter) 框架，这是一种分阶段的碎片化提示攻击方法，旨在利用上述时序漏洞。该框架包含两个核心步骤：

第一阶段：时序边界提示 (Temporal Boundary Prompting, TBP)

原理： 利用 T2V 生成的时序结构特性，将原本包含完整场景描述的提示词 $X = (x_1, x_2, ..., x_T)$ 转换为仅包含边界条件的稀疏提示。
操作： 保留起始帧 ( $x_1$ ) 和结束帧 ( $x_T$ ) 的描述，完全移除中间所有帧 ( $x_2, ..., x_{T-1}$ ) 的描述。
目的： 迫使模型依赖其内部学到的时序先验（Temporal Priors）来“填补”缺失的时间轨迹。如果边界条件隐含了有害的演化方向，模型生成的中间帧极大概率会包含违规内容。

第二阶段：隐蔽替换机制 (Covert Substitution Mechanism, CSM)

原理： 即使经过 TBP 处理，边界描述中仍可能包含敏感词汇，容易被输入端过滤器拦截。
操作： 利用大语言模型（LLM）对边界描述中的敏感词进行语义对齐但表面模糊化的替换。
- 定义敏感词集合 $S$ 和显性评分函数 $r(\cdot)$ 。
- 将显性敏感词替换为显性评分更低（ $r(\hat{w}) < r(w)$ ）但语义意图保持一致的替代词。
目的： 降低提示词的词汇检测风险，确保边界提示能顺利通过输入端的安全过滤，同时保留触发模型生成有害内容的语义意图。

流程总结：
原始不安全提示 $\xrightarrow{TBP}$ 仅含边界的稀疏提示 $\xrightarrow{CSM}$ 最终攻击提示（表面无害，但诱导模型生成有害中间帧）。

3. 主要贡献 (Key Contributions)

发现新漏洞： 首次识别并形式化了 T2V 系统中基于“时序轨迹填充”的特定漏洞。证明了在仅提供稀疏边界条件下，模型会自主合成有害的中间内容，即使提示词本身看似安全。
提出 TFM 框架： 设计了一个系统性的黑盒攻击框架，通过“边界提取”和“隐蔽替换”两步，有效利用了模型的时序生成特性。
广泛的实验验证： 在多个开源和闭源（商业）T2V 模型上进行了大规模评估，证明了 TFM 的通用性和鲁棒性。
安全启示： 揭示了当前仅关注提示词表面形式或单帧检查的安全机制的不足，强调了需要开发具备“时序感知”的安全防御机制。

4. 实验结果 (Results)

实验设置：

数据集： 基于 T2VSafetyBench 构建的 700 个不安全提示（涵盖色情、暴力、政治敏感等 14 个类别）。
目标模型： 4 个主流商业闭源模型（Pixverse, Hailuo, Kling, Seedance）及多个开源模型。
对比基线： 包括 TSB（直接攻击）、RAB、DACA、VEIL 等现有越狱方法。
评估指标： 攻击成功率 (ASR)，定义为提示词通过过滤且生成的视频被判定为不安全。

核心数据：

整体性能： TFM 在所有评估模型上均取得了最佳平均 ASR。
- 在 Hailuo 上，TFM 达到 60.0% 的 ASR，比最强的基线 VEIL (48.0%) 高出 12.0%。
- 在 Pixverse 上，TFM 达到 52.0%，比 VEIL (45.0%) 高出 7.0%。
- 在 Kling 和 Seedance 上也分别有显著提升。
类别表现： TFM 在 14 个安全类别中表现优异，特别是在通常由显式关键词触发的类别（如色情、血腥）中，ASR 提升显著（例如色情类在 Hailuo 上达到 96.0%）。
消融实验：
- 移除 TBP (W/O TBP)： ASR 大幅下降（平均降至 15.0%-21.0%），证明“边界稀疏化”是攻击成功的核心骨架。
- 移除 CSM (W/O CSM)： ASR 也显著下降（平均降至 21.0%-27.0%），证明“隐蔽替换”对于绕过输入过滤至关重要。
- 顺序敏感性： 先 TBP 后 CSM 的顺序优于反向顺序，说明先构建时序骨架再进行语义模糊化效果最佳。
- 中间帧影响： 如果添加中间帧（破坏稀疏性），攻击成功率会下降，进一步验证了“稀疏边界诱导填充”是漏洞的关键。

5. 意义与结论 (Significance & Conclusion)

技术意义：

本文揭示了 T2V 模型安全防御中的一个盲区：模型驱动的自动补全（Model-driven Completion）。现有的防御机制往往关注提示词本身是否包含违规词，或者检查生成的每一帧，但忽略了模型在“填空”过程中可能产生的隐性违规。
证明了通过操纵时间维度的提示词结构（从连续变为稀疏），可以诱导模型利用其内部知识生成有害内容。

防御启示：

现有的基于关键词过滤或单帧检测的防御手段不足以应对此类攻击。
未来的安全机制必须具备时序感知能力（Temporally Aware），不仅要检查输入提示和输出帧，还需要评估模型在生成过程中的轨迹合理性，防止模型在边界条件诱导下“脑补”出违规内容。

局限性：

实验主要在黑盒商业模型上进行，模型更新可能导致 ASR 波动。
评估依赖于稀疏帧采样，可能漏掉采样点之间的瞬态违规内容。

总结：
"Two Frames Matter" 论文通过巧妙的时序攻击策略，证明了即使输入提示看似无害，T2V 模型也可能因为过度依赖内部先验知识来填充缺失的时间轨迹，从而生成有害视频。这为文生视频模型的安全对齐提出了新的挑战和防御方向。