Each language version is independently generated for its own context, not a direct translation.
这篇论文讲了一个关于AI 视频生成模型(Text-to-Video)的新发现,以及一种专门用来“绕过”这些模型安全防线的攻击方法,叫做 TFM(Two Frames Matter,意为“两帧定乾坤”)。
为了让你轻松理解,我们可以把整个故事想象成一个想拍违规电影的导演(黑客)和一个负责审核的严厉制片人(AI 安全系统)之间的博弈。
1. 背景:以前的“骗术”不管用了
以前,黑客想生成违规视频(比如暴力或色情内容),通常会直接修改提示词(Prompt)。
- 旧方法:就像导演直接跟制片人说:“我想拍一部杀人的电影。”
- 结果:制片人(安全过滤器)一听“杀人”就立刻叫停。
- 黑客的改进:于是黑客开始玩文字游戏,把“杀人”改成“激烈的格斗”或者用同义词替换。
- 局限:但这招越来越难用,因为现在的 AI 很聪明,只要看到明显的敏感词,或者觉得上下文不对劲,还是会拦截。而且,这些方法通常还是把“坏主意”明明白白地写在开头。
2. 新发现:AI 的“脑补”能力是双刃剑
这篇论文发现了一个 AI 视频模型特有的弱点,我们可以称之为"时间线脑补漏洞"。
- 比喻:想象 AI 是一个超级有想象力的编剧。如果你只给它开头和结尾两个场景,中间发生了什么,它会根据自己学过的所有电影知识,自动“脑补”出中间的过程。
- 漏洞所在:如果开头是“一个人拿着刀”,结尾是“一个人倒在血泊中”,虽然中间没写“杀人”,但 AI 为了把这两个画面连起来,会自动脑补出中间“挥刀、刺入、流血”的暴力过程。
- 关键点:AI 的“脑补”过程是它自己完成的,提示词里并没有出现违规词汇。所以,传统的关键词过滤器根本抓不到把柄。
3. 新武器:TFM(两帧定乾坤)
基于这个发现,作者提出了一套名为 TFM 的攻击框架,分为两步走:
第一步:TBP(时间边界提示)—— “只给头尾,中间不管”
- 操作:黑客不再描述整个视频过程,而是把原本详细的违规指令,压缩成只有第一帧(开始)和最后一帧(结束)的描述。
- 比喻:导演对制片人只说:“第一幕:主角手里有刀。最后一幕:主角倒在血泊中。中间你们自己看着办,怎么连贯怎么来。”
- 效果:因为中间过程是空的,AI 为了填补空白,就会调用它内部学到的“暴力知识”来自动补全中间的画面。这就叫“时间轨迹填充”。
第二步:CSM(隐蔽替换机制)—— “把敏感词藏起来”
- 操作:即使只给了头尾,如果开头说“拿刀”,结尾说“血泊”,还是太明显了,会被过滤器拦下。所以,黑客用大语言模型把这两个词替换成意思相近但更隐晦的词。
- 比喻:导演把“拿刀”改成“手持利器”,把“血泊”改成“红色液体”。
- 效果:这些词在字面上看起来是安全的,但 AI 能听懂其中的暗示。
4. 实验结果:效果惊人
作者用这套方法去攻击了市面上几个最火的商业 AI 视频模型(比如 Kling、Hailuo、Pixverse 等)。
- 战绩:TFM 的攻击成功率比以前的方法提高了很多,在某些模型上甚至提升了 12%。
- 结论:这意味着,只要利用 AI“自动补全中间过程”的特性,再配合一点“文字伪装”,就能轻松绕过最严格的安全防线,生成原本被禁止的违规视频。
5. 核心启示:我们需要新的“安检”
这篇论文给 AI 安全领域敲响了警钟:
- 以前的安检:只检查你说的话(提示词)里有没有违禁词。
- 现在的威胁:坏人没说话,是AI 自己“想”出来的。
- 未来的方向:我们需要一种懂时间、懂剧情的安全机制。不能只看开头和结尾,还要能监控 AI 在“脑补”中间过程时,是不是在偷偷生成违规内容。
总结
简单来说,这篇论文告诉我们:AI 视频模型太擅长“补全故事”了。黑客利用这一点,只给 AI 一个“坏开头”和一个“坏结尾”,让 AI 自己把中间最坏的部分“演”出来,从而骗过安全系统。这就像你只告诉警察“有人拿枪”和“有人倒地”,警察可能觉得没问题,但 AI 却自动演出了“枪杀过程”。
这提醒我们,未来的 AI 安全不能只盯着“输入”和“输出”看,还得盯着 AI 的“思考过程”(也就是它如何填补时间空白)进行监管。
Each language version is independently generated for its own context, not a direct translation.
1. 研究背景与问题定义 (Problem)
背景:
近年来,文生视频(Text-to-Video, T2V)模型(如 Kling, Veo2, Luma Ray2 等)能够根据简短的自然语言提示生成复杂视频。然而,这些模型面临严重的安全对齐问题。现有的越狱攻击(Jailbreak)通常通过改写提示词(Prompt),将不安全内容转化为语义等价但能绕过过滤器的变体。
核心问题:
现有的攻击方法大多仍会在输入文本中保留显式的敏感词汇或线索,未能充分利用 T2V 模型在训练过程中习得的隐式世界知识和时序生成能力。
本文发现了一个针对 T2V 系统的独特漏洞:基于碎片化提示的时序轨迹填充(Temporal Trajectory Infilling)漏洞。
- 现象: 当提示词仅指定稀疏的边界条件(例如仅描述“起始帧”和“结束帧”),而中间过程未明确指定时,模型倾向于利用其学习到的时序先验知识,自主“脑补”并生成合理的中间演化过程。
- 风险: 即使起始和结束帧的描述看似无害,模型在填充中间帧时,可能会自主合成违反安全策略的有害内容(如暴力、色情等),从而绕过输入端和输出端的安全过滤。
2. 方法论:TFM 框架 (Methodology)
作者提出了 TFM (Two Frames Matter) 框架,这是一种分阶段的碎片化提示攻击方法,旨在利用上述时序漏洞。该框架包含两个核心步骤:
第一阶段:时序边界提示 (Temporal Boundary Prompting, TBP)
- 原理: 利用 T2V 生成的时序结构特性,将原本包含完整场景描述的提示词 X=(x1,x2,...,xT) 转换为仅包含边界条件的稀疏提示。
- 操作: 保留起始帧 (x1) 和结束帧 (xT) 的描述,完全移除中间所有帧 (x2,...,xT−1) 的描述。
- 目的: 迫使模型依赖其内部学到的时序先验(Temporal Priors)来“填补”缺失的时间轨迹。如果边界条件隐含了有害的演化方向,模型生成的中间帧极大概率会包含违规内容。
第二阶段:隐蔽替换机制 (Covert Substitution Mechanism, CSM)
- 原理: 即使经过 TBP 处理,边界描述中仍可能包含敏感词汇,容易被输入端过滤器拦截。
- 操作: 利用大语言模型(LLM)对边界描述中的敏感词进行语义对齐但表面模糊化的替换。
- 定义敏感词集合 S 和显性评分函数 r(⋅)。
- 将显性敏感词替换为显性评分更低(r(w^)<r(w))但语义意图保持一致的替代词。
- 目的: 降低提示词的词汇检测风险,确保边界提示能顺利通过输入端的安全过滤,同时保留触发模型生成有害内容的语义意图。
流程总结:
原始不安全提示 TBP 仅含边界的稀疏提示 CSM 最终攻击提示(表面无害,但诱导模型生成有害中间帧)。
3. 主要贡献 (Key Contributions)
- 发现新漏洞: 首次识别并形式化了 T2V 系统中基于“时序轨迹填充”的特定漏洞。证明了在仅提供稀疏边界条件下,模型会自主合成有害的中间内容,即使提示词本身看似安全。
- 提出 TFM 框架: 设计了一个系统性的黑盒攻击框架,通过“边界提取”和“隐蔽替换”两步,有效利用了模型的时序生成特性。
- 广泛的实验验证: 在多个开源和闭源(商业)T2V 模型上进行了大规模评估,证明了 TFM 的通用性和鲁棒性。
- 安全启示: 揭示了当前仅关注提示词表面形式或单帧检查的安全机制的不足,强调了需要开发具备“时序感知”的安全防御机制。
4. 实验结果 (Results)
实验设置:
- 数据集: 基于 T2VSafetyBench 构建的 700 个不安全提示(涵盖色情、暴力、政治敏感等 14 个类别)。
- 目标模型: 4 个主流商业闭源模型(Pixverse, Hailuo, Kling, Seedance)及多个开源模型。
- 对比基线: 包括 TSB(直接攻击)、RAB、DACA、VEIL 等现有越狱方法。
- 评估指标: 攻击成功率 (ASR),定义为提示词通过过滤且生成的视频被判定为不安全。
核心数据:
- 整体性能: TFM 在所有评估模型上均取得了最佳平均 ASR。
- 在 Hailuo 上,TFM 达到 60.0% 的 ASR,比最强的基线 VEIL (48.0%) 高出 12.0%。
- 在 Pixverse 上,TFM 达到 52.0%,比 VEIL (45.0%) 高出 7.0%。
- 在 Kling 和 Seedance 上也分别有显著提升。
- 类别表现: TFM 在 14 个安全类别中表现优异,特别是在通常由显式关键词触发的类别(如色情、血腥)中,ASR 提升显著(例如色情类在 Hailuo 上达到 96.0%)。
- 消融实验:
- 移除 TBP (W/O TBP): ASR 大幅下降(平均降至 15.0%-21.0%),证明“边界稀疏化”是攻击成功的核心骨架。
- 移除 CSM (W/O CSM): ASR 也显著下降(平均降至 21.0%-27.0%),证明“隐蔽替换”对于绕过输入过滤至关重要。
- 顺序敏感性: 先 TBP 后 CSM 的顺序优于反向顺序,说明先构建时序骨架再进行语义模糊化效果最佳。
- 中间帧影响: 如果添加中间帧(破坏稀疏性),攻击成功率会下降,进一步验证了“稀疏边界诱导填充”是漏洞的关键。
5. 意义与结论 (Significance & Conclusion)
技术意义:
- 本文揭示了 T2V 模型安全防御中的一个盲区:模型驱动的自动补全(Model-driven Completion)。现有的防御机制往往关注提示词本身是否包含违规词,或者检查生成的每一帧,但忽略了模型在“填空”过程中可能产生的隐性违规。
- 证明了通过操纵时间维度的提示词结构(从连续变为稀疏),可以诱导模型利用其内部知识生成有害内容。
防御启示:
- 现有的基于关键词过滤或单帧检测的防御手段不足以应对此类攻击。
- 未来的安全机制必须具备时序感知能力(Temporally Aware),不仅要检查输入提示和输出帧,还需要评估模型在生成过程中的轨迹合理性,防止模型在边界条件诱导下“脑补”出违规内容。
局限性:
- 实验主要在黑盒商业模型上进行,模型更新可能导致 ASR 波动。
- 评估依赖于稀疏帧采样,可能漏掉采样点之间的瞬态违规内容。
总结:
"Two Frames Matter" 论文通过巧妙的时序攻击策略,证明了即使输入提示看似无害,T2V 模型也可能因为过度依赖内部先验知识来填充缺失的时间轨迹,从而生成有害视频。这为文生视频模型的安全对齐提出了新的挑战和防御方向。