Each language version is independently generated for its own context, not a direct translation.
这是一篇关于**如何给 AI 生成的视频“隐形盖章”**的论文。
想象一下,现在 AI 能像变魔术一样生成逼真的视频。但这带来了一个大问题:如果有人在 AI 生成的视频里造谣、诈骗,或者有人偷走了艺术家的作品,我们怎么知道这个视频是 AI 做的?又是谁做的?
这就需要水印技术。以前的水印就像在视频上贴个显眼的贴纸,或者把视频压得模糊一点,这很破坏画质。而这篇论文提出的 SIGMark,就像给视频注入了“隐形墨水”,既不影响画质,又能被识别出来。
但现有的“隐形墨水”有两个大毛病,SIGMark 完美解决了它们。我们用几个生活中的比喻来解释:
1. 以前的痛点:像“查户口”一样累,而且怕“剪片子”
痛点一:查水印太慢(非盲提取)
- 以前的做法:想象一下,你给 100 万个视频都盖了章。现在要查某个视频是谁盖的,以前的方法需要把所有 100 万个章的样本都拿出来,一个个跟这个视频比对。
- 比喻:就像警察抓小偷,每来一个嫌疑人,警察都要把全城 100 万人的指纹都拿出来比对一遍。视频越多,比对时间越长,根本跑不起来。
- SIGMark 的解法:“盲提取”。
- SIGMark 不需要存那 100 万个样本。它只存一套通用的“印章模具”(全局密钥)。
- 比喻:警察手里只有一把通用的“万能钥匙”。不管来多少嫌疑人,只要用这把钥匙一插,就能直接知道是不是这把钥匙开的锁。不管视频生成了一亿个,检查速度都一样快,永远只需要一瞬间。
痛点二:视频被“剪”了就认不出来了(时间鲁棒性差)
- 以前的做法:现代 AI 生成视频时,是像“打包”一样,把 4 帧画面打包成一个整体来处理的。如果视频被压缩、被剪辑、或者中间少了几帧(比如有人把视频里的第 5 秒剪掉了),AI 在解码时就会“乱套”,把第 6 帧和第 7 帧强行拼在一起,导致水印彻底失效。
- 比喻:就像你给一列火车每节车厢都贴了编号。如果有人把车厢拆下来,重新乱序拼接,或者剪掉几节,原来的编号系统就乱了,你根本不知道哪节车厢该接哪节。
- SIGMark 的解法:“智能重组模块” (SGO)。
- SIGMark 有一个聪明的“剪辑师”助手。当视频被打乱时,它会先分析画面里的动作连贯性(比如人走路的方向、树叶飘动的轨迹)。
- 比喻:就像你在看一列被拆散的火车,SIGMark 的助手会看车轮转动的方向、看车厢连接处的缝隙,自动把车厢重新排好队,恢复成原来的顺序。一旦顺序对了,水印就能被准确读取。
2. 核心黑科技:怎么做到“隐形”且“盲查”?
SIGMark 用了一种叫 GF-PRC 的技术。
- 以前的做法:为了把信息藏进去,通常需要一个固定的密码本。但为了盲查,密码本必须全球通用,这会导致所有视频看起来都差不多,失去了多样性(就像所有视频都盖了同一个章,一眼就能看出是机器生成的)。
- SIGMark 的做法:它使用了一种**“伪随机编码”**。
- 比喻:想象你要给视频盖一个“隐形章”。以前的方法是:不管盖什么章,墨水的分布都是固定的。SIGMark 的方法是:虽然章的内容(水印信息)是一样的,但墨水的喷溅形状是随机生成的。
- 这就好比:虽然你盖的是同一个“机密”印章,但每次盖下去,墨迹的晕染形状都不同,看起来就像自然形成的噪点。
- 结果:视频看起来完全自然,画质无损。而且,因为墨水形状是随机但可预测的,只要手里有那把“万能钥匙”(全局密钥),就能把墨迹还原成信息,不需要去查之前的记录。
3. 总结:SIGMark 到底牛在哪里?
- 画质无损:就像给视频注入了隐形墨水,肉眼完全看不出区别,视频依然清晰流畅。
- 速度极快(可扩展):不管平台上有 1 个视频还是 1 亿个视频,提取水印的时间都是一样的。因为它不需要去“翻旧账”(比对数据库),只需要一把“万能钥匙”就能瞬间识别。
- 抗干扰强:哪怕视频被剪辑、被压缩、帧数被打乱,它也能像“智能拼图”一样把视频理顺,把水印找出来。
一句话总结:
SIGMark 就像是给 AI 视频装了一个**“隐形且智能的身份证”**。它不需要庞大的数据库来比对,也不怕视频被剪辑破坏,能瞬间、准确地告诉我们要:这个视频是 AI 生成的,而且是谁生成的。这对于保护版权和防止 AI 造谣非常重要。
Each language version is independently generated for its own context, not a direct translation.
1. 研究背景与问题定义 (Problem)
随着人工智能生成内容(AIGC),特别是基于扩散模型(Diffusion Models)的视频生成技术的飞速发展,如何保护 AI 生成视频的版权并追溯有害内容的来源变得至关重要。隐形水印是解决这一问题的关键技术。
现有的视频水印技术主要分为两类,但都存在显著缺陷:
- 后处理水印 (Post-processing Watermarks): 在视频生成后嵌入水印。这种方法不可避免地会引入冗余信息,导致视频质量下降(失真)。
- 生成式水印 (In-Generation Watermarks): 在扩散模型的生成过程中(即在初始噪声采样阶段)嵌入水印。虽然理论上可以做到无失真(Distortion-free),但现有方法面临两个核心挑战:
- 高提取成本(非盲提取): 现有方法通常是非盲的(Non-blind),提取时需要维护所有“消息 - 密钥”对,并在提取时进行模板匹配。随着生成请求规模的扩大,存储和计算成本呈线性增长,难以扩展到大规模平台。
- 时间鲁棒性差: 现代视频扩散模型(如 HunyuanVideo, Wan)通常使用因果 3D VAE(Causal 3D VAE),将一组相邻帧压缩为一个潜在特征维度。如果视频在传输或处理过程中发生时间扰动(如帧丢失、剪辑、插入),会导致帧分组错误,进而使得潜在特征无法正确重建,导致水印提取失败。
核心目标: 提出一种可扩展的、盲提取的、且对时间扰动具有强鲁棒性的视频扩散模型生成式水印方案。
2. 方法论 (Methodology)
作者提出了 SIGMark 框架,包含两个核心创新模块:
2.1 全局帧级伪随机编码 (Global Frame-wise PseudoRandom Coding, GF-PRC)
为了解决可扩展性和盲提取问题,SIGMark 摒弃了传统的“存储所有消息 - 密钥对”的做法。
- 机制: 使用一组全局共享的帧级伪随机编码密钥(Global set of Frame-wise PRC keys)。每个密钥对应潜在空间中的一个时间维度(即一组因果帧)。
- 嵌入过程: 将水印消息编码为随机模板位序列(Template bits),利用 PRC 算法(基于 Christ & Gunn, 2024 提出的伪随机纠错码)将消息映射到初始潜在噪声 z0 的符号上。
- 公式:z0(m)=(TP×2−1)×∣z0∣,其中 TP 是由 PRC 生成的随机模板。
- 优势: 由于 PRC 具有随机化特性,相同的消息在不同生成请求中会映射到不同的噪声模式,既保持了生成多样性,又无需为每个视频存储特定密钥。提取时只需使用全局密钥直接解码,无需匹配原始消息,实现了盲提取,将提取复杂度从线性 O(N) 降低为常数 O(1)。
2.2 片段组序模块 (Segment Group-Ordering, SGO)
为了解决时间鲁棒性问题,特别是针对因果 3D VAE 的帧分组依赖,设计了 SGO 模块。
- 问题: 当视频受到帧丢失或剪辑干扰时,原有的因果帧分组(Causal Grouping)会被打乱,导致 VAE 编码器无法正确提取潜在特征。
- 解决方案:
- 光流分割 (Optical Flow Segmentation): 利用 Farnebäck 光流算法计算帧间运动一致性,将受扰动的视频分割成运动连续的片段(Segments)。
- 滑动窗口检测 (Sliding-Window Detection): 在每个片段内,利用全局 PRC 密钥进行滑动窗口检测。通过尝试不同的起始帧位置并反转(Inversion)潜在特征,检测哪个分组能产生最符合 PRC 特征的潜在噪声。
- 重组: 一旦确定了正确的起始帧和分组顺序,就将视频帧重新排序和分组,恢复出正确的因果结构,从而确保后续的水印提取能够成功。
2.3 整体流程
- 嵌入: 使用 GF-PRC 密钥将消息编码进初始噪声 -> 扩散模型生成视频。
- 提取: 受扰视频 -> SGO 模块(光流分割 + 滑动窗口重分组) -> 视频反转(Inversion)得到潜在噪声 -> 使用 GF-PRC 密钥盲解码消息。
3. 关键贡献 (Key Contributions)
- 问题识别: 首次明确指出了现有视频生成式水印在大规模部署中的两大瓶颈:高提取成本(非盲)和针对现代因果 3D VAE 模型的时间鲁棒性差。
- SIGMark 框架: 提出了首个支持盲提取的视频扩散模型生成式水印框架。
- 通过 GF-PRC 方案,实现了无需存储海量消息 - 密钥对的可扩展盲提取。
- 通过 SGO 模块,专门针对因果 3D VAE 设计,有效解决了帧丢失、剪辑等时间扰动带来的分组错误问题。
- 理论证明与实验验证: 证明了该方法在保持视频生成质量(无失真)的同时,具有极高的可扩展性。在 HunyuanVideo 和 Wan-2.2 等现代模型上进行了广泛实验。
4. 实验结果 (Results)
实验在 HunyuanVideo (T2V/I2V) 和 Wan-2.2 模型上进行,使用了 VBench-2.0 基准测试。
- 提取准确率 (Bit Accuracy):
- 在无扰动情况下,SIGMark 在 512 位容量下达到了 95.8% - 98.1% 的准确率,显著优于非盲的 VideoMark (约 87%),略低于需要原始信息的 VideoShield (约 100%),但考虑到盲提取的难度,表现优异。
- 在高容量 (512x16 位) 下,准确率依然保持在 88% - 90% 以上。
- 鲁棒性 (Robustness):
- 空间扰动: 在加噪、压缩、模糊等情况下,SIGMark 表现出极强的鲁棒性,性能下降极小。
- 时间扰动: 在帧丢失、插入、剪辑(30 帧)的极端情况下,SIGMark 依然保持了 81% - 87% 的准确率。相比之下,VideoMark 和 VideoShield 因无法处理分组错误,准确率大幅下降(降至 50%-80% 区间)。
- 视频质量: 通过 VBench-2.0 评分,SIGMark 生成的视频质量与未加水印的视频几乎无异(V-score 0.490 vs 0.506),证实了其无失真特性。
- 可扩展性 (Scalability):
- 提取时间: 随着生成视频数量 N 的增加,非盲方法(VideoShield)的提取时间呈线性增长,而 SIGMark 保持恒定(Constant),证明了其在大规模平台上的可行性。
5. 意义与影响 (Significance)
- 推动 AI 安全落地: SIGMark 解决了视频生成水印在大规模商业平台部署中的实际痛点(存储成本和计算成本),使得在海量 AI 生成视频中实时、低成本地追溯来源成为可能。
- 技术突破: 成功将盲提取技术应用于复杂的视频扩散模型,并解决了因果 3D VAE 特有的时间鲁棒性问题,为未来的 AIGC 内容治理提供了新的技术范式。
- 开源贡献: 代码已开源,促进了社区对可解释、可扩展 AI 水印技术的进一步研究。
总结: SIGMark 是一种兼顾无失真、高鲁棒性(特别是时间扰动)和大规模可扩展性(盲提取)的视频水印方案,为 AI 生成视频的安全监管提供了强有力的技术支撑。