SIGMark: Scalable In-Generation Watermark with Blind Extraction for Video Diffusion

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于**如何给 AI 生成的视频“隐形盖章”**的论文。

想象一下，现在 AI 能像变魔术一样生成逼真的视频。但这带来了一个大问题：如果有人在 AI 生成的视频里造谣、诈骗，或者有人偷走了艺术家的作品，我们怎么知道这个视频是 AI 做的？又是谁做的？

这就需要水印技术。以前的水印就像在视频上贴个显眼的贴纸，或者把视频压得模糊一点，这很破坏画质。而这篇论文提出的 SIGMark，就像给视频注入了“隐形墨水”，既不影响画质，又能被识别出来。

但现有的“隐形墨水”有两个大毛病，SIGMark 完美解决了它们。我们用几个生活中的比喻来解释：

1. 以前的痛点：像“查户口”一样累，而且怕“剪片子”

痛点一：查水印太慢（非盲提取）

以前的做法：想象一下，你给 100 万个视频都盖了章。现在要查某个视频是谁盖的，以前的方法需要把所有 100 万个章的样本都拿出来，一个个跟这个视频比对。
比喻：就像警察抓小偷，每来一个嫌疑人，警察都要把全城 100 万人的指纹都拿出来比对一遍。视频越多，比对时间越长，根本跑不起来。
SIGMark 的解法：“盲提取”。
- SIGMark 不需要存那 100 万个样本。它只存一套通用的“印章模具”（全局密钥）。
- 比喻：警察手里只有一把通用的“万能钥匙”。不管来多少嫌疑人，只要用这把钥匙一插，就能直接知道是不是这把钥匙开的锁。不管视频生成了一亿个，检查速度都一样快，永远只需要一瞬间。

痛点二：视频被“剪”了就认不出来了（时间鲁棒性差）

以前的做法：现代 AI 生成视频时，是像“打包”一样，把 4 帧画面打包成一个整体来处理的。如果视频被压缩、被剪辑、或者中间少了几帧（比如有人把视频里的第 5 秒剪掉了），AI 在解码时就会“乱套”，把第 6 帧和第 7 帧强行拼在一起，导致水印彻底失效。
比喻：就像你给一列火车每节车厢都贴了编号。如果有人把车厢拆下来，重新乱序拼接，或者剪掉几节，原来的编号系统就乱了，你根本不知道哪节车厢该接哪节。
SIGMark 的解法：“智能重组模块” (SGO)。
- SIGMark 有一个聪明的“剪辑师”助手。当视频被打乱时，它会先分析画面里的动作连贯性（比如人走路的方向、树叶飘动的轨迹）。
- 比喻：就像你在看一列被拆散的火车，SIGMark 的助手会看车轮转动的方向、看车厢连接处的缝隙，自动把车厢重新排好队，恢复成原来的顺序。一旦顺序对了，水印就能被准确读取。

2. 核心黑科技：怎么做到“隐形”且“盲查”？

SIGMark 用了一种叫 GF-PRC 的技术。

以前的做法：为了把信息藏进去，通常需要一个固定的密码本。但为了盲查，密码本必须全球通用，这会导致所有视频看起来都差不多，失去了多样性（就像所有视频都盖了同一个章，一眼就能看出是机器生成的）。
SIGMark 的做法：它使用了一种**“伪随机编码”**。
- 比喻：想象你要给视频盖一个“隐形章”。以前的方法是：不管盖什么章，墨水的分布都是固定的。SIGMark 的方法是：虽然章的内容（水印信息）是一样的，但墨水的喷溅形状是随机生成的。
- 这就好比：虽然你盖的是同一个“机密”印章，但每次盖下去，墨迹的晕染形状都不同，看起来就像自然形成的噪点。
- 结果：视频看起来完全自然，画质无损。而且，因为墨水形状是随机但可预测的，只要手里有那把“万能钥匙”（全局密钥），就能把墨迹还原成信息，不需要去查之前的记录。

3. 总结：SIGMark 到底牛在哪里？

画质无损：就像给视频注入了隐形墨水，肉眼完全看不出区别，视频依然清晰流畅。
速度极快（可扩展）：不管平台上有 1 个视频还是 1 亿个视频，提取水印的时间都是一样的。因为它不需要去“翻旧账”（比对数据库），只需要一把“万能钥匙”就能瞬间识别。
抗干扰强：哪怕视频被剪辑、被压缩、帧数被打乱，它也能像“智能拼图”一样把视频理顺，把水印找出来。

一句话总结：
SIGMark 就像是给 AI 视频装了一个**“隐形且智能的身份证”**。它不需要庞大的数据库来比对，也不怕视频被剪辑破坏，能瞬间、准确地告诉我们要：这个视频是 AI 生成的，而且是谁生成的。这对于保护版权和防止 AI 造谣非常重要。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

随着人工智能生成内容（AIGC），特别是基于扩散模型（Diffusion Models）的视频生成技术的飞速发展，如何保护 AI 生成视频的版权并追溯有害内容的来源变得至关重要。隐形水印是解决这一问题的关键技术。

现有的视频水印技术主要分为两类，但都存在显著缺陷：

后处理水印 (Post-processing Watermarks)： 在视频生成后嵌入水印。这种方法不可避免地会引入冗余信息，导致视频质量下降（失真）。
生成式水印 (In-Generation Watermarks)： 在扩散模型的生成过程中（即在初始噪声采样阶段）嵌入水印。虽然理论上可以做到无失真（Distortion-free），但现有方法面临两个核心挑战：
1. 高提取成本（非盲提取）： 现有方法通常是非盲的（Non-blind），提取时需要维护所有“消息 - 密钥”对，并在提取时进行模板匹配。随着生成请求规模的扩大，存储和计算成本呈线性增长，难以扩展到大规模平台。
2. 时间鲁棒性差： 现代视频扩散模型（如 HunyuanVideo, Wan）通常使用因果 3D VAE（Causal 3D VAE），将一组相邻帧压缩为一个潜在特征维度。如果视频在传输或处理过程中发生时间扰动（如帧丢失、剪辑、插入），会导致帧分组错误，进而使得潜在特征无法正确重建，导致水印提取失败。

核心目标： 提出一种可扩展的、盲提取的、且对时间扰动具有强鲁棒性的视频扩散模型生成式水印方案。

2. 方法论 (Methodology)

作者提出了 SIGMark 框架，包含两个核心创新模块：

2.1 全局帧级伪随机编码 (Global Frame-wise PseudoRandom Coding, GF-PRC)

为了解决可扩展性和盲提取问题，SIGMark 摒弃了传统的“存储所有消息 - 密钥对”的做法。

机制： 使用一组全局共享的帧级伪随机编码密钥（Global set of Frame-wise PRC keys）。每个密钥对应潜在空间中的一个时间维度（即一组因果帧）。
嵌入过程： 将水印消息编码为随机模板位序列（Template bits），利用 PRC 算法（基于 Christ & Gunn, 2024 提出的伪随机纠错码）将消息映射到初始潜在噪声 $z_0$ $z_{0}$ 的符号上。
- 公式： $z_0(m) = (TP \times 2 - 1) \times |z_0|$ ，其中 $TP$ 是由 PRC 生成的随机模板。
- 优势： 由于 PRC 具有随机化特性，相同的消息在不同生成请求中会映射到不同的噪声模式，既保持了生成多样性，又无需为每个视频存储特定密钥。提取时只需使用全局密钥直接解码，无需匹配原始消息，实现了盲提取，将提取复杂度从线性 $O(N)$ 降低为常数 $O(1)$ 。

2.2 片段组序模块 (Segment Group-Ordering, SGO)

为了解决时间鲁棒性问题，特别是针对因果 3D VAE 的帧分组依赖，设计了 SGO 模块。

问题： 当视频受到帧丢失或剪辑干扰时，原有的因果帧分组（Causal Grouping）会被打乱，导致 VAE 编码器无法正确提取潜在特征。
解决方案：
1. 光流分割 (Optical Flow Segmentation)： 利用 Farnebäck 光流算法计算帧间运动一致性，将受扰动的视频分割成运动连续的片段（Segments）。
2. 滑动窗口检测 (Sliding-Window Detection)： 在每个片段内，利用全局 PRC 密钥进行滑动窗口检测。通过尝试不同的起始帧位置并反转（Inversion）潜在特征，检测哪个分组能产生最符合 PRC 特征的潜在噪声。
3. 重组： 一旦确定了正确的起始帧和分组顺序，就将视频帧重新排序和分组，恢复出正确的因果结构，从而确保后续的水印提取能够成功。

2.3 整体流程

嵌入： 使用 GF-PRC 密钥将消息编码进初始噪声 -> 扩散模型生成视频。
提取： 受扰视频 -> SGO 模块（光流分割 + 滑动窗口重分组） -> 视频反转（Inversion）得到潜在噪声 -> 使用 GF-PRC 密钥盲解码消息。

3. 关键贡献 (Key Contributions)

问题识别： 首次明确指出了现有视频生成式水印在大规模部署中的两大瓶颈：高提取成本（非盲）和针对现代因果 3D VAE 模型的时间鲁棒性差。
SIGMark 框架： 提出了首个支持盲提取的视频扩散模型生成式水印框架。
- 通过 GF-PRC 方案，实现了无需存储海量消息 - 密钥对的可扩展盲提取。
- 通过 SGO 模块，专门针对因果 3D VAE 设计，有效解决了帧丢失、剪辑等时间扰动带来的分组错误问题。
理论证明与实验验证： 证明了该方法在保持视频生成质量（无失真）的同时，具有极高的可扩展性。在 HunyuanVideo 和 Wan-2.2 等现代模型上进行了广泛实验。

4. 实验结果 (Results)

实验在 HunyuanVideo (T2V/I2V) 和 Wan-2.2 模型上进行，使用了 VBench-2.0 基准测试。

提取准确率 (Bit Accuracy)：
- 在无扰动情况下，SIGMark 在 512 位容量下达到了 95.8% - 98.1% 的准确率，显著优于非盲的 VideoMark (约 87%)，略低于需要原始信息的 VideoShield (约 100%)，但考虑到盲提取的难度，表现优异。
- 在高容量 (512x16 位) 下，准确率依然保持在 88% - 90% 以上。
鲁棒性 (Robustness)：
- 空间扰动： 在加噪、压缩、模糊等情况下，SIGMark 表现出极强的鲁棒性，性能下降极小。
- 时间扰动： 在帧丢失、插入、剪辑（30 帧）的极端情况下，SIGMark 依然保持了 81% - 87% 的准确率。相比之下，VideoMark 和 VideoShield 因无法处理分组错误，准确率大幅下降（降至 50%-80% 区间）。
视频质量： 通过 VBench-2.0 评分，SIGMark 生成的视频质量与未加水印的视频几乎无异（V-score 0.490 vs 0.506），证实了其无失真特性。
可扩展性 (Scalability)：
- 提取时间： 随着生成视频数量 $N$ 的增加，非盲方法（VideoShield）的提取时间呈线性增长，而 SIGMark 保持恒定（Constant），证明了其在大规模平台上的可行性。

5. 意义与影响 (Significance)

推动 AI 安全落地： SIGMark 解决了视频生成水印在大规模商业平台部署中的实际痛点（存储成本和计算成本），使得在海量 AI 生成视频中实时、低成本地追溯来源成为可能。
技术突破： 成功将盲提取技术应用于复杂的视频扩散模型，并解决了因果 3D VAE 特有的时间鲁棒性问题，为未来的 AIGC 内容治理提供了新的技术范式。
开源贡献： 代码已开源，促进了社区对可解释、可扩展 AI 水印技术的进一步研究。

总结： SIGMark 是一种兼顾无失真、高鲁棒性（特别是时间扰动）和大规模可扩展性（盲提取）的视频水印方案，为 AI 生成视频的安全监管提供了强有力的技术支撑。

SIGMark: Scalable In-Generation Watermark with Blind Extraction for Video Diffusion

1. 以前的痛点：像“查户口”一样累，而且怕“剪片子”

2. 核心黑科技：怎么做到“隐形”且“盲查”？

3. 总结：SIGMark 到底牛在哪里？

1. 研究背景与问题定义 (Problem)

2. 方法论 (Methodology)

2.1 全局帧级伪随机编码 (Global Frame-wise PseudoRandom Coding, GF-PRC)

2.2 片段组序模块 (Segment Group-Ordering, SGO)

2.3 整体流程

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics