SKeDA: A Generative Watermarking Framework for Text-to-video Diffusion Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 SKeDA 的新方法，专门用来给 AI 生成的视频“盖上一个看不见的防伪印章”。

想象一下，现在的 AI 能像变魔术一样，根据你写的一句话（比如“一只猫在太空跳舞”）生成一段逼真的视频。这很酷，但也带来了麻烦：如果有人偷了这段视频说是自己拍的怎么办？或者有人用 AI 生成假新闻视频怎么办？我们需要一种方法，既能证明视频是谁生成的，又能证明它没有被篡改。

以前的方法就像是在视频生成之后，强行往视频里塞水印（比如把水印印在画面上）。这就像是在刚烤好的蛋糕上强行插个标签，不仅容易把蛋糕弄坏（画质下降），而且如果蛋糕被切掉了一块或者被压扁了（视频被压缩或剪辑），标签可能就找不到了。

SKeDA 的聪明之处在于：它是在“做蛋糕”的过程中，就把面粉里掺入了特殊的“基因”。

以下是用大白话和比喻对这篇论文核心内容的解释：

1. 核心问题：以前的“防伪”为什么在视频上不管用？

以前的方法主要用在图片上。给图片加水印时，通常假设图片是静止的。但视频是动的，而且视频经常会被：

删减：剪掉几帧画面。
打乱：把视频帧的顺序搞乱。
压缩：为了发朋友圈，视频被压缩得很厉害，画质变差。

以前的技术就像是在一列火车的每节车厢上贴编号。如果火车被拆散了（帧丢失），或者车厢顺序被打乱了（帧重排），你就没法把编号拼回去，水印就失效了。

2. SKeDA 的两大绝招

为了解决这个问题，作者设计了两个巧妙的模块：

第一招：洗牌密钥（SKe）—— “把密码打散，不怕顺序乱”

比喻：想象你要把一段秘密信息（水印）藏在一副扑克牌里。
- 旧方法：按顺序把秘密藏在第 1 张、第 2 张、第 3 张牌里。如果别人把牌洗乱了，或者抽走了几张，你就读不出秘密了。
- SKeDA 的方法：它先准备一个基础密码本（一个随机的二进制序列）。然后，对于视频的每一帧，它只是把这个密码本里的数字重新洗牌（打乱顺序），而不是重新发明一套密码。
- 效果：不管视频帧的顺序怎么变，或者丢了几帧，只要把剩下的牌凑在一起，通过“统计”这些牌里有多少红桃、多少黑桃（集合层面的聚合），依然能还原出原来的秘密信息。这就好比即使你打碎了一个花瓶，只要把碎片拼起来，依然能看出它原本的花纹。

第二招：差异注意力（DA）—— “让眼睛盯着最稳的地方”

比喻：想象你在嘈杂的房间里听一个人说话（提取水印）。
- 旧方法：不管房间多吵，也不管说话的人有没有突然转头，你都平均地听每一句话。
- SKeDA 的方法：它有一个聪明的“耳朵”（DA 模块）。它会先观察视频，发现有些画面（比如背景不动的镜头）很稳定，有些画面（比如快速晃动的镜头）很模糊。
- 效果：它会给稳定的画面打高分（加重权重），给模糊或受干扰的画面打低分。这样，在提取水印时，系统会自动忽略那些被压缩或损坏严重的部分，只专注于那些清晰、稳定的部分来拼凑秘密。

3. 它是怎么工作的？（简单流程）

生成前（埋雷）：在 AI 开始画视频之前，SKeDA 先把秘密信息（比如“这是张三生成的”）转化成一种特殊的“噪音”，混入到 AI 的初始画布里。因为是在“画布”还没成型时混入的，所以画出来的视频完全看不出水印，画质和原来一样好。
生成中（融合）：AI 按照提示词（比如“猫在跳舞”）开始生成视频。因为水印已经混在“基因”里了，生成的每一帧视频都天然带有这个水印。
提取时（寻宝）：如果有人想验证视频来源，SKeDA 会把视频“倒带”回初始状态，利用上面说的“洗牌”和“差异注意力”技术，把混在里面的秘密信息重新提取出来。即使视频被压缩过、剪过，依然能准确读出。

4. 结果怎么样？

画质无损：就像给蛋糕加了特殊面粉，但吃起来味道和原来一模一样。
非常抗揍：
- 即使视频被压缩得很厉害（比如发微信时压缩），水印还能找回。
- 即使视频被剪掉了一半，或者帧的顺序乱了，水印依然能读出来。
- 在测试中，它的表现比现有的其他方法都要好，特别是在视频被压缩的情况下，准确率提升了 5%-20%。

总结

SKeDA 就像是给 AI 生成的视频穿上了一件“隐形防弹衣”。

它不像以前的水印那样贴在表面（容易被撕掉或破坏），而是把水印变成了视频“基因”的一部分。无论视频怎么被剪辑、压缩或打乱，只要把剩下的部分凑在一起，就能通过特殊的“解码器”（SKeDA 算法）把原始的身份信息找回来。这为保护 AI 视频的版权和防止假新闻提供了非常强有力的工具。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

随着文本到视频（Text-to-Video, T2V）生成模型（如 CogVideo, Make-A-Video 等）的快速发展，AI 生成内容的版权保护、来源追溯以及防止恶意滥用变得至关重要。现有的数字水印技术面临以下主要挑战：

传统后处理水印的局限性：传统方法通常在视频生成后对像素域或压缩域进行修改（Post-hoc embedding）。这会导致视觉伪影，降低视频质量，且在强压缩、帧删除或重编码等攻击下鲁棒性较差。
图像水印直接扩展至视频的缺陷：现有的生成式图像水印方法（如 Gaussian Shading）虽然能实现无损嵌入，但直接应用于视频时存在两个关键瓶颈：
1. 帧对齐依赖性强：现有设计依赖视频帧与帧相关的伪随机二进制序列的严格对齐。一旦视频经过帧删除、重排序或重新编码，这种对齐被破坏，导致水印提取失败。
2. 视频特有失真：视频特有的帧间压缩、时间抖动等失真会破坏基于逆变换（Inversion）提取所需的时序对齐，导致水印信号在帧间不同步。

核心目标：设计一种专为 T2V 扩散模型设计的生成式水印框架，在保持高视频生成质量（Fidelity）的同时，实现对帧重排、压缩、帧丢失等攻击的强鲁棒性（Robustness）。

2. 方法论 (Methodology)

作者提出了 SKeDA 框架，包含两个核心组件：基于洗牌密钥的分布保持采样 (SKe) 和 差分注意力机制 (DA)。整个流程嵌入在扩散模型的潜在空间（Latent Space）中，无需重新训练生成模型。

A. 水印嵌入阶段 (Watermark Embedding)

消息编码与均衡：
- 将水印信息（二进制串）通过异或（XOR）操作与随机生成的“均衡密钥”结合，确保信息分布均匀，避免对嵌入过程产生偏差。
SKe 模块 (Shuffle-Key-based Distribution-preserving Sampling)：
- 核心思想：使用单个基础伪随机二进制序列进行水印加密，帧级别的加密序列仅通过对该基础序列进行**排列（Permutation/洗牌）**生成。
- 优势：
  - 分布保持：这种排列方式确保了加密后的噪声分布仍然符合扩散模型所需的 Gaussian 分布，从而实现无损的视觉质量。
  - 去同步化鲁棒性：将水印提取从“对序列的严格同步解码”转化为“对集合的排列容错聚合”。即使视频帧发生重排序、丢失或插入，提取端仍可通过集合级别的聚合恢复水印，不再依赖严格的帧顺序。
视频生成：
- 利用 Stable Diffusion 解码器和 AnimateDiff 的运动模块，将带有水印的潜在噪声 $Z_T$ 去噪并转化为连贯的视频帧。

B. 水印提取阶段 (Watermark Extraction)

DDIM 逆变换 (DDIM Inversion)：
- 利用 DDIM 的确定性逆变换特性，将受攻击的视频 $V'$ 编码回潜在空间，并逐步加噪还原至初始噪声状态 $Z'_T$ ，恢复嵌入水印时的潜在条件。
DA 模块 (Differential Attention)：
- 核心思想：针对视频中的时序失真（如压缩、帧丢失），计算帧间差异（Inter-frame differences）。
- 动态加权：
  - 计算首帧与其他帧的余弦相似度。
  - 对于运动变化小、相似度高的帧（通常更稳定），赋予更高的提取权重。
  - 对于变化剧烈或受干扰严重的帧，降低权重。
- 聚合：根据动态权重对每帧提取的加密消息进行加权聚合，最后通过阈值判断和密钥解密还原出原始水印。

3. 主要贡献 (Key Contributions)

SKe 模块：提出了一种基于洗牌密钥的分布保持采样方法。它通过单基序列的排列生成帧级掩码，解耦了水印提取与严格帧对齐的依赖，将同步敏感的序列解码转变为对排列不敏感的集合级聚合，显著提升了在帧重排和帧丢失场景下的鲁棒性，同时保持了生成模型的原始保真度。
DA 模块：提出了一种基于帧间差异的注意力提取机制。通过自适应地根据帧间相似度和稳定性分配提取权重，增强了水印在压缩、帧丢失和噪声干扰下的检索稳定性，且无需对 T2V 模型进行微调。
综合性能：实验证明，该方法在保持高视频生成质量的同时，在 H.264/H.265 压缩、帧操作（删除/交换/平均）和噪声攻击下，提取准确率显著优于现有基线方法。

4. 实验结果 (Results)

实验在 WebVid-10M 数据集上进行，对比了 HiDDeN, REVMark, Video Seal, WAM, DVMark 等主流方法。

视频质量 (Fidelity)：
- FVD (Fréchet Video Distance): 361.3（越低越好），优于所有基线（如 DVMark 382.8）。
- CLIP Score: 0.3345（越高越好），表明视频内容与提示词的一致性更好。
- VBench 综合评分: 0.7898，在所有感知质量维度上均超越基线。
- 结论：水印嵌入对视频视觉质量几乎无影响。
鲁棒性 (Robustness)：
- 平均比特准确率：在多种攻击下，SKeDA 的平均准确率比表现最好的基线高出 1.15%。
- 压缩抵抗：
  - 在 H.264 (CRF=30) 下，准确率达到 96.87%，比次优方法（DVMark 79.96%）高出约 17 个百分点。
  - 在 H.265 (CRF=30) 下，准确率达到 95%。
  - 即使在极端压缩（CRF=40，视频大小仅为原图的 1-2%）下，准确率仍保持在 80% 左右。
- 帧操作：在帧删除（Frame Drop）、帧交换（Frame Swap）和帧平均（Frame Average）攻击下，均保持了极高的准确率（>98%）。
消融实验：
- 验证了 DPMSolver 采样器优于其他采样器。
- 证明了 DA 模块将平均准确率从 0.9039 提升至 0.9564。
- 确定了 256 位水印容量（ $f_c=1, f_h=f_w=8$ ）在信息量和视觉质量间的最佳平衡。

5. 意义与价值 (Significance)

解决行业痛点：SKeDA 有效解决了生成式视频水印在时序操作（如剪辑、重排）和强压缩下易失效的难题，填补了从图像水印向视频水印扩展时的技术空白。
无需重训练：该方法作为插件式框架，无需重新训练庞大的 T2V 扩散模型，降低了部署成本。
版权与溯源：为 AI 生成视频提供了强有力的版权保护和技术溯源手段，能够识别视频是由哪个模型生成（模型溯源）以及由哪个用户生成（用户溯源），符合欧盟 AI 法案等监管要求。
高隐蔽性与高鲁棒性平衡：实现了在保持“完美”生成质量的同时，抵御包括高压缩比、帧丢失在内的多种现实攻击，为未来 AI 生成内容的可信生态建设提供了关键技术支撑。