SIGMark: Scalable In-Generation Watermark with Blind Extraction for Video Diffusion

SIGMark 提出了一种面向视频扩散模型的可扩展生成式盲提取水印框架,通过全局帧伪随机编码(GF-PRC)实现无需密钥存储的低成本盲提取,并借助针对因果 3D VAE 设计的片段组排序(SGO)模块显著增强了抗时序干扰的鲁棒性。

Xinjie Zhu, Zijing Zhao, Hui Jin, Qingxiao Guo, Yilong Ma, Yunhao Wang, Xiaobing Guo, Weifeng Zhang

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于**如何给 AI 生成的视频“隐形盖章”**的论文。

想象一下,现在 AI 能像变魔术一样生成逼真的视频。但这带来了一个大问题:如果有人在 AI 生成的视频里造谣、诈骗,或者有人偷走了艺术家的作品,我们怎么知道这个视频是 AI 做的?又是谁做的?

这就需要水印技术。以前的水印就像在视频上贴个显眼的贴纸,或者把视频压得模糊一点,这很破坏画质。而这篇论文提出的 SIGMark,就像给视频注入了“隐形墨水”,既不影响画质,又能被识别出来。

但现有的“隐形墨水”有两个大毛病,SIGMark 完美解决了它们。我们用几个生活中的比喻来解释:

1. 以前的痛点:像“查户口”一样累,而且怕“剪片子”

痛点一:查水印太慢(非盲提取)

  • 以前的做法:想象一下,你给 100 万个视频都盖了章。现在要查某个视频是谁盖的,以前的方法需要把所有 100 万个章的样本都拿出来,一个个跟这个视频比对。
  • 比喻:就像警察抓小偷,每来一个嫌疑人,警察都要把全城 100 万人的指纹都拿出来比对一遍。视频越多,比对时间越长,根本跑不起来。
  • SIGMark 的解法“盲提取”
    • SIGMark 不需要存那 100 万个样本。它只存一套通用的“印章模具”(全局密钥)。
    • 比喻:警察手里只有一把通用的“万能钥匙”。不管来多少嫌疑人,只要用这把钥匙一插,就能直接知道是不是这把钥匙开的锁。不管视频生成了一亿个,检查速度都一样快,永远只需要一瞬间。

痛点二:视频被“剪”了就认不出来了(时间鲁棒性差)

  • 以前的做法:现代 AI 生成视频时,是像“打包”一样,把 4 帧画面打包成一个整体来处理的。如果视频被压缩、被剪辑、或者中间少了几帧(比如有人把视频里的第 5 秒剪掉了),AI 在解码时就会“乱套”,把第 6 帧和第 7 帧强行拼在一起,导致水印彻底失效。
  • 比喻:就像你给一列火车每节车厢都贴了编号。如果有人把车厢拆下来,重新乱序拼接,或者剪掉几节,原来的编号系统就乱了,你根本不知道哪节车厢该接哪节。
  • SIGMark 的解法“智能重组模块” (SGO)
    • SIGMark 有一个聪明的“剪辑师”助手。当视频被打乱时,它会先分析画面里的动作连贯性(比如人走路的方向、树叶飘动的轨迹)。
    • 比喻:就像你在看一列被拆散的火车,SIGMark 的助手会看车轮转动的方向、看车厢连接处的缝隙,自动把车厢重新排好队,恢复成原来的顺序。一旦顺序对了,水印就能被准确读取。

2. 核心黑科技:怎么做到“隐形”且“盲查”?

SIGMark 用了一种叫 GF-PRC 的技术。

  • 以前的做法:为了把信息藏进去,通常需要一个固定的密码本。但为了盲查,密码本必须全球通用,这会导致所有视频看起来都差不多,失去了多样性(就像所有视频都盖了同一个章,一眼就能看出是机器生成的)。
  • SIGMark 的做法:它使用了一种**“伪随机编码”**。
    • 比喻:想象你要给视频盖一个“隐形章”。以前的方法是:不管盖什么章,墨水的分布都是固定的。SIGMark 的方法是:虽然章的内容(水印信息)是一样的,但墨水的喷溅形状是随机生成的
    • 这就好比:虽然你盖的是同一个“机密”印章,但每次盖下去,墨迹的晕染形状都不同,看起来就像自然形成的噪点。
    • 结果:视频看起来完全自然,画质无损。而且,因为墨水形状是随机但可预测的,只要手里有那把“万能钥匙”(全局密钥),就能把墨迹还原成信息,不需要去查之前的记录。

3. 总结:SIGMark 到底牛在哪里?

  1. 画质无损:就像给视频注入了隐形墨水,肉眼完全看不出区别,视频依然清晰流畅。
  2. 速度极快(可扩展):不管平台上有 1 个视频还是 1 亿个视频,提取水印的时间都是一样的。因为它不需要去“翻旧账”(比对数据库),只需要一把“万能钥匙”就能瞬间识别。
  3. 抗干扰强:哪怕视频被剪辑、被压缩、帧数被打乱,它也能像“智能拼图”一样把视频理顺,把水印找出来。

一句话总结:
SIGMark 就像是给 AI 视频装了一个**“隐形且智能的身份证”**。它不需要庞大的数据库来比对,也不怕视频被剪辑破坏,能瞬间、准确地告诉我们要:这个视频是 AI 生成的,而且是谁生成的。这对于保护版权和防止 AI 造谣非常重要。