SKeDA: A Generative Watermarking Framework for Text-to-video Diffusion Models

本文提出了 SKeDA 框架,通过基于洗牌密钥的分布保持采样(SKe)和差分注意力(DA)机制,解决了现有方法在文本生成视频模型中因帧对齐依赖和时序畸变导致的鲁棒性不足问题,实现了高保真且强鲁棒性的生成式水印嵌入。

Yang Yang, Xinze Zou, Zehua Ma, Han Fang, Weiming Zhang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 SKeDA 的新方法,专门用来给 AI 生成的视频“盖上一个看不见的防伪印章”。

想象一下,现在的 AI 能像变魔术一样,根据你写的一句话(比如“一只猫在太空跳舞”)生成一段逼真的视频。这很酷,但也带来了麻烦:如果有人偷了这段视频说是自己拍的怎么办?或者有人用 AI 生成假新闻视频怎么办?我们需要一种方法,既能证明视频是谁生成的,又能证明它没有被篡改。

以前的方法就像是在视频生成之后,强行往视频里塞水印(比如把水印印在画面上)。这就像是在刚烤好的蛋糕上强行插个标签,不仅容易把蛋糕弄坏(画质下降),而且如果蛋糕被切掉了一块或者被压扁了(视频被压缩或剪辑),标签可能就找不到了。

SKeDA 的聪明之处在于:它是在“做蛋糕”的过程中,就把面粉里掺入了特殊的“基因”。

以下是用大白话和比喻对这篇论文核心内容的解释:

1. 核心问题:以前的“防伪”为什么在视频上不管用?

以前的方法主要用在图片上。给图片加水印时,通常假设图片是静止的。但视频是的,而且视频经常会被:

  • 删减:剪掉几帧画面。
  • 打乱:把视频帧的顺序搞乱。
  • 压缩:为了发朋友圈,视频被压缩得很厉害,画质变差。

以前的技术就像是在一列火车的每节车厢上贴编号。如果火车被拆散了(帧丢失),或者车厢顺序被打乱了(帧重排),你就没法把编号拼回去,水印就失效了。

2. SKeDA 的两大绝招

为了解决这个问题,作者设计了两个巧妙的模块:

第一招:洗牌密钥(SKe)—— “把密码打散,不怕顺序乱”

  • 比喻:想象你要把一段秘密信息(水印)藏在一副扑克牌里。
    • 旧方法:按顺序把秘密藏在第 1 张、第 2 张、第 3 张牌里。如果别人把牌洗乱了,或者抽走了几张,你就读不出秘密了。
    • SKeDA 的方法:它先准备一个基础密码本(一个随机的二进制序列)。然后,对于视频的每一帧,它只是把这个密码本里的数字重新洗牌(打乱顺序),而不是重新发明一套密码。
    • 效果:不管视频帧的顺序怎么变,或者丢了几帧,只要把剩下的牌凑在一起,通过“统计”这些牌里有多少红桃、多少黑桃(集合层面的聚合),依然能还原出原来的秘密信息。这就好比即使你打碎了一个花瓶,只要把碎片拼起来,依然能看出它原本的花纹。

第二招:差异注意力(DA)—— “让眼睛盯着最稳的地方”

  • 比喻:想象你在嘈杂的房间里听一个人说话(提取水印)。
    • 旧方法:不管房间多吵,也不管说话的人有没有突然转头,你都平均地听每一句话。
    • SKeDA 的方法:它有一个聪明的“耳朵”(DA 模块)。它会先观察视频,发现有些画面(比如背景不动的镜头)很稳定,有些画面(比如快速晃动的镜头)很模糊。
    • 效果:它会给稳定的画面打高分(加重权重),给模糊或受干扰的画面打低分。这样,在提取水印时,系统会自动忽略那些被压缩或损坏严重的部分,只专注于那些清晰、稳定的部分来拼凑秘密。

3. 它是怎么工作的?(简单流程)

  1. 生成前(埋雷):在 AI 开始画视频之前,SKeDA 先把秘密信息(比如“这是张三生成的”)转化成一种特殊的“噪音”,混入到 AI 的初始画布里。因为是在“画布”还没成型时混入的,所以画出来的视频完全看不出水印,画质和原来一样好。
  2. 生成中(融合):AI 按照提示词(比如“猫在跳舞”)开始生成视频。因为水印已经混在“基因”里了,生成的每一帧视频都天然带有这个水印。
  3. 提取时(寻宝):如果有人想验证视频来源,SKeDA 会把视频“倒带”回初始状态,利用上面说的“洗牌”和“差异注意力”技术,把混在里面的秘密信息重新提取出来。即使视频被压缩过、剪过,依然能准确读出。

4. 结果怎么样?

  • 画质无损:就像给蛋糕加了特殊面粉,但吃起来味道和原来一模一样。
  • 非常抗揍
    • 即使视频被压缩得很厉害(比如发微信时压缩),水印还能找回。
    • 即使视频被剪掉了一半,或者帧的顺序乱了,水印依然能读出来。
    • 在测试中,它的表现比现有的其他方法都要好,特别是在视频被压缩的情况下,准确率提升了 5%-20%。

总结

SKeDA 就像是给 AI 生成的视频穿上了一件“隐形防弹衣”。

它不像以前的水印那样贴在表面(容易被撕掉或破坏),而是把水印变成了视频“基因”的一部分。无论视频怎么被剪辑、压缩或打乱,只要把剩下的部分凑在一起,就能通过特殊的“解码器”(SKeDA 算法)把原始的身份信息找回来。这为保护 AI 视频的版权和防止假新闻提供了非常强有力的工具。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →