Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 ShapeMark 的新技术，它是专门为扩散模型（比如目前流行的 AI 绘画工具）设计的一种“隐形水印”方案。

为了让你轻松理解，我们可以把 AI 生成图片的过程想象成在一张白纸上作画，而水印就是画家在作画前偷偷埋下的“签名”。

1. 核心问题：以前的“签名”太脆弱了

以前的 AI 水印技术（论文里叫 NaW 方法）就像是在画布的每一个像素点上，根据水印信息强行改变颜色（比如把某个像素点稍微调亮一点代表"1"，调暗一点代表"0"）。

比喻：这就像你在沙滩上用手指画了一个复杂的图案来标记你的领地。
缺点：
1. 太脆弱：只要海浪（图片压缩、裁剪、加噪点）稍微冲刷一下，或者有人不小心踩了一脚（图片被编辑过），你画在沙子里的深浅痕迹就模糊了，根本认不出来。
2. 太死板：为了把字刻清楚，你不得不每次都把沙子堆成一模一样的形状。结果就是，虽然字认出来了，但画出来的画看起来都千篇一律，失去了 AI 原本那种“千变万化”的创造力。

2. ShapeMark 的解决方案：不画“点”，改画“形状”

ShapeMark 的聪明之处在于，它不再关注单个像素点的颜色深浅，而是关注一群像素点排列出来的“形状”和“顺序”。

核心技巧一：结构编码 (SE) —— “打乱扑克牌”

做法：AI 在生成图片前，会先产生一堆随机的“噪音”（可以想象成一副洗乱的扑克牌）。ShapeMark 把这副牌按照大小（数值大小）分成几堆（比如 4 堆），然后给每一堆里的牌编号。
埋水印：它不改变牌面（数值），而是改变牌的顺序。比如，如果水印是"1"，它就按顺序 A-B-C-D 排列；如果水印是"0"，它就按 D-C-B-A 排列。
比喻：想象你在一个巨大的乐高积木堆里，不改变每一块积木的颜色，而是改变积木的堆叠顺序。
为什么强韧：即使海浪（图片处理）把几块积木冲歪了，或者把颜色弄脏了，只要整体的堆叠顺序没乱，我们依然能认出这是“你的”积木堆。这就是为什么它抗干扰能力极强。

核心技巧二：载荷去偏随机化 (PDSR) —— “给积木换个摆放位置”

问题：如果每次画"1"的时候，积木都堆在左上角，画"0"的时候都堆在右下角，那别人一眼就能看出规律，而且每次生成的画看起来都差不多（缺乏多样性）。
做法：ShapeMark 在确定好积木顺序后，再随机地把整堆积木打散并重新随机摆放到画布的各个角落。
比喻：就像你虽然规定了“红蓝红蓝”的排列顺序，但你可以把这串珠子随机撒在桌子的任何位置。
好处：
1. 保多样性：每次生成的画，积木的位置都不同，看起来千变万化，保留了 AI 的创造力。
2. 防暴露：别人看不出“水印”和“位置”的固定联系，更难发现水印的存在。
3. 可还原：只有拥有“钥匙”（密钥）的人，才能知道怎么把积木重新拼回去，从而读出里面的顺序（水印）。

3. 怎么验证？

当有人拿着一张图来问：“这是不是 AI 生成的？是不是我生成的？”

逆向工程：验证者利用算法，尝试把这张图“还原”回最初的噪音状态（就像把画好的画退回到画布上的铅笔草稿）。
找顺序：虽然还原过程会有误差，但 ShapeMark 的“积木顺序”依然清晰可辨。
对暗号：验证者拿出自己的“钥匙”，看看还原出来的积木顺序是否符合预设的排列规则。如果符合，就证明这张图确实带有水印，且来源可信。

4. 总结：它厉害在哪里？

像橡皮筋一样结实：无论图片被压缩、裁剪、加噪点还是模糊处理，水印都能被准确识别（论文数据显示，在极端干扰下，识别率依然高达 99% 以上）。
像变色龙一样自然：它不会让 AI 生成的图片变得僵硬或重复，图片依然丰富多彩，看不出任何人工痕迹。
像隐形墨水：它不需要修改 AI 模型本身，也不需要给图片后期加层滤镜，而是直接融入在生成的“基因”（噪音）里。

一句话总结：
ShapeMark 就像是在 AI 绘画的“基因”里，用积木的排列顺序代替了积木的颜色来签名。即使积木被弄脏或打散，只要顺序还在，就能认出这是谁的作品，而且完全不影响画出来的画有多美、多多样。

Each language version is independently generated for its own context, not a direct translation.

ShapeMark 论文技术总结

1. 研究背景与问题定义

随着扩散模型（Diffusion Models）在图像生成领域的飞速发展，生成内容的版权保护、来源追溯以及防止未授权复用变得日益紧迫。现有的水印技术面临以下核心挑战：

鲁棒性与多样性的矛盾：现有的“噪声即水印”（Noise-as-Watermark, NaW）方法通常难以同时兼顾水印的鲁棒性和生成图像的多样性。
值编码（Value Encoding）的脆弱性：传统 NaW 方法倾向于将水印比特直接编码到单个噪声采样值中（例如通过约束符号或幅度）。这种设计在实际应用中极其脆弱，因为任何后处理（如压缩、裁剪）或扩散逆过程（Inversion）的不完美都会导致单个数值发生微小扰动，从而翻转水印状态，导致解码失败。
多样性退化：为了增强鲁棒性，部分方法在采样过程中重复嵌入水印信息，这会导致生成的图像出现固定的噪声模式或空间伪影，显著降低了生成内容的多样性。

2. 核心方法论：ShapeMark

ShapeMark 提出了一种基于结构化噪声模式而非单个数值的水印方案，旨在同时实现高鲁棒性和高多样性。其核心流程包含两个主要阶段：

2.1 结构化编码 (Structural Encoding, SE)

SE 将水印信息从“单个数值”编码升级为“结构关系”编码。

分位数引导的模板构建：
1. 对初始噪声潜变量（Latent）的所有坐标按绝对值大小进行排序。
2. 将排序后的索引划分为 $Q$ 个等大小的分位数区间（Quantile Bins）。
3. 在每个区间内，利用密钥生成伪随机但可复现的索引顺序，将索引打包成“块”（Blocks）。
4. 将来自不同分位数区间的块对齐，形成“组”（Groups）。
基于排列的嵌入：
- 不改变噪声值，而是通过**组内块的排列（Permutation）**来承载水印比特。
- 利用预定义的排列码本（Codebook），将水印比特映射为特定的块排列顺序。
- 鲁棒性来源：水印信息存储在块之间的相对结构关系中。即使单个数值因扰动发生变化，只要块的整体排序关系未被破坏，水印仍可被恢复。此外，块聚合了多个噪声元素，具有隐式的平均效应，进一步抵抗了有损失真。

2.2 载荷去偏结构随机化 (Payload-Debiasing Structural Randomization, PDSR)

为了解决 SE 可能导致的固定空间模式问题，引入 PDSR 机制。

动机：如果相同的载荷（Payload）在固定密钥下重复使用，SE 生成的块排列可能会在空间上形成固定的统计规律，导致生成图像多样性下降且水印伪影可被感知。
机制：
- 在 SE 编码后，应用一个与载荷无关的全局块置换操作。
- 该置换由一个公开的随机数（Nonce）和密钥共同决定，确保即使是相同的载荷和密钥，每次生成的噪声潜变量在空间布局上也是随机的。
- 可逆性：PDSR 是纯置换操作，验证方利用相同的 Nonce 和密钥可以精确还原 SE 编码后的状态。
作用：解耦了载荷身份与固定的空间模式，消除了载荷诱导的空间偏差，从而在保持水印可检测性的同时，最大化生成图像的多样性和不可感知性。

2.3 水印检测与解码

逆扩散：对查询图像进行扩散逆过程（如 DDIM Inversion），恢复初始噪声潜变量。
还原 PDSR：利用 Nonce 和密钥还原 PDSR 置换，得到 SE 编码后的潜变量。
码本匹配：将恢复的潜变量中的块与参考码本进行匹配，通过计算最小化距离来识别最可能的排列码字，进而解码出原始载荷。

3. 主要贡献

结构化编码 (SE)：提出了一种从“值编码”到“结构编码”的范式转变。通过利用噪声的统计特性（分位数）和块排列来承载信息，显著提升了水印在对抗有损后处理和逆过程误差时的鲁棒性。
载荷去偏结构随机化 (PDSR)：设计了一种轻量级的随机化策略，在保持数值不变的前提下打乱噪声元素的空间位置。这有效解决了现有方法中因固定模式导致的生成多样性下降问题。
SOTA 性能：在广泛的实验设置下，ShapeMark 实现了最先进的鲁棒性（在多种有损攻击下真阳性率 TPR > 99%），同时保持了极高的生成多样性和视觉质量。

4. 实验结果

实验在 Stable Diffusion v2.1 上进行，对比了包括后处理水印、模型微调水印及其他 NaW 方法在内的多种基线。

鲁棒性 (Robustness)：
- 在固定误报率 (FPR) 为 $10^{-6}$ 的情况下，ShapeMark 的真阳性率 (TPR) 达到 0.999。
- 在经历 JPEG 压缩、随机裁剪、高斯噪声、模糊等 9 种有损攻击后，比特恢复准确率 (Bit Acc.) 仍保持在 0.9870，显著优于其他方法。
- 即使在强高斯噪声 ( $\sigma=0.1$ ) 下，恢复准确率仍超过 99%。
多样性 (Diversity)：
- 使用 LPIPS 指标衡量，ShapeMark 的多样性得分为 0.7338，是所有方法中最高的（优于未加水印的基线 0.7091），证明其未引入明显的生成偏差。
视觉质量 (Visual Quality)：
- 在 CLIP Score 和 FID 指标上，ShapeMark 与原始模型及其他先进方法持平，表明水印嵌入对图像视觉质量无负面影响。
消融实验：
- 移除 SE 的分位数引导构建会导致鲁棒性大幅下降。
- 移除 PDSR 会导致多样性显著下降，但对鲁棒性影响较小，验证了两者互补的作用。

5. 意义与影响

实际应用价值：ShapeMark 为生成式 AI 内容提供了可靠的版权保护和来源追溯方案，特别适用于多租户生成服务平台的身份绑定和审核流程。
技术突破：成功打破了“鲁棒性”与“多样性”之间的权衡困境，证明了通过结构化编码和去偏随机化，可以在不修改模型权重、不牺牲生成质量的前提下实现强鲁棒水印。
社会责任：有助于识别合成内容、归因模型输出，并缓解虚假信息、欺诈和未授权分发的风险。同时，论文也讨论了水印技术可能被滥用的风险（如隐蔽追踪），并呼吁在部署时强调透明度、用户同意和治理机制。

综上所述，ShapeMark 通过创新的噪声结构编码和随机化设计，为扩散模型的水印技术树立了一个新的标杆，兼具高鲁棒性、高多样性和高视觉保真度。

ShapeMark: Robust and Diversity-Preserving Watermarking for Diffusion Models