原作者： Jianwei Fei, Yunshu Dai, Zhihua Xia, Xiaochun Cao, Jiantao Zhou, Alessandro Piva, Benedetta Tondi

发布于 2026-06-12

📖 1 分钟阅读☕ 轻松阅读

原作者： Jianwei Fei, Yunshu Dai, Zhihua Xia, Xiaochun Cao, Jiantao Zhou, Alessandro Piva, Benedetta Tondi

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下你是一位经营着一家知名且美味蛋糕店的烘焙坊主。为了保护你的生意，你想向成千上万不同的客户出售你的蛋糕配方副本。然而，你需要一种方法来证明某一个特定的蛋糕确实出自你的烘焙坊，而不是模仿者的作品；同时，你还需要阻止客户偷偷交换他们的配方页，从而制造出一个不属于任何人的“超级配方”。

这篇论文提出了一种全新的、巧妙的方法来为 AI 图像生成器（特别是文本生成图像模型）进行“指纹识别”（fingerprinting），以解决完全相同的问题。以下是通俗易懂的解析：

问题所在：“配方交换”攻击

目前，公司将 AI 模型出售给用户。为了追踪谁拥有哪份副本，他们会在模型中嵌入一个隐藏的数字 ID（即指纹）。如果有人偷走了模型，所有者可以通过扫描该模型生成的图像并说：“啊，这张图是由用户 #5 的被盗副本制作的。”

缺陷： 研究人员发现了一个重大的弱点。如果用户 A 和用户 B 都偷走了各自的副本，他们只需将两者的设置进行**平均化处理（averaging）**即可。

类比： 这就像两个人把各自的秘密配料混合在一个碗里。
现状： 在现有的方法中，这种混合会产生一个新的、依然能做出美味蛋糕的配方，但隐藏的“用户 A”和“用户 B”的 ID 会被洗掉。这个新蛋糕没有指纹，因此所有者无法追踪。这被称为共谋攻击（Collusion Attack）。

解决方案：“魔法摇瓶”（反共谋）

作者提出了一种新系统来阻止这种混合技巧。他们引入了一个名为**个性化归一化模块（Personalized Normalization Module, PNM）**的特殊模块。你可以把它想象成内置在 AI 大脑中的一个定制“魔法摇瓶”，它会根据唯一的 ID 来调整其工作方式。

以下是该系统的三个步骤：

1. 隐形墨水（指纹识别）

他们不仅仅是稍微改变配方，而是将用户的 ID 编织进“魔法摇瓶”的运作机制之中。

原理： 他们训练 AI，使其在生成图像时，将隐藏的 ID 织入像素之中。
结果： 你可以观察该 AI 生成的任何图像，并提取出 ID，以此证明谁拥有该模型。论文声称，即使图像被裁剪、压缩或编辑，这种方法依然能达到 99.5% 的准确率。

2. “反共谋”技巧（真正的创新）

这是该论文最大的突破。在将模型交给用户之前，他们应用了一种特殊的变换，称为 ACT（反共谋变换）。

类比： 想象你给用户 A 的配方中，“盐”是用“茶匙”计量的，而“糖”是用“克”计量的。你给用户 B 的配方中，“盐”是用“克”计量的，而“糖”是用“茶匙”计量的。
关键点： 两份配方都能烤出完美的蛋糕，因为摇瓶内部知道如何转换这些单位。
陷阱： 如果用户 A 和用户 B 尝试混合他们的配方（取平均值），单位就会发生混乱。结果得到的配方会显示“加入 500 克盐”，而原本应该是茶匙。蛋糕会变成一个咸得无法入口的废品。
论文声称： 如果两个或更多用户试图进行共谋，生成的模型会导致极其糟糕的图像质量（差到无法使用）。这阻止了攻击，因为攻击者无法在不带有指纹的情况下获得一个可用的模型。

3. “最坏情况”训练

为了确保指纹即使在有人尝试微调模型（如进行微调）时也能幸存下来，作者使用了“最坏情况”策略来训练 AI。

类比： 想象一名保安通过针对最强攻击者的练习来进行训练。
结果： 指纹被如此深地嵌入其中，以至于即使有人尝试对模型进行“剪枝”（剔除部分内容）或添加噪声，ID 依然清晰可见。

研究结果

论文在流行的 AI 图像生成器（如 Stable Diffusion）上测试了该方法，并发现：

质量： 被植入指纹的模型所生成的图像与原版一样出色（没有模糊或奇怪的伪影）。
安全性： 当攻击者尝试混合模型时，图像质量大幅下降（衡量质量的 FID 分数从优秀的 23 飙升到了糟糕的 79）。
效率： 所有者可以瞬间为不同用户创建数千个独特的副本，而无需每次都重新训练 AI。

总结

这篇论文引入了一个用于 AI 模型的“锁”。如果你试图通过组合两个钥匙来破解这把锁（共谋），这把锁不仅不会保持开启状态，反而会卡死整个机器，使其无法产出任何有用的东西。它通过确保你无法通过窃取模型并将其与其他模型混合来获得一个既能正常工作又能隐藏行踪的产品，从而保护了创作者的权利。

技术摘要：高效、鲁棒且抗共谋的图像扩散模型指纹技术

1. 问题陈述

文本生成图像（T2I）扩散模型的快速发展带来了显著的知识产权（IP）风险，特别是针对未经授权的模型重新分发问题。虽然现有的指纹方法通过在模型输出中嵌入用户特定的标识符来实现可追溯性，但它们面临着一个关键的、此前尚未被探索的漏洞：共谋攻击（collusion attacks）。

在共谋攻击中，拥有不同指纹化模型副本的多个恶意用户可以通过组合其模型参数（例如通过简单的平均法）来创建一个新的“共谋”模型。现有方法无法防止这种情况，原因如下：

参数插值： 深度神经网络通常表现出模态连通性（mode connectivity），即在独立训练的模型之间进行线性插值可以产生功能性的解。
零成本消除： 攻击者可以通过平均参数来有效地抹除单个用户的唯一指纹，同时保留模型高质量图像生成的性能。
缺乏主动防御： 目前的研究依赖于事后归因（在事后识别共谋者），而不是防止功能性共谋模型的创建。

2. 方法论

所提出的框架引入了一种用于 T2I 模型的鲁棒指纹系统，该系统集成了三个核心组件：个性化归一化模块（PNM）、最坏情况优化策略以及抗共谋变换（ACT）。

A. 框架概述

工作流程包含三个阶段：

微调： 对基础 T2I 模型（具体为 VAE 解码器）进行微调以嵌入指纹。
初始化： 在无需重新训练的情况下，为用户生成唯一的指纹化副本。
验证： 从生成的图像中提取指纹以验证所有权。

B. 个性化归一化模块 (PNM)

该方法并非修改整个模型，而是在变分自编码器（VAE）的解码器中插入一个轻量级的 PNM。

结构： PNM 遵循 Conv–Norm–Conv 结构。
机制： 指纹消息 $m$ （一个二进制字符串）被输入到两个编码网络（ $F_\gamma$ 和 $F_\beta$ ）中，以生成缩放（ $\gamma$ ）和平移（ $\beta$ ）参数。这些参数用于调制 PNM 中的归一化层。
效率： 一旦完成了编码器和基础模型的训练，只需通过生成来自用户唯一指纹的新 $\gamma$ 和 $\beta$ 向量，即可创建新的用户副本，从而消除了重新训练的需求。

C. 抗共谋变换 (ACT)

为了主动击败共谋，该方法对每个用户特有的 PNM 参数应用了一种无损、函数不变的变换。这种变换确保了虽然模型对单个用户功能正常，但组合不同用户的参数会破坏模型的效用。
ACT 由三个连续操作组成：

通道级置换 (CP)： 根据用户特定的置换函数 $\pi$ 重新排列滤波器和归一化参数。
参数缩放 (SC)： 通过向量 $\alpha$ 对卷积核和归一化参数进行缩放，使得层内缩放因子的乘积等于 1，从而保持输出函数不变。
符号翻转 (SF)： 反转特定参数的符号（这是缩放的一种特例，其中因子为 $\{-1, 1\}$ ）。

理论基础： 这些变换打破了不同用户模型之间的“模态连通性”。虽然变换后的模型产生的输出与其未变换的对应版本相同，但它们的参数变得几乎正交。因此，在两个 ACT 受保护的模型之间进行线性插值（共谋）会落在参数空间的高损失区域，导致图像生成的灾难性失败。

D. 最坏情况优化

为了增强对抗模型级攻击（如微调、剪枝）的鲁棒性，训练目标包含了一个最坏情况正则化损失。

模型在假设存在定义邻域内最坏情况参数扰动（ $\delta^*$ ）的前提下进行优化，以最小化指纹损失。
这通过单步梯度上升进行近似，从而鼓励模型收敛到一个“平坦”的极小值点，使其对参数修改不那么敏感。

3. 核心贡献

主动抗共谋防御： 本文提出了第一个专门设计用于使共谋模型失效的 T2I 指纹框架。通过集成 ACT，任何尝试合并模型的行为都会导致图像质量严重下降（高 FID，低 PSNR），从而有效地中和了攻击。
高效、无需重训的部署： PNM 架构允许开发者通过重新参数化归一化层，在无需重新训练的计算成本下，瞬间为数千名用户生成不同的指纹化模型副本。
增强的鲁棒性： 引入的最坏情况优化策略显著提高了对模型级攻击（包括微调和剪枝）的抵御能力，即使在发生显著参数扰动后仍能保持高水平的指纹提取准确率。
全面的评估： 研究在多个数据集（COCO, ImageNet, MagicBrush, InstructPix2Pix）和任务（生成与编辑）上进行了严格评估，建立了安全对抗共谋的新基准。

4. 实验结果

该方法在 Stable Diffusion v2 和 InstructPix2Pix 模型上进行了评估。

保真度与质量： 所提方法保持了高图像质量。在 COCO 数据集上，其 FID 分数（24.03）与最先进的基于 VAE 的方法（如 Per. Norm., Sta. Sig.）相当，并且明显优于基于 U-Net 的水印方法。指纹化图像与非指纹化图像之间的视觉差异可以忽略不计。
指纹提取准确率： 该方法在所有数据集和任务中实现了 >99.5% 的比特准确率（Bit Accuracy），优于现有方法。
对攻击的鲁棒性：
- 图像级： 当使用训练期间的噪声层增强时，该方法对高斯噪声、模糊、裁剪和 JPEG 压缩保持鲁棒。
- 模型级： 在微调攻击（10,000 步）下，比特准确率保持在 90% 以上，显著优于竞争对手（后者跌至 70% 以下）。
抗共谋性能：
- 两方共谋： 当两个用户平均其模型时，现有方法保持了较高的图像质量（FID ~24），但失去了指纹有效性（TPR 降至 ~0.4）。相比之下，带有 ACT 的本方法会导致 FID 激增至 79.51 且 PSNR 大幅下降，使共谋模型无法使用。
- 多方共谋： 随着共谋者数量增加（最多 20 个），现有方法保持了高保真度。而本方法会导致质量持续下降（10 个共谋者时 PSNR 降至 ~11 dB），从而阻止了功能性模型的合成。
- 非线性攻击： 该方法对于高级非线性共谋策略（随机选择、幂平均、最大绝对值）仍然有效，而所有测试的策略在这些情况下都无法同时保持图像质量和指纹完整性。

5. 重要性与主张

本文声称解决了生成模型安全中的一个根本差距：对共谋的脆弱性。作者认为，虽然传统的媒体指纹技术依赖于叛徒追踪代码在违规后识别攻击者，但生成模型指纹技术需要一种主动的方法。

这项工作的意义在于将范式从归因（attribution）转向威慑（deterrence）。通过确保共谋行为本身会破坏模型的效用，该方法有效地防止了未经授权的重新分发。作者强调，这是在不损害合法用户的模型分发效率（无需重训）或生成内容质量的前提下实现的。

研究结论认为，结合了基于 PNM 的嵌入、最坏情况优化和 ACT 的技术，为保护商业及授权环境下的 T2I 模型知识产权提供了一个鲁棒且可扩展的解决方案。

Efficient, Robust, and Anti-Collusion Fingerprinting of Image Diffusion Models