Forging the Unforgeable: On the Feasibility of Counterfeit Watermarks in Backdoor-Based Dataset Ownership Verification

Each language version is independently generated for its own context, not a direct translation.

这篇文章就像是在揭露一个**“数字世界里的假证制造工厂”**，它挑战了一个大家原本深信不疑的“安全神话”。

为了让你轻松理解，我们可以把整件事想象成一场**“谁先拥有这块地皮”的官司**。

1. 背景：地皮上的“隐形记号”

想象一下，你辛苦收集了一堆珍贵的照片（这就是数据集），准备免费发给全世界用。为了防止别人偷了你的照片去训练他们的 AI 模型（比如用来训练一个更聪明的聊天机器人），你在照片里偷偷埋下了一个**“隐形记号”（这就是后门水印**）。

原来的逻辑是：如果你发现别人的 AI 模型里，只要看到一张带有这个“隐形记号”的奇怪图片，它就会立刻做出一个特定的、奇怪的反应（比如把猫识别成狗），那就能证明：“看！这个模型肯定偷用了我的照片，因为只有我的照片里有这个记号！”
目前的现状：大家普遍认为，只要这个“奇怪反应”能对上号，这就是铁证，可以直接去法院告对方侵权。

2. 核心发现：造假者也能造出“完美假证”

这篇论文的作者（一群网络安全专家）发现，这个逻辑有一个巨大的漏洞。他们提出：“如果我能造出一个和你一模一样的‘奇怪反应’，但用的记号长得不一样，那你的证据还管用吗？”

这就好比：

你说：“我的地皮上种了一棵红色的树，别人家也有红树，所以地是我的。”
小偷说：“等等，我也可以种一棵蓝色的树，只要风吹过来，我的蓝树也会发出和你红树完全一样的声音。既然我的树也能发出同样的声音，你怎么证明你的树是‘原版’，而我的不是‘高仿’？”

作者开发了一个叫 FW-Gen 的“造假机器”（就像是一个高级的 3D 打印机），它能做到：

提取特征：先偷看你的“红树”长什么样，听听它发出的声音。
制造假证：造出一棵“蓝树”（视觉上完全不同，你一眼就能看出区别）。
完美模仿：但这棵“蓝树”在风吹时，发出的声音（AI 模型的反应）和你那棵“红树”一模一样，甚至声音更响亮、更标准。

3. 实验结果：假证比真证还“真”

作者做了很多实验（用了 6 种不同的水印方法，2 个大型数据库），结果让人大跌眼镜：

统计上无法区分：在法庭（统计学测试）上，法官（统计软件）发现，那棵“蓝树”发出的声音，比“红树”还要像“原版声音”。
视觉不同：虽然声音一样，但“蓝树”和“红树”长得完全不一样，一眼就能看出来。
结论：既然小偷能拿出一个“长得不同但声音一样”的证据，法官（法律系统）就没办法断定到底是谁先种树的。原来的“红树”证据瞬间变得模棱两可，不再具有法律效力。

4. 为什么这很重要？（比喻总结）

这就好比你买了一张**“防伪门票”进场，保安说：“只要你能出示这张票，就证明你是合法观众。”
但这篇论文说：“不行，因为有人能造出一张长得完全不一样的票，但刷进去的时候，闸机‘滴’的一声，反应和真票一模一样**。”

如果闸机只负责听那个“滴”声，而不检查票的长相或时间戳，那这张票就无法作为唯一的身份证明。

5. 作者的建议：我们需要“时间锁”

既然“声音”可以被模仿，那怎么保护版权呢？作者建议：

不要只靠“声音”：光看 AI 的反应是不够的。
加上“时间锁”：就像在种树之前，先去公证处把树的种子登记备案，盖上时间戳（比如用区块链技术）。这样，当小偷拿出他的“蓝树”时，你可以拿出公证记录说：“看，我的红树在 2023 年就登记了，你的蓝树是 2024 年才出现的，所以你是抄袭的。”

一句话总结

这篇论文告诉我们：在 AI 时代，光靠“行为像”来证明“东西是我的”已经不够了，因为造假者能完美模仿行为。我们需要更高级的“时间锁”和“防伪登记”来真正保护数据的所有权。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于基于后门的水印技术在数据集所有权验证（DOV）中的伪造攻击可行性的学术论文总结。该研究挑战了当前主流观点，即认为后门水印可以作为版权侵权的可靠证据。

以下是该论文的详细技术总结：

1. 研究背景与问题定义 (Problem)

背景：随着大模型的发展，高质量数据集的构建成本高昂，导致公共数据集常被未经授权地用于商业训练。为了证明所有权，研究者提出了**后门水印（Backdoor Watermarking）**技术：数据所有者在发布前向部分样本嵌入特定的触发器（Trigger），并在后续通过检测模型是否表现出预定的后门行为来验证所有权。
核心问题：现有的所有权验证（DOV）机制存在根本性缺陷。
1. 缺乏时间绑定（Lack of Temporal Binding）：大多数方案无法证明水印创建的时间早于被指控模型的训练时间（缺乏区块链等时间戳机制）。
2. 不切实际的对手假设：现有方法假设被指控者会被动接受裁决。实际上，被指控者有动力去制造“反证据”。
核心假设：如果攻击者能够生成一个视觉上不同但在统计行为上与原水印等价的伪造水印，他们就可以声称自己的模型是基于这个伪造水印训练的，从而对原所有者的指控提出合理怀疑，使 DOV 结果在法律上变得模棱两可。

2. 方法论：FW-Gen 框架 (Methodology)

作者提出了一个名为 FW-Gen (Forged Watermark Generator) 的轻量级框架，用于生成伪造水印。其核心流程如下：

水印信息提取 (Watermark Extraction)：
- 攻击者利用频域分析技术从公开数据集中检测并提取被水印污染的样本（实验显示检测准确率>99%）。
- 通过查询被指控模型，推断出目标标签（Target Label）。
伪造水印生成 (Forged Watermark Generation)：
- 架构：基于变分自编码器（VAE）。与标准 VAE 不同，FW-Gen 输入随机噪声，确保生成的水印在视觉上与原水印显著不同。
- 训练目标（双损失函数）：
  - 可疑模型损失 ( $L_W$ )：确保伪造水印在被指控模型（ $\tilde{f}$ ）上触发的后门行为（将输入分类为目标标签的概率）与原水印一致。
  - 良性模型损失 ( $L_B$ )：确保伪造水印在未接触过水印的良性模型（ $f$ ）上不会表现出异常行为（即保持正常的语义分类能力），防止被检测为异常。
- 通过知识蒸馏的思想，将原水印的行为特征迁移到伪造水印上。
所有权争议 (Ownership Dispute)：
- 攻击者使用生成的伪造水印对模型进行验证测试。
- 如果伪造水印在假设检验（如 T 检验或 Wilcoxon 符号秩检验）中表现出与原水印同等甚至更强的统计显著性（即 $p$ 值极小，拒绝原假设），攻击者即可声称该模型是基于伪造水印训练的，从而推翻原所有者的侵权指控。

3. 理论分析 (Theoretical Foundation)

行为等价性定义：如果两个水印 $t_1$ 和 $t_2$ 在模型 $\tilde{f}$ 上触发目标标签 $\hat{y}$ 的概率分布相同，则称它们行为等价。
定理 1 (伪造漏洞)：任何仅依赖行为验证（即只测试模型对水印输入的响应）的后门水印方案，在理论上都是易受伪造攻击的。
- 证明逻辑：只要攻击者能找到满足行为等价且视觉不同的水印，验证算法计算出的统计量（Test Statistic）和 $p$ 值在统计分布上是不可区分的。在没有时间戳绑定的情况下，无法区分哪个水印先出现。

4. 实验结果 (Results)

作者在 6 种主流后门水印方法（BadNets, Blended, $\ell_0$ -invisible, Nature, Trojan-sq, Trojan-wm）、2 个数据集（CIFAR-10, ImageNet）和 2 种模型架构（ResNet-18, VGG-19）上进行了广泛实验。

水印检测 (RQ1)：
- 攻击者利用频域分析能成功提取绝大多数水印样本，检测准确率普遍超过 99%（BadNets 为 90.2%），证明了攻击前提的可行性。
统计等价性 (RQ2)：
- 假设检验：在“偷窃模型”场景（模型被指控侵权）中，伪造水印的 $p$ 值与原水印相当甚至更小（统计显著性更强）；在“独立模型”场景（良性模型）中， $p$ 值均大于 0.05（接受原假设）。
- 结论：伪造水印在统计检验中与原水印不可区分，甚至表现更好。
分类性能：
- 伪造水印的成功率（FWSR）通常接近或超过原水印的成功率（OWSR）。例如，在 Blended Line 方案中，FWSR 从 81.0% 提升至 86.9%。
- 良性准确率（BA）未受显著影响，证明伪造过程未破坏模型正常功能。
视觉区分度：
- 通过 PSNR、SSIM 和 MSE 指标以及 LIME 可视化分析，证实了伪造水印与原水印在视觉模式和模型关注区域上存在显著差异。

5. 主要贡献 (Key Contributions)

揭示了根本缺陷：首次系统性地指出当前后门水印方案缺乏时间绑定且依赖单一行为验证，导致其无法作为独立的版权法律证据。
提出 FW-Gen 攻击框架：设计了一种基于 VAE 的轻量级生成框架，能够生成视觉不同但统计行为等价的水印。
理论证明：形式化证明了仅依赖行为验证的 DOV 方案在理论上是脆弱的（Theorem 1）。
实证验证：通过大规模实验证明，伪造水印在统计显著性上足以匹敌甚至超越原水印，彻底动摇了当前 DOV 机制作为法律证据的可信度。

6. 意义与启示 (Significance)

法律与合规影响：目前的 DOV 结果不足以单独作为版权侵权的法律证据。在缺乏区块链时间戳或其他不可篡改记录的情况下，被告方可以通过伪造水印制造“合理怀疑”，使诉讼陷入僵局。
安全防御方向：
- 必须引入密码学时间戳（如区块链注册）来确立水印的时间优先性。
- 需要开发抗伪造水印方案，例如结合多水印机制、更复杂的行为签名或不可见的隐写术，增加攻击者复制行为模式的难度。
学术价值：该研究将数据集保护的研究视角从单纯的“防御”转向了“对抗性验证”，强调了在 AI 安全中考虑法律举证逻辑的重要性。

总结：这篇论文通过构建一个高效的伪造攻击框架，有力地证明了当前的后门水印技术在法律举证层面是脆弱的。它呼吁社区在追求水印鲁棒性的同时，必须解决时间绑定和抗伪造性问题，以构建真正可信的数据集所有权验证机制。

Forging the Unforgeable: On the Feasibility of Counterfeit Watermarks in Backdoor-Based Dataset Ownership Verification

1. 背景：地皮上的“隐形记号”

2. 核心发现：造假者也能造出“完美假证”

3. 实验结果：假证比真证还“真”

4. 为什么这很重要？（比喻总结）

5. 作者的建议：我们需要“时间锁”

一句话总结

1. 研究背景与问题定义 (Problem)

2. 方法论：FW-Gen 框架 (Methodology)

3. 理论分析 (Theoretical Foundation)

4. 实验结果 (Results)

5. 主要贡献 (Key Contributions)

6. 意义与启示 (Significance)

类似论文

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities