When Priors Backfire: On the Vulnerability of Unlearnable Examples to Pretraining

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何保护个人数据不被 AI 滥用”**的有趣故事，同时也揭示了一个令人惊讶的漏洞，并提出了一个聪明的解决方案。

我们可以把整个过程想象成一场**“猫鼠游戏”**：

1. 背景：给数据穿上“隐形迷彩服”

想象一下，你有一张自己的照片，你想把它放在网上，但又不想让任何 AI 公司拿它来训练模型（比如用来识别你的脸）。

以前的做法（UE 技术）： 研究人员发明了一种叫“不可学习样本”（Unlearnable Examples, UEs）的技术。这就像给你的照片穿上了一件**“隐形迷彩服”**（微小的扰动）。
- 原理： 这件迷彩服人眼根本看不出来，但会让 AI 产生严重的错觉。AI 会误以为照片上的“猫”其实是“狗”，或者把“猫”的特征和错误的标签强行绑定。
- 结果： 如果 AI 用这些照片训练，它学出来的全是歪理（比如看到猫就喊狗），一旦遇到真正的干净照片，它就彻底傻眼了，准确率跌到猜谜水平。

2. 问题：为什么“迷彩服”对老手不管用了？

这篇论文发现了一个大漏洞：以前的“迷彩服”只对“新手”有效，对“老手”完全没用。

新手（从头训练的模型）： 就像一张白纸，AI 从零开始学。这时候，你给它穿上迷彩服，它就被骗了，学了一身歪理。
老手（预训练模型）： 现在的 AI 大多不是从零开始的，它们先在成千上万张通用图片（比如 ImageNet）上“读过书”（预训练），脑子里已经有了丰富的常识（比如“猫有尖耳朵”、“狗有四条腿”）。
漏洞揭秘： 当这个“老手”AI 看到你的迷彩照片时，它脑子里的**“常识库”**（先验知识）太强大，直接忽略了那些人为制造的假线索。它会说：“虽然这张图有点怪，但我看这耳朵和胡须，这明明就是猫！”
- 结论： 只要 AI 是“老手”，你给它穿再多的迷彩服，它也能透过迷雾看到真相，你的数据保护就失效了。

3. 解决方案：BAIT（诱饵）—— 把迷彩和错误答案“锁死”

为了解决这个问题，作者提出了一种新方法叫 BAIT（Binding Artificial perturbations to Incorrect Targets，意为“将人工扰动绑定到错误目标”）。

我们可以用一个**“钓鱼”**的比喻来理解：

以前的失败尝试： 就像在鱼钩上挂了一块肉（扰动），希望鱼（AI）咬钩。但老练的鱼（预训练模型）知道肉下面可能有钩，或者它太聪明，直接忽略肉，去抓真正的虫子（真实语义）。
BAIT 的策略（双层陷阱）：
1. 第一层（内层）： 假装正常。让 AI 以为我们在教它正常的知识（比如“这是猫”）。
2. 第二层（外层）： 真正的杀招。我们故意把“迷彩服”和完全错误的标签（比如“这是卡车”）死死地绑在一起。
  - 核心逻辑： 我们不是简单地让 AI 认错，而是强迫 AI 在“常识”和“迷彩”之间做选择。BAIT 通过一种特殊的训练机制，让 AI 发现：“只要穿上这件迷彩服，不管它看起来像什么，答案都必须是‘卡车’。”
  - 效果： 这种“强制绑定”太强烈了，强烈到压过了 AI 脑子里的“常识”。AI 被迫放弃它原本学到的“猫有胡须”这种真实知识，转而依赖那个荒谬的“迷彩=卡车”的假规则。

4. 进阶技巧：循序渐进的“魔鬼训练”

为了让这个陷阱更完美，作者还设计了一个**“循序渐进”**的策略（课程学习）：

第一阶段： 先让 AI 把“猫”认成最像的“老虎”（容易混淆的）。
第二阶段： 随机认成别的动物。
第三阶段： 最后直接认成完全不相干的“卡车”或“飞机”。
通过这种从易到难的训练，BAIT 一步步把 AI 的“常识”彻底带偏，让它彻底依赖那个错误的规则。

5. 实验结果：大获全胜

作者在各种复杂的场景下测试了这种方法：

对手： 使用了各种强大的“老手”AI（比如 ResNet, ViT 等）。
结果： 以前那些让 AI 保护数据的方法，在“老手”面前准确率高达 80% 以上（保护失败）；而用了 BAIT 方法后，AI 的准确率直接跌到了14% 左右（相当于瞎猜）。
防御力： 即使有人试图用“压缩图片”或“数据增强”等防御手段来破解，BAIT 依然坚挺。

总结

这篇论文告诉我们：

旧方法失效了： 简单的“数据迷彩”骗不过那些已经“读过很多书”的 AI 模型。
新方法很聪明： BAIT 通过**“强制绑定错误答案”**，利用 AI 自己的学习机制，让它为了追求“训练时的正确率”而不得不放弃“真实的常识”，从而彻底保护了数据。

这就好比你想骗一个经验丰富的侦探，不能只给他看假线索，你得让他相信**“只要看到红帽子，凶手就一定是穿绿鞋子的”**，并且通过反复训练，让他把这条荒谬的规律刻在脑子里，哪怕他原本知道红帽子和绿鞋子没关系。这样，你的秘密就安全了。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的会议论文，题为 《WHEN PRIORS BACKFIRE: ON THE VULNERABILITY OF UNLEARNABLE EXAMPLES TO PRETRAINING》（当先验失效：不可学习样本对预训练的脆弱性）。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

不可学习样本 (Unlearnable Examples, UEs) 的背景：UEs 是一种数据保护策略，通过在训练数据中注入人眼不可见的扰动（perturbations），诱导模型学习虚假的“捷径”（spurious correlations，即扰动与标签的关联），而不是学习数据的真实语义。其目的是防止未经授权的数据使用，使得模型在受污染数据上训练后，在干净测试集上的表现降至随机猜测水平。
现有研究的局限：现有的 UEs 研究主要针对从头训练 (Train-from-Scratch, TS) 的模型。然而，在实际应用中，为了节省标注成本，从业者普遍使用预训练模型 (Pretrained Models, PT) 进行微调。
核心问题：当 UEs 应用于预训练模型时，其保护效果是否依然有效？
发现：论文揭示了一个根本性的脆弱性。预训练先验 (Pretraining Priors) 使得模型能够绕过 UEs 注入的虚假捷径，重新捕捉到数据的真实语义。实验表明，在预训练模型上，现有的 UEs 方法（如 EMN, TUE 等）失效，模型在干净测试集上的准确率依然很高，未能达到“不可学习”的效果。

2. 核心洞察 (Key Insight)

先验的作用：预训练模型拥有丰富的语义表征能力。当面对带有扰动的数据时，先验知识引导模型建立“语义 - 标签”的映射路径，从而忽略 UEs 试图建立的“扰动 - 标签”捷径。
参数更新动态：在从头训练的模型上，有效的 UEs 会导致参数更新极小（因为模型被误导学习捷径）；而在预训练模型上，参数更新幅度与干净数据训练相当，表明模型仍在进行有效的语义学习，从而绕过了 UEs 的保护。

3. 方法论：BAIT (Methodology: BAIT)

为了解决上述问题，作者提出了 BAIT (Binding Artificial perturbations to Incorrect Targets)，一种新颖的双层优化框架。

核心思想：破坏由预训练先验建立的“数据 - 标签”对齐，强制建立“扰动 - 错误标签”的绑定，从而迫使模型依赖注入的扰动而非真实语义。
双层优化结构：
1. 内层优化 (Inner Level)：模拟标准的数据 - 标签对齐。利用预训练先验，将扰动样本映射到其真实标签 ( $x_i + \delta_i \to y_i$ )。这一步旨在让模型在内部尝试学习正常语义，模拟先验的引导作用。
2. 外层优化 (Outer Level)：主动破坏上述对齐。强制将扰动样本映射到指定的错误标签 ( $x_i + \delta_j \to y_j, i \neq j$ )。这一步通过优化扰动 $\delta$ ，使得模型在试图利用先验学习真实语义时，被强制导向错误的目标。
优化策略：
- 元学习 (Meta-learning)：由于双层优化难以直接求解，作者采用元学习策略，通过展开内层优化步骤（Unrolling）来近似外层目标，实现“向前看”的优化视角。
- 课程学习引导的目标标签选择 (Curriculum-Guided Target Label Selection)：为了增强扰动对先验的误导能力，作者设计了三阶段策略动态选择错误目标标签：
  1. 硬负样本 (Hard Negative)：选择 logits 最高的非真实类（最容易混淆的类）。
  2. 随机类 (Random Classes)：随机选择非真实类，增加难度和泛化性。
  3. 最不相似类 (Most Dissimilar Classes)：选择 logits 最低的类（语义最无关的类），这是最具挑战性的阶段。
- 这种从易到难的策略逐步迫使模型放弃先验引导的真实语义，转而依赖扰动。

4. 实验结果 (Results)

作者在多个基准数据集（CIFAR-10, CIFAR-100, SVHN, Flowers102, ImageNet 子集）和多种预训练骨干网络（ResNet, VGG, DenseNet, ViT 等）上进行了广泛实验。

对抗预训练先验的有效性：
- 在 ImageNet 预训练的 ResNet-18 上，现有方法（如 EMN, TUE, REM）的测试准确率依然很高（例如 EMN 在 CIFAR-10 上仍达 61.82%），未能实现不可学习。
- BAIT 将测试准确率降低至随机猜测水平（CIFAR-10 上仅为 14.40%，接近 10% 的随机水平），显著优于所有基线方法。
跨架构与跨数据集泛化性：
- BAIT 生成的扰动在 CNN (ResNet, VGG) 和 Transformer (ViT, Swin) 架构上均有效。
- 即使使用不同数据集（CIFAR, SVHN）预训练的模型，BAIT 依然保持强大的破坏力。
- 在更复杂的 Flowers102 和 ImageNet 子集上，BAIT 依然表现优异。
防御能力：
- 在标准数据增强（Cutout, Mixup, CutMix）和高级防御（JPEG 压缩）下，BAIT 依然能维持低测试准确率，表现出极强的鲁棒性。
从头训练场景：BAIT 在从头训练的模型上同样有效，且优于现有方法，证明了其通用性。
可视化分析：t-SNE 可视化显示，BAIT 成功破坏了特征空间的聚类结构，使得模型无法区分真实语义，而基线方法在预训练模型上未能做到这一点。

5. 主要贡献 (Key Contributions)

揭示脆弱性：首次系统性地揭示了 UEs 在预训练模型上的根本性失效问题，并实证了预训练先验是模型绕过 UEs 保护的关键因素。
提出 BAIT 框架：设计了一种基于双层优化的 BAIT 框架，通过“扰动 - 错误标签”绑定机制，有效中和了预训练先验的影响，强制模型依赖虚假捷径。
广泛的实证验证：通过大量实验证明了 BAIT 在不同数据集、不同架构（CNN/ViT）以及不同防御策略下的卓越性能和泛化能力。

6. 意义与影响 (Significance)

理论意义：深化了对“预训练先验”与“对抗性扰动”之间相互作用的理解，指出了单纯依靠注入捷径来保护数据在面对强大先验时的局限性。
实际应用：为数据隐私保护提供了更可靠的方案。随着预训练模型成为主流，BAIT 确保了个人数据在未经授权被用于微调预训练模型时，能够真正起到“不可学习”的保护作用，防止模型窃取真实语义。
未来方向：论文指出了当前方法在跨任务（如分割任务）转移性上的不足，为未来研究指明了方向。

总结：这篇论文通过发现预训练模型能轻易破解现有不可学习样本的防御，提出了一种利用双层优化和课程学习策略的 BAIT 方法，成功“以毒攻毒”，利用先验知识本身来破坏先验知识，从而在预训练时代实现了真正有效的数据保护。

When Priors Backfire: On the Vulnerability of Unlearnable Examples to Pretraining

1. 背景：给数据穿上“隐形迷彩服”

2. 问题：为什么“迷彩服”对老手不管用了？

3. 解决方案：BAIT（诱饵）—— 把迷彩和错误答案“锁死”

4. 进阶技巧：循序渐进的“魔鬼训练”

5. 实验结果：大获全胜

总结

1. 研究背景与问题 (Problem)

2. 核心洞察 (Key Insight)

3. 方法论：BAIT (Methodology: BAIT)

4. 实验结果 (Results)

5. 主要贡献 (Key Contributions)

6. 意义与影响 (Significance)

类似论文

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation