When Priors Backfire: On the Vulnerability of Unlearnable Examples to Pretraining

本文揭示了预训练先验会削弱不可学习样本(UEs)的保护效果,并提出了名为 BAIT 的双层优化方法,通过将扰动与错误标签强制绑定来克服预训练语义引导,从而在预训练模型上有效维持数据的不可学习性。

Zhihao Li, Gezheng Xu, Jiale Cai, Ruiyi Fang, Di Wu, Qicheng Lao, Charles Ling, Boyu Wang

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何保护个人数据不被 AI 滥用”**的有趣故事,同时也揭示了一个令人惊讶的漏洞,并提出了一个聪明的解决方案。

我们可以把整个过程想象成一场**“猫鼠游戏”**:

1. 背景:给数据穿上“隐形迷彩服”

想象一下,你有一张自己的照片,你想把它放在网上,但又不想让任何 AI 公司拿它来训练模型(比如用来识别你的脸)。

  • 以前的做法(UE 技术): 研究人员发明了一种叫“不可学习样本”(Unlearnable Examples, UEs)的技术。这就像给你的照片穿上了一件**“隐形迷彩服”**(微小的扰动)。
    • 原理: 这件迷彩服人眼根本看不出来,但会让 AI 产生严重的错觉。AI 会误以为照片上的“猫”其实是“狗”,或者把“猫”的特征和错误的标签强行绑定。
    • 结果: 如果 AI 用这些照片训练,它学出来的全是歪理(比如看到猫就喊狗),一旦遇到真正的干净照片,它就彻底傻眼了,准确率跌到猜谜水平。

2. 问题:为什么“迷彩服”对老手不管用了?

这篇论文发现了一个大漏洞:以前的“迷彩服”只对“新手”有效,对“老手”完全没用。

  • 新手(从头训练的模型): 就像一张白纸,AI 从零开始学。这时候,你给它穿上迷彩服,它就被骗了,学了一身歪理。
  • 老手(预训练模型): 现在的 AI 大多不是从零开始的,它们先在成千上万张通用图片(比如 ImageNet)上“读过书”(预训练),脑子里已经有了丰富的常识(比如“猫有尖耳朵”、“狗有四条腿”)。
  • 漏洞揭秘: 当这个“老手”AI 看到你的迷彩照片时,它脑子里的**“常识库”**(先验知识)太强大,直接忽略了那些人为制造的假线索。它会说:“虽然这张图有点怪,但我看这耳朵和胡须,这明明就是猫!”
    • 结论: 只要 AI 是“老手”,你给它穿再多的迷彩服,它也能透过迷雾看到真相,你的数据保护就失效了。

3. 解决方案:BAIT(诱饵)—— 把迷彩和错误答案“锁死”

为了解决这个问题,作者提出了一种新方法叫 BAIT(Binding Artificial perturbations to Incorrect Targets,意为“将人工扰动绑定到错误目标”)。

我们可以用一个**“钓鱼”**的比喻来理解:

  • 以前的失败尝试: 就像在鱼钩上挂了一块肉(扰动),希望鱼(AI)咬钩。但老练的鱼(预训练模型)知道肉下面可能有钩,或者它太聪明,直接忽略肉,去抓真正的虫子(真实语义)。
  • BAIT 的策略(双层陷阱):
    1. 第一层(内层): 假装正常。让 AI 以为我们在教它正常的知识(比如“这是猫”)。
    2. 第二层(外层): 真正的杀招。我们故意把“迷彩服”和完全错误的标签(比如“这是卡车”)死死地绑在一起。
      • 核心逻辑: 我们不是简单地让 AI 认错,而是强迫 AI 在“常识”和“迷彩”之间做选择。BAIT 通过一种特殊的训练机制,让 AI 发现:“只要穿上这件迷彩服,不管它看起来像什么,答案都必须是‘卡车’。”
      • 效果: 这种“强制绑定”太强烈了,强烈到压过了 AI 脑子里的“常识”。AI 被迫放弃它原本学到的“猫有胡须”这种真实知识,转而依赖那个荒谬的“迷彩=卡车”的假规则。

4. 进阶技巧:循序渐进的“魔鬼训练”

为了让这个陷阱更完美,作者还设计了一个**“循序渐进”**的策略(课程学习):

  • 第一阶段: 先让 AI 把“猫”认成最像的“老虎”(容易混淆的)。
  • 第二阶段: 随机认成别的动物。
  • 第三阶段: 最后直接认成完全不相干的“卡车”或“飞机”。
    通过这种从易到难的训练,BAIT 一步步把 AI 的“常识”彻底带偏,让它彻底依赖那个错误的规则。

5. 实验结果:大获全胜

作者在各种复杂的场景下测试了这种方法:

  • 对手: 使用了各种强大的“老手”AI(比如 ResNet, ViT 等)。
  • 结果: 以前那些让 AI 保护数据的方法,在“老手”面前准确率高达 80% 以上(保护失败);而用了 BAIT 方法后,AI 的准确率直接跌到了14% 左右(相当于瞎猜)。
  • 防御力: 即使有人试图用“压缩图片”或“数据增强”等防御手段来破解,BAIT 依然坚挺。

总结

这篇论文告诉我们:

  1. 旧方法失效了: 简单的“数据迷彩”骗不过那些已经“读过很多书”的 AI 模型。
  2. 新方法很聪明: BAIT 通过**“强制绑定错误答案”**,利用 AI 自己的学习机制,让它为了追求“训练时的正确率”而不得不放弃“真实的常识”,从而彻底保护了数据。

这就好比你想骗一个经验丰富的侦探,不能只给他看假线索,你得让他相信**“只要看到红帽子,凶手就一定是穿绿鞋子的”**,并且通过反复训练,让他把这条荒谬的规律刻在脑子里,哪怕他原本知道红帽子和绿鞋子没关系。这样,你的秘密就安全了。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →