Why Do Unlearnable Examples Work: A Novel Perspective of Mutual Information

本文从互信息减少的新视角出发,理论证明了互信息与未学习性的关联,并据此提出了一种通过最大化类内特征余弦相似度来降低协方差的新型未学习样本生成方法(MI-UE),该方法在防御机制下仍显著优于现有方案。

Yifan Zhu, Yibo Miao, Yinpeng Dong, Xiao-Shan Gao

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章提出了一种保护数据隐私的新方法,叫做**“不可学习样本”(Unlearnable Examples)。为了让你轻松理解,我们可以把整个故事想象成一场“黑客与守门员”的博弈**。

1. 背景:为什么我们需要保护数据?

想象一下,互联网上到处都是免费的图片(比如猫、狗、人脸)。很多大公司(像谷歌、OpenAI)喜欢把这些图片“偷”来训练他们的人工智能(AI),让 AI 变得更聪明。

但是,有些图片的主人(比如你的自拍、医疗报告)并不想被用来训练这些商业 AI。他们希望保护自己的隐私。

“不可学习样本”就是数据主人的一种防御武器。
它的原理是:在图片上添加一点点人眼几乎看不见的“噪点”(就像在照片上撒了一层极细的灰尘)。

  • 对人眼来说:照片还是那张照片,完全没问题。
  • 对 AI 来说:这张照片变得“有毒”了。如果 AI 试图学习这张照片,它的脑子就会“短路”,导致它学坏了,以后识别其他照片的能力也会大幅下降。

2. 旧方法的困境:靠“猜”和“试”

以前,制造这种“有毒照片”的方法,主要靠经验主义(Empirical Heuristics)。
这就好比一个厨师想发明一道“让人吃了就拉肚子”的毒药,但他不知道化学原理,只能凭感觉往菜里加各种调料(比如多加点盐、多加点辣椒),然后试吃,看谁拉肚子最厉害。

  • 缺点:这种方法很盲目,不知道为什么有效,也很难改进。而且,有些“毒药”对简单的 AI 有效,但对复杂的 AI 就失效了。

3. 新视角:用“信息量”来解释(核心创新)

这篇论文的作者发现了一个新的规律,用**“互信息”(Mutual Information, MI)**这个概念来解释为什么这些“毒药”有效。

让我们用一个生动的比喻:

想象干净的照片(Clean Data)和被投毒的照片(Poisoned Data)是两个朋友。

  • 互信息(MI):衡量这两个朋友之间**“有多像”或者“有多默契”**。
    • 如果它们很像(互信息高),AI 就能轻易从干净照片学到的规律,套用到毒照片上,或者反过来。
    • 如果它们完全不像,毫无默契(互信息低),AI 就会很困惑。

作者的发现:
那些真正有效的“毒药”,都有一个共同点:它们强行切断了干净照片和毒照片之间的联系,让它们的“互信息”变得极低。

  • 这就好比,原本两个朋友很默契,你给其中一个朋友(毒照片)施加了某种魔法,让他变得和另一个朋友(干净照片)完全无法沟通。
  • 当 AI 试图学习时,它发现这两类数据之间没有任何规律可循,就像在听天书。于是,AI 就“学废了”,彻底失去了泛化能力(Generalization),遇到新图片就瞎猜。

还有一个有趣的发现:
网络越深(AI 越聪明),这种“切断联系”的效果越明显。就像两个普通人可能还能勉强沟通,但两个高智商的人如果完全无法沟通,后果会更严重。

4. 新方法:MI-UE(互信息不可学习样本)

基于这个理论,作者发明了一种新的制造“毒药”的方法,叫 MI-UE

它是怎么做的?
以前是盲目加噪点,现在是有目的地“制造混乱”

  • 目标:让同一类图片(比如都是“猫”)在被投毒后,它们彼此之间变得非常相似(在数学特征上靠得很近),但和干净图片彻底“断交”。
  • 比喻
    • 想象一群“猫”(干净数据)在广场上散步,它们形态各异。
    • 以前的毒药只是给每只猫戴个奇怪的面具,AI 还能猜出它们是猫。
    • MI-UE 的做法:它给所有的“猫”都施了魔法,让它们长得一模一样(最大化类内相似度),就像克隆人一样。但是,这些克隆猫和原本真实的猫之间,却有着巨大的鸿沟(最小化互信息)。
    • 结果:AI 看到这些克隆猫,以为它们是一类东西,但一看到真实的猫,发现完全对不上号。AI 的脑子彻底乱了,不知道到底什么是“猫”。

5. 效果如何?

作者做了大量实验,把他们的 MI-UE 和以前的各种“毒药”方法进行了对比:

  • 更狠:在同样的攻击下,AI 的准确率下降得更多(比如从 94% 降到 10%,几乎等于瞎猜)。
  • 更稳:即使 AI 使用了防御手段(比如“对抗训练”,相当于给 AI 戴上了防毒面具),MI-UE 依然能让 AI 失效。
  • 更通用:不管 AI 是简单的还是复杂的(像 ResNet, ViT 等),MI-UE 都能起作用。

总结

这篇论文的核心贡献在于:

  1. 讲清楚了道理:不再靠猜,而是用“互信息”这个数学工具,解释了为什么有些数据能让 AI 变傻——因为它们切断了数据之间的“默契”。
  2. 发明了更强的武器:基于这个道理,设计了一种新的投毒方法(MI-UE),通过让同类数据“高度一致”但“与真实世界割裂”,让 AI 彻底学不会。

一句话总结:
这就好比你想保护你的照片不被 AI 偷学,以前你是往照片上撒点“迷魂粉”(凭感觉),现在你是往照片上撒了一种“逻辑毒药”,让 AI 觉得这些照片和真实世界完全不在一个频道上,从而彻底放弃学习。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →