Undetectable Backdoors in Model Parameters: Hiding Sparse Secrets in High Dimensions

本文介绍了“稀疏后门”,这是一种供应链攻击,它在预训练图像分类器中注入一种经高斯抖动掩蔽的、可证明不可检测的稀疏扰动,并证明在标准困难性假设下,区分被篡改模型与干净参考模型在计算上是不可行的。

原作者: Sarthak Choudhary, Atharv Singh Patlan, Nils Palumbo, Ashish Hooda, Kassem Fawaz, Somesh Jha

发布于 2026-05-07
📖 1 分钟阅读☕ 轻松阅读

原作者: Sarthak Choudhary, Atharv Singh Patlan, Nils Palumbo, Ashish Hooda, Kassem Fawaz, Somesh Jha

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

以下是用通俗易懂的语言和富有创意的类比,对论文《模型参数中的不可检测后门》进行的解读。

宏观图景:人工智能的“特洛伊木马”

想象一下,你从一家著名面包店(比如 Hugging Face)购买了一款高端预制蛋糕,准备用于自己的派对。你信任这家面包店,但如果一名恶意的面包师在蛋糕的配方中偷偷塞进了一个微小且隐形的开关呢?

  • 正常行为:当你正常吃下一块蛋糕时,它味道完美。
  • 后门:如果你在蛋糕上撒上一小撮特定的“魔法粉尘”(即触发器),它会突然变成完全不同的味道(例如,尝起来像西兰花而不是巧克力),尽管在你看来配方似乎没有任何变化。

这篇论文介绍了一种新的、令人恐惧且极其巧妙的植入这些“魔法粉尘”开关到人工智能模型中的方法。可怕之处在于?即使你手中握有整本配方书,你也无法找到这个开关。

问题所在:“猫鼠游戏”

多年来,安全专家(防御者)与恶意行为者(攻击者)一直在进行一场猫鼠游戏。

  • 攻击者试图隐藏他们的开关。
  • 防御者构建工具来扫描配方书,寻找可疑的原料或奇怪的模式。
  • 循环:每当防御者构建出更好的扫描器时,攻击者就会学会更好地隐藏开关。

直到现在,每当攻击者声称他们的开关是“不可检测”的,防御者最终总能找到方法将其识破。但这篇论文声称已经打破了这一循环。

解决方案:“稀疏后门”

作者创造了一种名为**稀疏后门(Sparse Backdoor)**的攻击。以下是其工作原理,使用了一个比喻:

1. 秘密信号(稀疏方向)

想象一个拥有数百万本书籍的巨大图书馆(即人工智能的大脑)。攻击者想要改变某个特定故事的结局。他们不是重写整个图书馆,而是选择一个特定的、隐蔽的过道(即“稀疏方向”),那里很少有人会去查看。

他们在那个过道里植入了一个微小的信号。如果你走过那个过道,信号就会被激活;如果你去任何其他地方,什么都不会发生。由于信号被隐藏在巨大图书馆中如此微小且随机的角落里,因此极难被发现。

2. “噪声”毯子(高斯抖动)

为了确保没人注意到这个信号,攻击者用一层厚厚的、毛茸茸的静电噪声毯(称为高斯抖动)将其覆盖。

  • 想象一下试图在充满白噪声的房间里听到耳语。
  • 攻击者在配方中加入了如此多的随机“静电”,以至于后门那微小的“耳语”被淹没在噪声中。
  • 对于人类或计算机扫描器来说,配方看起来和往常一样。这种噪声使得后门看起来只是原料中另一种随机的波动。

3. 数学魔术

这篇论文使用了密码学中的一个概念,称为稀疏主成分分析(Sparse PCA)

  • 类比:想象有人在一个装有 100 万颗蓝色弹珠的桶里藏了一颗红色弹珠。
  • 困难之处:如果你被告知红色弹珠被藏起来了,但你不知道它在哪里,而且桶还在摇晃(即噪声),那么要在短时间内找到那颗红色弹珠在数学上是不可能的。
  • 主张:作者证明,找到他们的后门就像找到那颗单独的红色弹珠一样困难。这不仅仅是“困难”;对于任何计算机而言,在合理的时间内解决它都是计算上不可能的。

他们实际测试的内容

研究人员不仅仅是在谈论理论;他们构建了模型并在真实的人工智能模型上进行了测试。

  • 模型:他们在三种类型的人工智能大脑上进行了测试:标准卷积网络(像一只基础的眼睛)、ResNet(一只更深、更复杂的眼睛)以及 Vision Transformer(一只非常先进、现代的眼睛)。
  • 数据集:他们使用了三组不同的图片:CIFAR-10(玩具图像)、SVHN(房屋号码)和 GTSRB(交通标志)。
  • 结果
    • 成功:当他们加入“魔法粉尘”(触发器)时,人工智能有**93% 到 99%**的概率正确地将其回答改为攻击者选定的目标。
    • 隐蔽性:他们使用目前可用的三种最佳“检测器”工具(Neural Cleanse、FeatureRE 和 UNICORN)对模型进行了测试。
    • 结果:检测器完全被愚弄了。它们区分干净模型和带后门模型的能力,并不比抛硬币猜测更好。

“干净参考”技巧

这篇论文最精彩的部分之一是他们如何证明后门是不可检测的。
通常,为了证明某物是隐藏的,你会将其与一个“干净”的版本进行比较。但预训练模型并没有一个标准的“干净”版本可供比较。

作者创建了一个伪造的干净版本

  1. 他们取出了原始模型。
  2. 他们只添加了“噪声毯”(没有后门信号)。
  3. 他们在数学上证明了这种“仅含噪声”的模型行为与原始干净模型完全相同
  4. 然后,他们展示了“仅含噪声”模型与“后门”模型之间的唯一区别,就是那颗微小的、隐藏的红色弹珠。
  5. 既然找到那颗红色弹珠在数学上是不可能的,那么找到后门也是不可能的。

结论:战略的转变

这篇论文为人工智能安全界带来了一个令人清醒的信息:

“仅仅更加努力地寻找,我们无法获胜。”

由于后门是利用数学方法隐藏的,使得其无法被发现,因此旧的策略——“扫描模型,找出坏人,并将其移除”——针对这种类型的攻击从根本上来说是失效的。

作者建议,我们需要停止尝试发现后门,转而开始尝试中和它。我们不应该去寻找那颗红色弹珠,而是需要改变游戏规则,这样即使红色弹珠存在,它也不起作用(例如,通过以某种方式重新训练模型来洗掉信号,尽管论文指出这种方法并不一致)。

简而言之:这篇论文证明,你可以将一个秘密开关隐藏得如此完美,以至于即使你手中拿着开关,面前放着人工智能,你也无法证明开关的存在。这迫使安全界改变他们保护人工智能模型的方式。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →