原作者： Sarthak Choudhary, Atharv Singh Patlan, Nils Palumbo, Ashish Hooda, Kassem Fawaz, Somesh Jha

发布于 2026-05-07

📖 1 分钟阅读☕ 轻松阅读

原作者： Sarthak Choudhary, Atharv Singh Patlan, Nils Palumbo, Ashish Hooda, Kassem Fawaz, Somesh Jha

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

以下是用通俗易懂的语言和富有创意的类比，对论文《模型参数中的不可检测后门》进行的解读。

宏观图景：人工智能的“特洛伊木马”

想象一下，你从一家著名面包店（比如 Hugging Face）购买了一款高端预制蛋糕，准备用于自己的派对。你信任这家面包店，但如果一名恶意的面包师在蛋糕的配方中偷偷塞进了一个微小且隐形的开关呢？

正常行为：当你正常吃下一块蛋糕时，它味道完美。
后门：如果你在蛋糕上撒上一小撮特定的“魔法粉尘”（即触发器），它会突然变成完全不同的味道（例如，尝起来像西兰花而不是巧克力），尽管在你看来配方似乎没有任何变化。

这篇论文介绍了一种新的、令人恐惧且极其巧妙的植入这些“魔法粉尘”开关到人工智能模型中的方法。可怕之处在于？即使你手中握有整本配方书，你也无法找到这个开关。

问题所在：“猫鼠游戏”

多年来，安全专家（防御者）与恶意行为者（攻击者）一直在进行一场猫鼠游戏。

攻击者试图隐藏他们的开关。
防御者构建工具来扫描配方书，寻找可疑的原料或奇怪的模式。
循环：每当防御者构建出更好的扫描器时，攻击者就会学会更好地隐藏开关。

直到现在，每当攻击者声称他们的开关是“不可检测”的，防御者最终总能找到方法将其识破。但这篇论文声称已经打破了这一循环。

解决方案：“稀疏后门”

作者创造了一种名为**稀疏后门（Sparse Backdoor）**的攻击。以下是其工作原理，使用了一个比喻：

1. 秘密信号（稀疏方向）

想象一个拥有数百万本书籍的巨大图书馆（即人工智能的大脑）。攻击者想要改变某个特定故事的结局。他们不是重写整个图书馆，而是选择一个特定的、隐蔽的过道（即“稀疏方向”），那里很少有人会去查看。

他们在那个过道里植入了一个微小的信号。如果你走过那个过道，信号就会被激活；如果你去任何其他地方，什么都不会发生。由于信号被隐藏在巨大图书馆中如此微小且随机的角落里，因此极难被发现。

2. “噪声”毯子（高斯抖动）

为了确保没人注意到这个信号，攻击者用一层厚厚的、毛茸茸的静电噪声毯（称为高斯抖动）将其覆盖。

想象一下试图在充满白噪声的房间里听到耳语。
攻击者在配方中加入了如此多的随机“静电”，以至于后门那微小的“耳语”被淹没在噪声中。
对于人类或计算机扫描器来说，配方看起来和往常一样。这种噪声使得后门看起来只是原料中另一种随机的波动。

3. 数学魔术

这篇论文使用了密码学中的一个概念，称为稀疏主成分分析（Sparse PCA）。

类比：想象有人在一个装有 100 万颗蓝色弹珠的桶里藏了一颗红色弹珠。
困难之处：如果你被告知红色弹珠被藏起来了，但你不知道它在哪里，而且桶还在摇晃（即噪声），那么要在短时间内找到那颗红色弹珠在数学上是不可能的。
主张：作者证明，找到他们的后门就像找到那颗单独的红色弹珠一样困难。这不仅仅是“困难”；对于任何计算机而言，在合理的时间内解决它都是计算上不可能的。

他们实际测试的内容

研究人员不仅仅是在谈论理论；他们构建了模型并在真实的人工智能模型上进行了测试。

模型：他们在三种类型的人工智能大脑上进行了测试：标准卷积网络（像一只基础的眼睛）、ResNet（一只更深、更复杂的眼睛）以及 Vision Transformer（一只非常先进、现代的眼睛）。
数据集：他们使用了三组不同的图片：CIFAR-10（玩具图像）、SVHN（房屋号码）和 GTSRB（交通标志）。
结果：
- 成功：当他们加入“魔法粉尘”（触发器）时，人工智能有**93% 到 99%**的概率正确地将其回答改为攻击者选定的目标。
- 隐蔽性：他们使用目前可用的三种最佳“检测器”工具（Neural Cleanse、FeatureRE 和 UNICORN）对模型进行了测试。
- 结果：检测器完全被愚弄了。它们区分干净模型和带后门模型的能力，并不比抛硬币猜测更好。

“干净参考”技巧

这篇论文最精彩的部分之一是他们如何证明后门是不可检测的。
通常，为了证明某物是隐藏的，你会将其与一个“干净”的版本进行比较。但预训练模型并没有一个标准的“干净”版本可供比较。

作者创建了一个伪造的干净版本。

他们取出了原始模型。
他们只添加了“噪声毯”（没有后门信号）。
他们在数学上证明了这种“仅含噪声”的模型行为与原始干净模型完全相同。
然后，他们展示了“仅含噪声”模型与“后门”模型之间的唯一区别，就是那颗微小的、隐藏的红色弹珠。
既然找到那颗红色弹珠在数学上是不可能的，那么找到后门也是不可能的。

结论：战略的转变

这篇论文为人工智能安全界带来了一个令人清醒的信息：

“仅仅更加努力地寻找，我们无法获胜。”

由于后门是利用数学方法隐藏的，使得其无法被发现，因此旧的策略——“扫描模型，找出坏人，并将其移除”——针对这种类型的攻击从根本上来说是失效的。

作者建议，我们需要停止尝试发现后门，转而开始尝试中和它。我们不应该去寻找那颗红色弹珠，而是需要改变游戏规则，这样即使红色弹珠存在，它也不起作用（例如，通过以某种方式重新训练模型来洗掉信号，尽管论文指出这种方法并不一致）。

简而言之：这篇论文证明，你可以将一个秘密开关隐藏得如此完美，以至于即使你手中拿着开关，面前放着人工智能，你也无法证明开关的存在。这迫使安全界改变他们保护人工智能模型的方式。

Each language version is independently generated for its own context, not a direct translation.

技术摘要：模型参数中的不可检测后门

问题陈述

预训练模型在公共仓库（如 Hugging Face）中的广泛采用，创造了一个供应链攻击面，使得下游消费者必须信任来自未经验证第三方的分类器。恶意提供商可以分发一个模型，该模型在干净输入上表现正常，但会将嵌入触发器的输入错误分类为攻击者选定的目标类别。

尽管参数级检测是主要的防御手段，但现有的攻击与防御已在经验性的“猫鼠游戏”循环中共同演进。此前的任何攻击都未能排除被任意高效算法检测的可能性。唯一提供形式化不可检测性保证的先前工作（Goldwasser 等人，2022）仅限于权重来自已知随机分布的单层网络，这留下了关于实践中使用的标准多层预训练分类器是否具有可证明的不可检测性的空白。

方法论：稀疏后门

作者提出了稀疏后门（Sparse Backdoor），这是一种供应链攻击，能够在预训练图像分类器（包括卷积神经网络 ConvNets 和视觉 Transformer ViTs）中植入一个可证明不可检测的后门。该攻击仅修改预训练模型的全连接（FC）层，保持特征编码器冻结。

核心机制

该攻击通过在随机选择的每个 FC 层的一小部分列中，沿随机选择的稀疏方向注入结构化的稀疏扰动来运作。这种扰动逐层传播触发信号至目标类别。为了掩盖这些扰动，攻击对修改后的权重应用独立的各向同性高斯抖动。

该过程包含三个阶段：

触发器优化：优化输入空间的触发器 $\Delta^*$ ，驱动冻结的特征编码器产生一个嵌入，该嵌入在随机选择的稀疏方向 $s_1$ 上具有较大的分量。
中间注入：对于每个隐藏 FC 层 $i$ ，攻击通过添加与稀疏方向 $s_i$ 对齐的噪声来扰动一部分列。这选择性地放大了该层输入中的后门分量，并将其中继到下一层中的新稀疏方向 $s_{i+1}$ 。
最终注入：对最后一个 FC 层进行扰动，将累积的信号路由到目标类别 $y_t$ ，确保定向误分类。

不可检测性保证

不可检测性依赖于稀疏主成分分析（Sparse PCA）检测困难性假设。

干净参考分布：由于预训练模型缺乏规范化的权重分布，作者通过仅对原始权重应用高斯抖动来定义“干净参考”模型 $f'$ 。在温和的边界条件下， $f'$ 在功能上等同于原始干净模型（它计算相同的函数且没有后门）。
归约至稀疏 PCA：后门模型 $\tilde{f}$ 与干净参考 $f'$ 之间的差异是一个隐藏在各向同性高斯噪声中的稀疏分量（即后门尖峰）。区分 $\tilde{f}$ 与 $f'$ 被证明在计算上等价于稀疏 PCA 检测问题，在标准困难性假设下（与植入团簇猜想相关），该问题被认为对概率多项式时间（PPT）算法是不可处理的。
白盒安全性：即使防御者拥有模型参数的完整白盒访问权限，该保证依然成立。

主要贡献

实用的后门攻击：这是首个针对标准多层架构（ConvNet、ResNet-18、ViT）的后门攻击，具备针对所有高效区分器的形式化不可检测性保证。
形式化白盒不可检测性：在稀疏 PCA 困难性假设下，证明了后门模型与干净分类器在计算上是不可区分的。这引入了基于边界的函数等价论证，为预训练模型建立了有效的干净参考分布。
全面的实证验证：在九种架构 - 数据集配置（CIFAR-10、SVHN、GTSRB）上进行了评估，展示了高攻击成功率，同时规避了最先进的检测方法。

实验结果

作者在三种架构（ConvNet、ResNet-18、ViT-Small）和三个数据集上评估了稀疏后门。

攻击有效性：
- 该攻击在 CIFAR-10 上的所有架构中实现了超过 93% 的攻击成功率（ASR），在 ConvNet 上达到 99.5%，在 ViT 上达到 99.6%。
- 干净准确率保持在基线 1.5 到 8.5 个百分点 的范围内。ViT 显示出最小的退化（<1.5 个百分点）。
规避检测：
- 该攻击针对三种代表性检测器进行了测试：Neural Cleanse（输入空间）、FeatureRE（特征空间）和 UNICORN（联合空间）。
- 所有配置下的平均区分优势为 0.12，接近 0.0 的随机猜测基线。
- 检测器表现不一致，经常无法区分后门模型与干净参考模型。
对缓解措施的韧性：
- 在干净数据（数据集的 1%）上进行微调被测试为一种缓解策略。
- 结果不一致：虽然微调降低了 ResNet-18 在 GTSRB 上的 ASR，但对 CIFAR-10 上的 ConvNet 和 ViT 影响微乎其微（ASR 仍保持在 >99%）。
- 干净准确率迅速恢复，造成了虚假的安全感，而后门依然存在。

意义与主张

该论文声称，当攻击基于计算困难性假设时，参数级后门检测在根本上是受限的。即使拥有对所有参数的白盒访问权限，检测稀疏后门也如同解决稀疏 PCA 问题一样困难。

因此，作者认为社区应将重点从基于检测的防御（依赖于识别伪影）转移到缓解策略，即在未首先识别后门的情况下中和后门。这项工作强调，现有的防御手段利用攻击留下的结构伪影，但在面对旨在隐藏于高维稀疏信号检测的计算困难性中的攻击时，被证明是无效的。

作者指出了局限性：目前的构造仅适用于具有 FC 预测头的架构，且不可检测性证明依赖于对正交性和边界假设的经验验证，这些假设在所有测试配置中均成立。

Undetectable Backdoors in Model Parameters: Hiding Sparse Secrets in High Dimensions