原作者： Emre Ozfatura, Kerem Ozfatura, Baturalp Buyukates, Mert Coskuner, Alptekin Kupcu, Deniz Gunduz

发布于 2026-05-07

📖 1 分钟阅读☕ 轻松阅读

原作者： Emre Ozfatura, Kerem Ozfatura, Baturalp Buyukates, Mert Coskuner, Alptekin Kupcu, Deniz Gunduz

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

想象一个庞大的协作艺术项目，成千上万名艺术家（称为“客户端”）试图共同创作一幅完美的杰作，却从不向任何人展示他们的私人草图。他们将各自的笔触发送给一位中央策展人（即“服务器”），由策展人将所有笔触混合，生成画作的下一个版本。这就是联邦学习。

问题在于：其中一些艺术家实际上是破坏者（称为“拜占庭节点”）。他们想要毁掉这幅画。但关键在于：策展人无法核查每一位艺术家的身份，而且艺术家们使用的是不同的风格和材料。如果破坏者只是到处泼洒鲜红的颜料，策展人会立刻识破并将他们驱逐。

本文提出了一种新的、隐蔽的破坏方式，使破坏者能在不被察觉的情况下毁掉画作。他们将其称为混合稀疏攻击（HSA）。

以下是其工作原理，分解为简单概念：

1. 旧方法：“慢毒”与“重锤”

以往的破坏者主要有两种策略，但两者都存在缺陷：

慢毒（如 ALIE 攻击）：他们对画作进行微小、几乎难以察觉的改动。虽然极难被发现，但破坏速度慢且力度弱。这就像往一大锅汤里滴入一滴毒药；汤的味道仍然基本正常。
重锤：他们进行巨大而明显的改动。这能迅速毁掉画作，但策展人会立刻发现异常信号，并将破坏者踢出。

本文认为，使用旧方法无法同时兼顾速度与隐蔽性。

2. 新诡计：“狙击手与幽灵”

作者意识到，画作的并非所有部分都同等重要。某些笔触（即神经网络权重）对画面的结构至关重要，而其他笔触则只是背景噪音。他们还意识到，如果干扰的是“正确”的位置，就不需要干扰“所有”位置。

他们的新攻击将两种战术合二为一：

幽灵（隐蔽部分）：他们对画作的大部分区域进行微小、不可见的改动。这让策展人觉得：“嘿，这看起来很正常。”
狙击手（激进部分）：他们识别出画作中特定且最敏感的“关键层”（例如眼睛或面部）。在这些特定位置，他们施加巨大的破坏。

类比：想象一名保安正在检查人群。

如果人群中的每个人都戴着略有不同的帽子，保安就无法分辨谁是间谍。
“幽灵”部分确保间谍融入人群的整体氛围。
“狙击手”部分则是间谍在保安恰好移开视线的瞬间，悄悄将保安的枪换成香蕉。保安的其他装备看起来一切正常，因此直到为时已晚，保安都不会产生怀疑。

3. 利用“蓝图”（架构感知）

以往大多数攻击都是“盲目”的。他们随机泼洒颜料，希望击中某些重要部分。

这种新攻击是智能的。它审视神经网络的“蓝图”（即架构）。它确切地知道哪些层是“敏感”的（例如网络末端的 fully connected 层），哪些是“关键”的（例如批归一化层）。

它使用一种剪枝技术（通常用于缩小 AI 模型并提升速度）来寻找网络中最脆弱的部位。
它将“狙击手”式的破坏集中施加在这些脆弱部位，同时保持网络其余部分看起来像是经过“剪枝”且正常的。

4. 结果：杰作化为废墟

作者将这种攻击针对八种目前被认为是世界顶尖的“保安”（防御机制）进行了测试。

在正常、有序的数据组（IID 数据）中：他们的攻击将最终画作的质量降低了高达55%。
在混乱、无序的数据组（Non-IID 数据）中：攻击效果如此显著，导致画作彻底崩溃，准确率降至接近10%（这基本上等同于随机猜测）。

即便是最先进的“保安”，通常通过寻找统计异常或测量更新之间的距离来识破破坏者，也被愚弄了。这种攻击既强大到足以破坏模型，又足够“稀疏”以在众目睽睽之下隐藏。

核心结论

本文声称，当前协作 AI 的安全系统之所以存在漏洞，是因为它们未能理解其所保护的 AI 的内部结构。通过利用 AI 自身的“蓝图”来寻找弱点并进行外科手术式攻击，破坏者可以同时做到激进（造成巨大破坏）和不可感知（在众目睽睽之下隐藏）。

作者总结道，这是首次有攻击成功利用网络自身的架构来指导其破坏行为，从而创造出一种针对几乎所有已知防御机制的“通用”威胁。

Each language version is independently generated for its own context, not a direct translation.

技术摘要：激进、隐蔽，或二者兼得：联邦学习中的架构感知混合拜占庭攻击

问题陈述

联邦学习（FL）使得在分布式客户端之间进行协作模型训练成为可能，而无需共享原始数据。然而，无法在大规模上对每个客户端进行画像和验证，引入了一个关键的安全漏洞：拜占庭攻击。恶意客户端可以提交被投毒的模型更新，以降低全局模型的准确率或导致其发散。

现有的防御机制主要依赖异常检测，将恶意更新视为基于几何距离或索引统计的统计异常。这些防御通常假设神经网络的内部结构与攻击策略无关。相反，现有的攻击策略（如 ALIE、IPM）通常忽略目标神经网络的具体架构，转而专注于梯度的统计操纵。本文认为，当前的防御之所以存在漏洞，是因为它们未能考虑特定网络权重的敏感性和模型的拓扑结构，这使得攻击者能够制造出既高效又难以检测的扰动。

方法论：混合稀疏拜占庭攻击（HSA）

作者提出了一种名为混合稀疏拜占庭攻击（HSA）的新型攻击框架。与以往“架构无关”的方法不同，HSA 明确利用有关神经网络架构的侧信息来指导扰动设计。该攻击结合了两个协调的组件，以平衡隐蔽性（逃避检测）和强度（最大化破坏）：

稀疏激进组件：
- 该组件针对一小部分经过精心挑选的网络参数（权重），这些参数被识别为对扰动高度敏感。
- 它利用网络剪枝框架（具体为FORCE算法）来识别这些关键权重。作者认为，类似于剪枝识别非关键权重，剩余的“敏感”权重是攻击最具影响力的目标。
- 通过将巨大的扰动预算（ $z_2$ ）集中在这些稀疏位置上，该攻击在最小化全局偏差的同时实现了高破坏力。
密集隐蔽组件：
- 该组件模仿ALIE攻击的行为，在大部分参数上施加微小且一致的扰动（ $z_1$ ）。
- 其设计旨在逃避基于索引的异常检测，并在不触发基于几何距离的防御的情况下随时间累积误差。

混合策略：
最终的对抗性更新是这两个组件的总和： $\Delta_t = \Delta_{1,t} + \Delta_{2,t}$ 。

静态与动态： 作者引入了静态版本（固定缩放系数）和动态 HSA（DHSA），后者在每次迭代中优化隐蔽组件的缩放系数，以在保持低于聚合器检测阈值的同时最大化扰动。
层约束： 为了防止因扰动分布不均（例如过度集中在全连接层）而导致攻击可见，作者在掩码生成过程中施加了层稀疏约束。这确保了非零扰动在网络拓扑中分布更加均匀。

主要贡献

架构感知攻击设计： 这项工作首次明确利用目标神经网络的架构特征（特别是通过剪枝识别敏感权重）来指导拜占庭攻击的设计。
混合稀疏攻击（HSA）： 引入了一种双组件攻击策略，同时针对基于索引统计防御的漏洞（通过密集组件）和基于几何距离的防御（通过稀疏、高幅值组件）。
层稀疏约束： 证明了在特定网络层（例如限制全连接层的稀疏性）上对稀疏掩码的分布施加约束，能显著增强攻击对 GAS 等分层防御机制的鲁棒性。
综合评估： 在各种神经网络架构（ResNet-20、CNN、MLP）、数据集（CIFAR-10、F-MNIST、MNIST）和数据分布（IID 和非 IID）下，针对八种最先进防御机制进行了广泛的模拟。

实验结果

所提出的 HSA 和 DHSA 框架针对包括Bulyan、Centered Clipping (CC)、Coordinate-wise Median (CM)、Multi-Krum、Robust Federated Averaging (RFA)、Trimmed Mean (TM) 和 GAS在内的鲁棒聚合器进行了评估。

IID 设置下的性能：
- HSA 将测试准确率降低至针对 M-Krum 的15.5%，针对 CC 的39.6%，显著优于基线攻击（如 ALIE，其针对 M-Krum 的准确率约为 55%）。
- 动态版本（DHSA）取得了最佳整体性能，将八个聚合器的平均测试准确率降低至**38%以下，并使表现最佳的聚合器保持在55%**以下。
非 IID 设置下的性能：
- 该攻击在异构数据场景中甚至更为有效。带有层约束的 HSA 在许多情况下导致全局模型完全发散，将测试准确率平均降低至9.2%。
- 针对 TM 和 RFA 等特定聚合器，该攻击将准确率降低至10%（随机猜测水平）。
与其他攻击的比较：
- 在所有测试的防御机制中，HSA 始终优于或持平于表现最佳的现有攻击（ALIE、ROP、Min-Sum、Min-Max）。
- 研究强调，虽然静态攻击在某些防御面前表现挣扎，但 DHSA 中缩放系数的动态适应使其能够有效绕过这些防御。

意义与主张

本文声称，对于投毒攻击而言，严格的隐蔽性并非总是必要的。通过在特定于架构的敏感权重上，以牺牲少量隐蔽性为代价换取显著增加的扰动强度，该攻击实现了更优的权衡。

作者强调，当前的防御机制之所以存在漏洞，是因为它们将模型更新视为黑盒向量，而忽略了神经网络的内部拓扑。通过揭示有关网络架构的侧信息（特别是源自剪枝的权重敏感性）可用于制造“更强但更不易察觉”的攻击，本文突显了当前联邦学习安全研究中的一个关键差距。

该工作得出结论，通过结合正交策略（稀疏激进和密集隐蔽）并利用架构先验，可以实现普遍有效的拜占庭攻击。这挑战了现有鲁棒聚合器提供足够安全性的假设，并呼吁进一步研究能够考虑其所保护模型结构特性的防御机制。

Aggressive or Imperceptible, or Both: Network Pruning Assisted Hybrid Byzantines in Federated Learning