Aggressive or Imperceptible, or Both: Network Pruning Assisted Hybrid Byzantines in Federated Learning

本文提出了一种针对联邦学习的混合稀疏拜占庭攻击,该攻击将基于敏感性的参数操纵与缓慢累积的投毒相结合,通过利用神经网络架构而非依赖统计异常检测,有效绕过最先进的防御机制。

原作者: Emre Ozfatura, Kerem Ozfatura, Baturalp Buyukates, Mert Coskuner, Alptekin Kupcu, Deniz Gunduz

发布于 2026-05-07
📖 1 分钟阅读☕ 轻松阅读

原作者: Emre Ozfatura, Kerem Ozfatura, Baturalp Buyukates, Mert Coskuner, Alptekin Kupcu, Deniz Gunduz

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

想象一个庞大的协作艺术项目,成千上万名艺术家(称为“客户端”)试图共同创作一幅完美的杰作,却从不向任何人展示他们的私人草图。他们将各自的笔触发送给一位中央策展人(即“服务器”),由策展人将所有笔触混合,生成画作的下一个版本。这就是联邦学习

问题在于:其中一些艺术家实际上是破坏者(称为“拜占庭节点”)。他们想要毁掉这幅画。但关键在于:策展人无法核查每一位艺术家的身份,而且艺术家们使用的是不同的风格和材料。如果破坏者只是到处泼洒鲜红的颜料,策展人会立刻识破并将他们驱逐。

本文提出了一种新的、隐蔽的破坏方式,使破坏者能在不被察觉的情况下毁掉画作。他们将其称为混合稀疏攻击(HSA)

以下是其工作原理,分解为简单概念:

1. 旧方法:“慢毒”与“重锤”

以往的破坏者主要有两种策略,但两者都存在缺陷:

  • 慢毒(如 ALIE 攻击):他们对画作进行微小、几乎难以察觉的改动。虽然极难被发现,但破坏速度慢且力度弱。这就像往一大锅汤里滴入一滴毒药;汤的味道仍然基本正常。
  • 重锤:他们进行巨大而明显的改动。这能迅速毁掉画作,但策展人会立刻发现异常信号,并将破坏者踢出。

本文认为,使用旧方法无法同时兼顾速度与隐蔽性。

2. 新诡计:“狙击手与幽灵”

作者意识到,画作的并非所有部分都同等重要。某些笔触(即神经网络权重)对画面的结构至关重要,而其他笔触则只是背景噪音。他们还意识到,如果干扰的是“正确”的位置,就不需要干扰“所有”位置。

他们的新攻击将两种战术合二为一:

  • 幽灵(隐蔽部分):他们对画作的大部分区域进行微小、不可见的改动。这让策展人觉得:“嘿,这看起来很正常。”
  • 狙击手(激进部分):他们识别出画作中特定且最敏感的“关键层”(例如眼睛或面部)。在这些特定位置,他们施加巨大的破坏。

类比:想象一名保安正在检查人群。

  • 如果人群中的每个人都戴着略有不同的帽子,保安就无法分辨谁是间谍。
  • “幽灵”部分确保间谍融入人群的整体氛围。
  • “狙击手”部分则是间谍在保安恰好移开视线的瞬间,悄悄将保安的枪换成香蕉。保安的其他装备看起来一切正常,因此直到为时已晚,保安都不会产生怀疑。

3. 利用“蓝图”(架构感知)

以往大多数攻击都是“盲目”的。他们随机泼洒颜料,希望击中某些重要部分。

这种新攻击是智能的。它审视神经网络的“蓝图”(即架构)。它确切地知道哪些层是“敏感”的(例如网络末端的 fully connected 层),哪些是“关键”的(例如批归一化层)。

  • 它使用一种剪枝技术(通常用于缩小 AI 模型并提升速度)来寻找网络中最脆弱的部位。
  • 它将“狙击手”式的破坏集中施加在这些脆弱部位,同时保持网络其余部分看起来像是经过“剪枝”且正常的。

4. 结果:杰作化为废墟

作者将这种攻击针对八种目前被认为是世界顶尖的“保安”(防御机制)进行了测试。

  • 在正常、有序的数据组(IID 数据)中:他们的攻击将最终画作的质量降低了高达55%
  • 在混乱、无序的数据组(Non-IID 数据)中:攻击效果如此显著,导致画作彻底崩溃,准确率降至接近10%(这基本上等同于随机猜测)。

即便是最先进的“保安”,通常通过寻找统计异常或测量更新之间的距离来识破破坏者,也被愚弄了。这种攻击既强大到足以破坏模型,又足够“稀疏”以在众目睽睽之下隐藏。

核心结论

本文声称,当前协作 AI 的安全系统之所以存在漏洞,是因为它们未能理解其所保护的 AI 的内部结构。通过利用 AI 自身的“蓝图”来寻找弱点并进行外科手术式攻击,破坏者可以同时做到激进(造成巨大破坏)和不可感知(在众目睽睽之下隐藏)。

作者总结道,这是首次有攻击成功利用网络自身的架构来指导其破坏行为,从而创造出一种针对几乎所有已知防御机制的“通用”威胁。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →