RaPA: Enhancing Transferable Targeted Attacks via Random Parameter Pruning

本文针对现有迁移式目标攻击成功率低的问题,提出了一种无需训练的随机参数剪枝攻击(RaPA)方法,通过在优化过程中随机剪枝模型参数来生成多样化的代理模型变体,从而缓解对特定参数的过度依赖并显著提升跨架构(如从 CNN 到 Transformer)的攻击迁移成功率。

Tongrui Su, Qingbin Li, Shengyu Zhu, Wei Chen, Xueqi Cheng

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 RaPA(随机参数剪枝攻击)的新方法,旨在让 AI 模型的“欺骗”变得更加容易和有效。

为了让你轻松理解,我们可以把整个过程想象成**“制造一把万能钥匙”**的故事。

1. 背景:什么是“对抗样本”?

想象一下,你有一个非常聪明的AI 保安(目标模型),它负责识别图片。

  • 正常情况:它看到一只猫,会说“这是猫”。
  • 对抗攻击:黑客给图片加了一点点人眼看不见的“噪点”(就像在猫脸上贴了一层极薄的隐形贴纸),AI 保安就会晕头转向,大喊“这是一辆坦克!”。

“迁移攻击”(Transfer-based Attack) 是黑客的一种策略:
黑客自己先训练了一个**“替身保安”(代理模型),在这个替身身上反复试验,造出了那把能骗过替身的“万能钥匙”(对抗样本)。然后,黑客希望这把钥匙不仅能骗过替身,还能直接骗过真正的目标保安**(黑盒模型),而黑客根本不知道目标保安长什么样。

2. 问题:为什么以前的钥匙不好用?

以前的黑客在造钥匙时,发现了一个大问题:过度依赖

  • 比喻:以前的黑客在研究替身保安时,发现只要按住替身保安大脑里的某几个特定的神经元(比如第 3 号和第 5 号),他就能让保安晕倒。于是,他造出的钥匙是专门针对这几个神经元的“定制锁”。
  • 后果:当这把钥匙拿去开真正的目标保安的门时,发现目标保安的大脑结构不一样(第 3 号和第 5 号神经元可能根本不存在,或者位置不同)。结果,钥匙插进去,门打不开。
  • 论文发现:现有的方法生成的攻击样本,太依赖代理模型里的一小部分“关键参数”了。这就像钥匙只认得特定的锁孔,换一家店(换一种模型)就废了。

3. 解决方案:RaPA(随机参数剪枝攻击)

RaPA 的核心思想是:“别只盯着那几个关键神经元,要让钥匙适应所有可能的锁孔。”

  • 具体做法
    在制造钥匙的过程中,RaPA 不再固定地研究替身保安的完整大脑。相反,它在每一次尝试时,都随机地“蒙住”一部分神经元(随机剪枝参数),假装这些神经元不存在。

    • 第一次尝试:蒙住第 1、10、50 号神经元,造一把钥匙。
    • 第二次尝试:蒙住第 2、9、51 号神经元,再造一把钥匙。
    • 第三次尝试:蒙住第 3、11、52 号神经元……
  • 为什么要这样做?
    这就好比黑客在训练一个**“盲眼保安团队”。因为每次都有随机的人被蒙住眼睛,黑客被迫不能只依赖那几个“超级神经元”,而必须学会利用整个大脑的协作**来制造钥匙。

    这样造出来的钥匙,不再依赖特定的几个点,而是利用了整体结构。无论目标保安的大脑结构怎么变,只要它也是由神经元组成的,这把“通用钥匙”就能起作用。

  • 理论解释(简单版)
    论文证明,这种“随机蒙眼”的操作,在数学上等同于给钥匙加了一个**“平均化调节器”**。它强迫攻击者把“功劳”均匀地分摊给所有神经元,而不是让少数几个神经元独揽大权。

4. 效果:这把新钥匙有多厉害?

论文做了大量实验,把 RaPA 制造的钥匙拿去攻击各种各样的模型(有的像传统的 CNN 网络,有的像最新的 Transformer 网络)。

  • 跨架构攻击:以前,用 CNN 模型造的钥匙去攻击 Transformer 模型,成功率很低(就像用开老式门锁的钥匙去开智能门锁)。RaPA 让这种跨类型的攻击成功率提升了**11.7%**以上。
  • 无需训练:RaPA 不需要重新训练模型,也不需要复杂的计算,就像给现有的攻击方法加了一个“随机蒙眼”的插件,简单又高效。
  • 越练越强:如果给黑客更多的计算资源(更多的尝试次数),RaPA 的效果提升得比其他方法都快。

5. 总结

RaPA 就像是一个聪明的“盲盒训练师”

以前的攻击方法像是在背“标准答案”,只记住了几个特定的解题步骤,换个题目(模型)就不会做了。
RaPA 则强迫 AI 在训练时随机遮住一部分解题步骤,迫使它学会通用的解题逻辑

结果就是,它造出的“万能钥匙”不再依赖特定的锁孔,而是能灵活适应各种不同结构的门锁,极大地提高了欺骗不同 AI 模型的成功率。这对于研究 AI 的安全性(如何防止被欺骗)和增强 AI 的防御能力(如何不被骗)都具有重要意义。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →