Latent Transfer Attack: Adversarial Examples via Generative Latent Spaces

该论文提出了 LTA(潜在空间转移攻击),一种通过在预训练 Stable Diffusion 的潜在空间中优化扰动并结合期望变换(EOT)与高斯平滑策略的方法,从而生成具有强迁移性、空间连贯且低频特性的对抗样本,有效克服了传统像素空间攻击在预处理鲁棒性和跨架构迁移方面的局限。

Eitan Shaar, Ariel Shaulov, Yalcin Tur, Gal Chechik, Ravid Shwartz-Ziv

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 LTA(潜在空间转移攻击) 的新方法,用来测试人工智能(AI)视觉模型的“智商”和“抗干扰能力”。

为了让你轻松理解,我们可以把整个过程想象成**“给 AI 戴上一副特殊的隐形眼镜”**。

1. 背景:以前的“笨办法”是什么?

想象一下,你想骗过一个正在看路牌的自动驾驶汽车(AI 模型),让它把“停车”标志认成“限速 45"。

  • 传统方法(像素空间攻击): 就像是一个蹩脚的画家,直接在路牌的每一个像素点上涂涂改改。他可能会在路牌上撒满像电视雪花一样的高频噪点(细细的、杂乱的线条)。
    • 缺点: 这种“噪点”非常脆弱。如果你把路牌拍得远一点(缩放)、切掉一角(裁剪),或者换个角度看,那些噪点就乱了,AI 马上就能识破。而且,这种画法只骗得过一种特定的 AI,换个 AI 就不灵了。这就像是用一种方言去骗人,对方换个方言就听不懂了。

2. 新招数:LTA 是怎么做的?

LTA 的作者们想:“既然直接在像素上乱涂乱画不行,那我们换个地方动手脚吧。”

他们利用了一个已经训练好的**“超级画师”(论文里叫 Stable Diffusion VAE 的解码器)。这个画师非常懂人类的审美,它脑子里有一个“潜在空间”(Latent Space)。你可以把这个空间想象成“路牌的灵魂蓝图”**,而不是路牌表面的油漆。

  • LTA 的做法:
    1. 不直接改路牌: 他们不直接在像素上涂改,而是去修改那个“灵魂蓝图”(潜在代码)。
    2. 利用画师的直觉: 因为“灵魂蓝图”是由那个懂审美的画师生成的,所以任何微小的修改,在画师眼里都会变成平滑、自然、低频的图像变化(比如把路牌稍微变红一点,或者把形状稍微圆润一点),而不是那种刺眼的噪点。
    3. 结果: 生成的“假路牌”看起来非常自然,就像真的路牌被稍微光照不同了一样,但 AI 却会被彻底骗过。

3. 核心技巧:两个“作弊器”

为了让这个骗术更完美,作者还加了两个“作弊器”:

  • 作弊器一:模拟各种“意外” (EOT - 变换期望)

    • 问题: 那个“超级画师”生成的图是 256x256 像素的,但自动驾驶汽车看到的可能是 224x224 像素,或者被裁剪过。如果只针对一种尺寸优化,换个尺寸就失效了。
    • 解决: 在训练骗术时,LTA 会随机把路牌放大、缩小、旋转、裁剪,就像在模拟各种真实的拍摄场景。它强迫生成的“假路牌”必须无论怎么被折腾,都能骗过 AI。这就像练武时,不仅要练正拳,还要练在被人推搡、在泥地里、在黑暗中都能出拳。
  • 作弊器二:定期“熨烫” (周期性平滑)

    • 问题: 在修改“灵魂蓝图”的过程中,可能会不小心产生一些奇怪的、不自然的微小瑕疵(高频伪影)。
    • 解决: 作者每隔几步就对这个蓝图进行“熨烫”(高斯平滑),把那些不自然的毛刺抹平,只保留整体的结构。这确保了生成的图像既具有欺骗性,又看起来非常自然。

4. 为什么这个方法这么厉害?

论文通过大量实验证明,LTA 比以前的方法强得多:

  • 跨模型通杀: 以前的方法骗过 CNN(一种 AI 架构)后,骗不过 ViT(另一种 AI 架构)。但 LTA 生成的“假路牌”因为抓住了通用的、低频的特征(就像抓住了路牌的核心形状和颜色),所以无论是哪种 AI,都很难识破。
    • 比喻: 以前的骗术是“方言”,LTA 的骗术是“普通话”,谁都能听懂。
  • 防御无效: 很多防御手段(比如“去噪”)擅长去除那些像雪花一样的噪点。但 LTA 产生的变化太自然、太像真的了,防御手段很难把它和真正的图像区分开,就像很难把“高仿真的假钞”和“真钞”分开一样。
  • 人眼难辨: 在用户测试中,人类很难看出 LTA 生成的图片是被修改过的,而以前的方法很容易被看出来。

5. 总结

这篇论文的核心思想就是:不要直接在表面(像素)上跟 AI 对抗,那样太粗糙、太容易被识破。要去修改 AI 理解的“深层结构”(潜在空间),利用生成式 AI 的审美能力,制造出既自然又具有欺骗性的“完美假象”。

这就好比,以前想骗过守卫,是往他眼睛里撒沙子(像素噪点);现在的方法是,你直接给他看一个逼真的全息投影(潜在空间优化),让他以为那是真的,而且无论你怎么晃动这个投影,他都会信以为真。