PA-Attack: Guiding Gray-Box Attacks on LVLM Vision Encoders with Prototypes and Attention

本文提出了 PA-Attack 方法,通过原型锚定引导和两阶段注意力增强机制,有效解决了大视觉语言模型(LVLM)在灰盒设置下跨任务攻击泛化性差的问题,实现了高效的攻击效果。

Hefei Mei, Zirui Wang, Chang Xu, Jianyuan Guo, Minjing Dong

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 PA-Attack 的新方法,它就像是一个专门针对“大型视觉 - 语言模型”(LVLM)的**“高智商黑客”**。

为了让你轻松理解,我们可以把 LVLM 想象成一个**“超级翻译官”**,它由两部分组成:

  1. 眼睛(视觉编码器):负责看图,把图片变成它懂的数据。
  2. 大脑(大语言模型):负责思考,根据眼睛看到的东西回答问题或写文章。

现在的 AI 很聪明,但也很脆弱。以前的黑客攻击要么需要“全知全能”(白盒攻击,能看到所有代码,很难实现),要么像“盲人摸象”(黑盒攻击,乱试乱撞,效率低且容易被发现)。

PA-Attack 的厉害之处,在于它找到了一个完美的“中间地带”(灰盒攻击),并用了两个绝招:

绝招一:找“反面教材”当向导(原型锚定引导)

以前的攻击像什么?
想象你要让一个翻译官把“猫”翻译成“狗”。以前的黑客只是拼命把图片里的猫涂改,试图让翻译官认不出这是猫。结果往往是,翻译官虽然认不出猫了,但也没法把猫认成狗,或者只认出了猫身上的某个小斑点(比如胡须),导致攻击不够全面,换个问题就不灵了。

PA-Attack 怎么做?
它不瞎涂改。它先找了一堆**“跟猫完全不像的东西”(比如石头、云朵、汽车),把它们打包成一个“反面教材库”(原型)。
然后,它指导黑客:“别只盯着猫的胡须改,你要把这张图改得
尽可能像‘石头’或‘云朵’**,越不像猫越好!”

  • 比喻:这就好比你想让一个学生考砸,以前的方法是让他做错题;PA-Attack 的方法是给他一本《完全错误的解题指南》,让他照着指南去“反向操作”,这样他不仅会做错这道题,做所有类似的题都会错。这保证了攻击的通用性

绝招二:给“注意力”装上聚光灯(注意力增强机制)

以前的攻击像什么?
想象你在一张复杂的地图上画干扰线。以前的黑客不管地图哪里重要,到处乱画。结果,重要的路标没被遮住,反而把没用的草地涂黑了,浪费力气。

PA-Attack 怎么做?
它分两步走,像是一个**“两步走”的战术**:

  1. 第一步(初步聚焦):它先看看 AI 的“眼睛”在看哪里。AI 看图片时,注意力会集中在关键物体上(比如猫的脸)。PA-Attack 就先把这些关键区域涂黑,让 AI 看不清重点。
  2. 第二步(动态调整):随着攻击进行,AI 的“眼睛”会乱跑,开始看一些奇怪的地方(比如背景)。PA-Attack 会实时观察,发现 AI 的注意力跑偏了,就立刻调整聚光灯,把干扰线加到 AI 现在最看重的地方。
  • 比喻:这就像打靶。先瞄准靶心(关键 Token),打几枪后,发现靶子动了,立刻调整瞄准镜,继续打它现在最在意的地方。这样每一分力气都花在刀刃上,效率极高。

战果如何?

论文里的实验显示,PA-Attack 非常强大:

  • 效率高:它不需要巨大的破坏力(扰动很小,人眼几乎看不出来),就能让 AI 彻底“失智”。
  • 通用性强:不管 AI 是让你“看图说话”(写描述),还是“看图答题”(问猫是什么颜色),它都能让 AI 答非所问。
  • 数据亮眼:在测试中,它平均能让 AI 的得分下降 75%。也就是说,原本能考 100 分的 AI,被它一攻击,只能考 25 分。

总结

简单来说,PA-Attack 就是告诉黑客们:

“别再去硬碰硬或者瞎蒙了。我们要利用 AI 的‘眼睛’(视觉编码器)是通用的这个弱点,先找一个完全相反的目标(原型)来误导它,再盯着它最在意的地方(注意力)精准打击。这样,不管 AI 换什么任务,它都会变得‘眼瞎心盲’。”

这项研究提醒我们,虽然现在的多模态 AI 很强大,但它们共享的“视觉眼睛”其实是一个巨大的安全漏洞,我们需要赶紧给这些“眼睛”穿上更坚固的防弹衣。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →