Hierarchical Refinement of Universal Multimodal Attacks on Vision-Language Models

本文提出了一种名为 HRA 的通用多模态攻击框架,通过利用梯度的时间层级优化图像扰动并基于句子层级重要性建模文本扰动,有效解决了现有视觉语言模型对抗攻击样本特异性强、泛化能力差的问题。

Peng-Fei Zhang, Zi Huang

发布于 2026-02-18
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 HRA(分层细化攻击) 的新方法,旨在测试和“黑入”一种非常智能的 AI 系统——视觉 - 语言模型(VLP)

为了让你轻松理解,我们可以把这篇论文的核心内容想象成一场**“超级黑客与智能保安”的较量**。

1. 背景:什么是视觉 - 语言模型(VLP)?

想象一下,现在的 AI 像是一个博学的图书管理员

  • 你给它看一张图片(比如一只猫在草地上),它能立刻告诉你:“这是一只猫在草地上。”
  • 你给它看一段文字(比如“夕阳下的海滩”),它能立刻在数据库里找到最匹配的照片。
    这种既能“看”又能“读”的 AI,就是 VLP 模型。它们现在非常流行,应用在很多地方,比如自动给照片写标题、根据文字搜图等。

2. 问题:现有的“黑客”太笨了

为了测试这个图书管理员是否足够聪明(鲁棒性),安全专家会尝试用“黑客手段”欺骗它。

  • 旧方法(样本级攻击): 以前的黑客是“一对一”的。每遇到一个新的图片,黑客就要花大量时间专门针对这张图制造一个“迷魂药”(扰动)。
    • 比喻: 就像你要骗过 1000 个不同的人,你得给每个人单独写一封不同的假信。这太累了,而且一旦换了新的人(新数据),之前的信就没用了,得重新写。
  • 现有通用攻击的缺陷: 虽然有人尝试制造“万能迷魂药”(通用对抗扰动),但效果不好。
    • 图片方面: 容易“钻牛角尖”,只骗得过训练它的那个特定模型,换个模型就失效了(过拟合)。
    • 文字方面: 以前的方法要么需要查字典(依赖预设词库),要么改词改得很生硬,容易被发现。

3. 解决方案:HRA(分层细化攻击)

这篇论文提出的 HRA,就像是一个拥有“上帝视角”和“读心术”的超级黑客。它不再针对单张图片或单句话,而是制造一种通用的、能骗过几乎所有同类 AI 的“迷魂药”

它有两个核心绝招:

绝招一:给图片的“未来预知”能力(针对图片)

  • 原理: 以前的黑客在修改图片时,只盯着“过去”的修改痕迹,容易走进死胡同(陷入局部最优解)。
  • HRA 的做法: 它引入了**“未来感知动量”**。
    • 比喻: 想象你在走迷宫找出口。普通黑客只看脚下的路(历史梯度),容易撞墙。HRA 不仅看脚下的路,还**“预知”了未来几步可能会怎么走**(未来梯度)。它把“过去的经验”和“未来的预测”结合起来,指导自己走出一条更顺畅、更不容易撞墙的路。
    • 效果: 这样生成的“迷魂药”更通用,不管换哪个 AI 模型,都能骗过它。

绝招二:给文字的“抓重点”能力(针对文字)

  • 原理: 文字是离散的(字与字之间不能像图片像素那样微调),直接改字很难。
  • HRA 的做法: 它采用**“分层重要性建模”**。
    • 比喻: 想象你要在一篇文章里偷偷改一个字来误导 AI。
      1. 句内分析(Intra-sentence): 先看这一句话里,哪个词最关键?(比如把“猫”改成“狗”影响很大,把“的”改成“地”影响很小)。
      2. 句间分析(Inter-sentence): 再看整篇文章里,哪个词是“灵魂人物”?
    • HRA 会像侦探一样,找出那些一旦替换就能让 AI 彻底懵圈的“关键单词”,然后用这些词作为通用的“万能替换符”。
    • 效果: 不需要查字典,直接从训练数据里找出最管用的词,既隐蔽又高效。

4. 实验结果:它有多强?

作者把 HRA 放在了很多不同的场景下测试(比如让 AI 看图说话、根据文字找图、在图里找物体等):

  • 跨模型攻击: 用 HRA 在 A 模型上训练出来的“迷魂药”,拿去攻击 B、C、D 模型,依然非常有效。
  • 跨任务攻击: 在“找图”任务上练出来的攻击,拿去攻击“写标题”任务,也能成功。
  • 对比: 它比之前所有的方法(包括只攻击图片的、只攻击文字的、或者两者都攻击但方法笨拙的)都要强。

5. 总结与启示

  • 核心贡献: 这篇论文告诉我们,要攻击这种聪明的 AI,不能只靠蛮力(逐个修改),而要**“顺势而为”(利用未来梯度)和“抓大放小”**(利用文本重要性)。
  • 局限性: 虽然图片上的修改人眼几乎看不出来,但文字上的修改(比如把“猫”改成“狗”)人眼还是能看出来的。未来的目标是让文字攻击也变得更隐蔽。
  • 意义: 这就像是在给 AI 做“体检”。只有知道它哪里容易被骗,才能修好这些漏洞,让未来的 AI 更安全、更可靠。

一句话总结:
这篇论文发明了一种**“万能迷魂药”,它通过“预知未来”来优化图片攻击,通过“抓重点”**来优化文字攻击,成功骗过了各种各样的智能 AI 系统,帮助人类更好地测试和提升 AI 的安全性。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →