Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction

该论文针对现有视觉 - 语言模型对抗攻击跨模态破坏力弱和迁移性差的问题,提出了一种通过动态对比交互和语义增强模块来逐步破坏跨模态对齐的语义增强动态对比攻击(SADCA)方法,显著提升了攻击的迁移性能。

Yuanbo Li, Tianyang Xu, Cong Hu, Tao Zhou, Xiao-Jun Wu, Josef Kittler

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何“迷惑”人工智能的故事,特别是那些既能“看”又能“读”的超级 AI(我们称之为“视觉 - 语言大模型”)。

想象一下,现在的 AI 就像是一个博学的图书管理员。它看过无数本书,也看过无数张图。它的核心能力是:当你给它一张“猫”的照片,它能立刻在脑海里找到“猫”这个词,并把它们完美地配对在一起。这就是所谓的“跨模态对齐”。

但是,研究人员发现,这个图书管理员其实很“天真”,很容易被恶作剧(对抗性攻击)骗到。这篇论文提出了一种新的恶作剧方法,叫 SADCA

为了让你更容易理解,我们可以用三个生动的比喻来拆解它的核心思想:

1. 以前的恶作剧:死板的“推搡”

以前的攻击方法(就像以前的捣蛋鬼)是这样做的:

  • 静态互动:它们只是拿着那张“猫”的照片,硬生生地往旁边推一下,让 AI 觉得“这好像不是猫了”。
  • 只看正面:它们只盯着“猫”和“猫”这个词的关系,试图切断它俩。
  • 结果:这种攻击太直白了。AI 的图书管理员虽然被推了一下,但心里还是清楚:“哦,这虽然有点歪,但肯定还是猫。”而且,这种捣乱的方法换个 AI 就不灵了(迁移性差)。

2. SADCA 的绝招:动态的“迷宫游戏”

这篇论文提出的 SADCA 方法,就像是一个高明的魔术师,它不再只是推搡,而是给 AI 设了一个复杂的迷宫。

核心招数一:动态的“左右互搏” (Dynamic Contrastive Interaction)

  • 以前的做法:只改图片,或者只改文字,改一次就完了。
  • SADCA 的做法:它玩起了“乒乓球”。
    • 它先改一下图片,让 AI 困惑。
    • 紧接着,它根据 AI 现在的困惑,立刻改一下文字。
    • 然后,它又根据改过的文字,再次微调图片。
    • 比喻:就像你在教一个学生认字,你不仅把字写歪,还不断换不同的老师来教他错误的读音,让他彻底晕头转向,不知道“猫”到底该长什么样、叫什么。这种动态的、来回的干扰,让 AI 彻底迷失了方向。

核心招数二:引入“捣乱分子” (Negative Samples)

  • 以前的做法:只告诉 AI“这不是猫”。
  • SADCA 的做法:它不仅告诉 AI“这不是猫”,还硬塞给它一堆完全不相干的东西,比如“香蕉”、“汽车”、“大象”。
  • 比喻:想象你在教孩子认苹果。以前的方法只是把苹果藏起来。SADCA 则是把苹果、香蕉、汽车、大象全混在一个篮子里,然后问孩子:“哪个是苹果?”它强迫 AI 在错误的选项(负样本)和正确的选项(正样本)之间反复横跳,把 AI 的决策边界搅得一塌糊涂。这样生成的“假猫”,不管换到哪个 AI 眼里,都看起来像是一团乱麻。

核心招数三:语义的“万花筒” (Semantic Augmentation)

  • 以前的做法:只给 AI 看一张标准的图。
  • SADCA 的做法:它把图片切碎了、旋转了、变色了,甚至把文字描述也打乱了重组。
  • 比喻:就像你给 AI 看一张猫的照片,SADCA 会同时给 AI 看:一张被切掉一半的猫、一张倒过来的猫、一张把猫和狗的描述混在一起的句子。这就像给 AI 戴上了万花筒眼镜,让它看到的“猫”有无数种奇怪的样子。这样训练出来的攻击样本,适应性极强,不管 AI 怎么变,都能骗过它。

3. 为什么这很重要?(实验结果)

研究人员在多个不同的 AI 模型(就像不同的图书管理员)上做了测试。

  • 结果:SADCA 就像是一个万能钥匙。它在一个模型上生成的“假猫”,不仅能骗过那个模型,还能骗过它从未见过的其他模型(比如从“百度”骗到“谷歌”,或者从“看图说话”骗到“找图”)。
  • 数据:在测试中,SADCA 的成功率(让 AI 彻底搞错)远远超过了以前所有的“恶作剧”方法。

总结

简单来说,这篇论文发现,想要彻底骗过那些又看又读的 AI,不能只用蛮力(静态修改),而要用巧劲

  1. 不断变招(动态交互);
  2. 制造混乱(引入错误样本);
  3. 花样百出(语义增强)。

这对我们意味着什么?
这听起来像是在教人怎么“黑”AI,但实际上是为了保护 AI。就像医生通过研究病毒来制造疫苗一样,研究人员通过研究这种“超级攻击”,能发现 AI 的弱点,从而设计出更坚固、更安全的 AI 系统,防止未来的坏人利用这些漏洞。

一句话总结:SADCA 给 AI 设计了一个动态的、充满干扰的语义迷宫,让 AI 在里面彻底迷路,从而证明了现有的 AI 其实非常脆弱,急需加强防御。