Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

该论文针对多模态大语言模型(MLLMs)中现有单范式攻击方法特征表示受限的问题,提出了一种通过多范式协同优化策略聚合图文语义表征的“多范式协同对抗攻击”(MPCAttack)框架,显著提升了跨模型对抗样本的迁移攻击效果。

Yuanbo Li, Tianyang Xu, Cong Hu, Tao Zhou, Xiao-Jun Wu, Josef Kittler

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 MPCAttack 的新方法,专门用来“测试”和“攻击”多模态大语言模型(MLLMs,比如能看图说话的 GPT-4o、Gemini 等)的安全性。

为了让你轻松理解,我们可以把这件事想象成**“如何制造一个完美的‘伪装者’,骗过一群不同风格的‘侦探’”**。

1. 背景:侦探们太聪明了,但也怕“套路”

现在的多模态大模型(MLLM)就像一群超级侦探,它们既能看懂图片,又能读懂文字,还能把两者结合起来推理。

  • 攻击者的目标:给一张正常的图片(比如一只猫)加一点点人眼看不见的“噪点”(就像给猫戴了一副隐形眼镜),让侦探们把猫认成狗,或者胡乱描述。
  • 现有的难题:以前的攻击方法,就像是用单一套路去骗侦探。
    • 比如,攻击者只研究“视觉派”侦探(只看图),或者只研究“语言派”侦探(只看字)。
    • 结果:如果这个套路专门骗“视觉派”,那“语言派”侦探可能一眼就识破了。因为每个侦探的“思维模式”(特征空间)不一样,单一套路很难通吃所有侦探。

2. 核心创新:组建“全能特工队” (MPCAttack)

这篇论文的作者觉得,既然单一套路不行,那就搞个“混合编队”。他们提出了 MPCAttack(多范式协同攻击)。

比喻:三种不同的“透视眼”

作者把攻击过程想象成让三个不同领域的专家同时给图片“做 CT 扫描”:

  1. 跨模态对齐专家(Cross-Modal Alignment):就像**“翻译官”**。它擅长把图片和文字对应起来(比如看到猫的图片,立刻想到"cat"这个词)。它关注的是“图字匹配”。
  2. 多模态理解专家(Multi-modal Understanding):就像**“逻辑推理大师”**。它不仅能看图,还能理解图里的故事、因果关系(比如看到猫在抓老鼠,能推理出“猫在捕猎”)。它关注的是“深层语义”。
  3. 视觉自监督专家(Visual Self-Supervised):就像**“细节观察员”**。它不看文字,专门死磕图片的纹理、光影、形状等底层细节。它关注的是“视觉结构”。

以前的做法 vs. 现在的做法

  • 以前的做法(单打独斗):攻击者只派“翻译官”去制造干扰。结果,“逻辑推理大师”和“细节观察员”觉得这个干扰很假,直接识破了。
  • 现在的做法(MPCAttack - 协同作战)
    1. 同时开工:让这三位专家同时观察同一张图片。
    2. 协同优化(MPCO):这是最精彩的部分。攻击者不是简单地让三个专家各干各的,而是让他们互相商量
      • 如果“翻译官”觉得这里需要改,但“细节观察员”觉得那里更重要,系统会自动权衡,找到一个能让所有专家都产生误解的“完美干扰点”。
      • 这就好比在三个不同风格的侦探面前,制造一个既符合视觉逻辑、又符合语言逻辑、还符合推理逻辑的“完美假象”。

3. 它是如何工作的?(简单三步走)

  1. 准备阶段:找一张源图片(比如猫)和一张目标图片(比如狗)。
  2. 制造干扰
    • 把猫的图片扔给那三位“专家”(CLIP、InternVL、DINOv2 等模型)。
    • 三位专家分别提取出不同的特征(有的看字,有的看逻辑,有的看纹理)。
    • 关键一步:系统把这些特征拼在一起,算出一个“综合评分”。如果这个干扰能让三位专家都觉得“这好像是一只狗”,那就成功了。
    • 系统会不断微调干扰,直到找到那个能让所有专家都“晕头转向”的平衡点。
  3. 实战测试:把制造好的“伪装猫”发给真正的黑盒大模型(比如 GPT-5、Claude)。结果发现,这些大模型真的被骗了,开始描述成狗。

4. 实验结果:为什么它这么强?

论文在几十个不同的模型上做了测试,包括开源的(如 LLaVA)和闭源的(如 GPT-4o, GPT-5)。

  • 战绩:MPCAttack 的“欺骗成功率”(ASR)远远超过了以前的所有方法。
    • 定向攻击(想让它认成狗)中,成功率提升了近 20%。
    • 非定向攻击(想让它乱说)中,成功率更是高达 90% 以上。
  • 原因:因为它不再依赖单一的“思维模式”,而是利用了多种模式的互补性。就像你骗一个人可能很难,但如果同时用视觉、逻辑、细节去“围攻”他,他就很难招架了。

5. 总结与意义

一句话总结
这篇论文告诉我们,现在的 AI 大模型虽然很聪明,但它们在面对“多管齐下”的混合攻击时,依然非常脆弱。

这对我们意味着什么?

  • 对于安全专家:这是一个警钟。以前我们以为只要防住了“看图”或“看字”的漏洞就安全了,现在发现必须同时防御多种“思维模式”的协同攻击。
  • 对于开发者:未来的 AI 模型需要更强大的“免疫系统”,不能只靠单一维度的训练,要能应对这种跨维度的复杂干扰。

打个比方
以前的攻击像是**“用一把钥匙开一把锁”,如果锁换了(模型变了),钥匙就废了。
现在的 MPCAttack 像是
“万能钥匙组”,它同时分析了锁芯的弹子、弹簧和齿轮(多种范式),制造出一把能打开所有类型锁**的万能钥匙。

这篇论文不仅展示了攻击的厉害,更重要的是,它通过这种“破坏性测试”,帮助我们发现了 AI 系统中隐藏的深层弱点,从而推动它们变得更强、更安全。