Pushing the Frontier of Black-Box LVLM Attacks via Fine-Grained Detail Targeting

本文提出了 M-Attack-V2,一种通过引入多裁剪对齐(MCA)、辅助目标对齐(ATA)及补丁动量机制来降低梯度方差并优化局部匹配的黑盒大视觉语言模型攻击框架,显著提升了在 Claude-4.0、Gemini-2.5-Pro 和 GPT-5 等前沿模型上的攻击成功率。

Xiaohan Zhao, Zhaoyi Li, Yaxin Luo, Jiacheng Cui, Zhiqiang Shen

发布于 2026-02-20
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何“欺骗”最先进的人工智能(AI)看图说话系统的故事。

想象一下,现在的 AI 就像是一个超级聪明的图书管理员(比如 GPT-4o, Claude, Gemini 等),它不仅能看懂图片,还能用流利的语言描述图片内容。研究人员发现,虽然这些管理员很聪明,但它们也有“视力盲区”。

这篇论文的核心就是提出了一种更高级的“恶作剧”方法,让 AI 把一张普通的图片(比如一只猫)错误地认成另一张完全不同的图片(比如一辆坦克),而且人类肉眼几乎看不出图片被修改过。

🎭 核心比喻:在迷宫里找路

为了理解这项研究,我们可以把攻击 AI 的过程想象成在一个巨大的、充满迷雾的迷宫里找出口

  1. 旧方法(M-Attack V1):盲目乱撞

    • 以前的攻击者(比如 M-Attack)就像是一个在迷宫里拿着手电筒的人。他每次只照一小块地方(局部裁剪),然后试图调整方向。
    • 问题出在哪? 这个迷宫的墙壁(AI 的算法)非常敏感。你稍微挪动一步(哪怕只是像素级别的微小移动),手电筒照到的墙壁纹理就会完全变样,导致你得到的“方向指引”(梯度)瞬间变得毫无意义,甚至指向相反的方向。
    • 结果: 攻击者就像在原地打转,或者被带偏了,很难成功欺骗那些最聪明的 AI(比如 Claude 4.0 或 GPT-5)。
  2. 新方法(M-Attack V2):多视角导航 + 智能路标
    这篇论文提出了三个聪明的策略来解决这个问题:

    • 策略一:多视角平均(MCA)——“三人行,必有我师”

      • 比喻: 以前是只派一个人去探路,结果被墙上的小石子绊倒了。现在,我们派10 个人同时去探路,每个人看稍微不同的角度。
      • 作用: 把这 10 个人的反馈综合起来,就能过滤掉那些因为“小石子”(随机噪声)产生的错误信号,得到一条平滑、稳定的正确路线。这让攻击过程不再“手抖”,更加稳健。
    • 策略二:辅助目标对齐(ATA)——“找一群好朋友做参考”

      • 比喻: 以前的攻击者只盯着一个目标(比如“坦克”),拼命想把自己变成坦克,结果用力过猛,把自己变歪了。
      • 新方法: 攻击者现在会找一群长得像坦克的朋友(辅助图片)作为参考。它不再死磕一个点,而是让自己慢慢靠近这群朋友形成的“坦克圈子”。
      • 作用: 这样既保持了方向感,又不会因为太激进而跑偏,让攻击过程更加顺滑。
    • 策略三:补丁动量(Patch Momentum)——“记住走过的路”

      • 比喻: 就像你开车时,如果前面路有点堵,你不会立刻急刹车掉头,而是会顺着惯性再开一会儿,看看情况。
      • 作用: 这个方法让 AI 在调整图片时,能“记住”之前几步走的方向,平滑地过渡,避免因为一次错误的判断就前功尽弃。

🚀 战果如何?

这套“组合拳”的效果非常惊人,可以说是降维打击

  • 对 Claude 4.0: 以前只能骗过 8% 的时候,现在能骗过 30%(提升了近 4 倍)。
  • 对 Gemini 2.5-Pro:83% 提升到 97%
  • 对 GPT-5:98% 直接干到了 100%(几乎百发百中)。

💡 这说明了什么?(给普通人的启示)

  1. AI 也有“视力缺陷”: 即使是世界上最先进的 AI,在处理图片细节时,也会因为微小的移动而产生巨大的判断误差。这就像人眼在快速移动时会产生视觉暂留,AI 在“看”图片时也有类似的“抖动”。
  2. 细节决定成败: 以前大家觉得只要把图片改得差不多就行,但这篇论文发现,怎么改、怎么找方向比改什么更重要。
  3. 双刃剑:
    • 好的一面: 这能帮助开发者发现 AI 的弱点,从而修好这些漏洞,让未来的 AI 更安全、更可靠。
    • 坏的一面: 如果坏人掌握了这个技术,他们可以让 AI 把“炸弹”认成“鲜花”,或者让自动驾驶汽车把“行人”认成“路牌”,造成严重后果。

📝 总结

简单来说,这篇论文就像给黑客(或者安全测试员)提供了一套全新的“隐形眼镜”和“导航仪”。它不再盲目地乱撞,而是通过多视角观察、寻找参考群、利用惯性,轻松骗过了目前世界上最聪明的 AI 看图系统。

这提醒我们:AI 虽然强大,但并非无懈可击,我们需要时刻警惕并修补这些“视力盲区”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →