Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

该论文提出了一种通过优化损失函数以最大化推理阶段数值不稳定性,从而生成导致多模态大语言模型性能显著下降的对抗图像的新颖攻击方法,并在多个主流模型和基准数据集上验证了这种不同于传统对抗扰动的新型失效模式。

Wai Tuck Wong, Jun Sun, Arunesh Sinha

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文揭示了一个关于人工智能(特别是多模态大语言模型,即能看图说话的 AI)的有趣且令人担忧的“隐藏漏洞”。

简单来说,研究人员发现:你不需要给 AI 看一张完全错误的图片,只需要给它的“大脑”注入一点点极其微小的、人类肉眼根本看不出来的“数字杂音”,就能让 AI 变得神志不清,把“猫”说成“狗”,把“蛋糕”说成“牛排”。

为了让你更容易理解,我们可以用几个生活中的比喻来拆解这项研究:

1. 背景:AI 的“精打细算”

现在的 AI 模型非常庞大,像是一个拥有几百亿个零件的超级大脑。为了跑得更快、更省电,工程师们通常会让 AI 使用一种叫**“半精度浮点数”**(Float16)的计算方式。

  • 比喻:想象一下,如果你要计算一笔巨额账单,为了算得快,你决定只保留小数点后两位,把后面的数字都四舍五入。这通常没问题,算出来的结果大概是对的。但在某些极端情况下,这种“四舍五入”的误差会像滚雪球一样越滚越大。

2. 核心发现:不是“乱画”,而是“乱算”

以前的攻击方法(对抗性攻击)通常是给图片加一些噪点,比如把图片变得模糊,或者在图片上画一些奇怪的图案,让人眼能看出来,但 AI 会误判。

  • 这篇论文的新发现:他们不需要改变图片的样子。他们只是修改了图片数据在计算机内部存储的“微小数值”
  • 比喻:想象你在玩一个极其精密的乐高积木城堡(AI 模型)。
    • 传统攻击:像是往城堡上扔一块大石头,或者把几块积木强行拔掉。城堡明显塌了,大家都知道出事了。
    • 本文的攻击:你只是把某一块积木内部的分子结构稍微扭曲了一点点(人类肉眼完全看不出区别)。但因为这座城堡的力学结构非常敏感,这一点点微小的扭曲,通过层层传递,导致整个城堡在某个瞬间突然“崩塌”或“变形”,变成了完全不同的东西。

3. 攻击原理:利用“数字不稳定性”

研究人员设计了一种特殊的“毒药”(损失函数),专门寻找那些会让 AI 内部计算产生最大误差的微小数值变化。

  • 比喻:这就像是在玩“多米诺骨牌”。
    • AI 处理图片的过程是一连串的计算步骤(像一排排骨牌)。
    • 研究人员找到了一种方法,轻轻推倒第一块骨牌(输入图片的微小数值变化),利用 AI 内部计算精度的缺陷,让这种误差在后续步骤中被放大
    • 结果就是:输入端只有一点点“抖动”,输出端却变成了巨大的“海啸”。

4. 实际效果:AI 开始“胡言乱语”

论文在多个顶尖的 AI 模型上做了测试(比如 LLaVA, Idefics 等),结果令人震惊:

  • 场景一:给 AI 看一张“女孩在晒太阳”的照片。
    • 正常回答:“一个女孩在晒太阳。”
    • 被攻击后:“一个穿紫色衬衫的男人正在和另一个人打架。”(完全离谱)
  • 场景二:给 AI 看一张“蛋糕”的照片。
    • 正常回答:“盘子里有一块蛋糕。”
    • 被攻击后:“一盘看起来像牛排配蔬菜的食物。”

关键点:这些被攻击后的图片,人类肉眼看起来和原图几乎一模一样,但 AI 却完全“疯了”。

5. 为什么这很重要?

  • 不仅仅是“看不清”:以前的攻击通常是因为图片太乱,AI 看不清。现在的攻击是 AI**“算错了”**。
  • 防不胜防:因为这种攻击不需要改变图片的外观,现有的安全防御手段(比如过滤噪点图片)可能完全无效。
  • 精度不够用:论文还发现,即使你把计算精度从“半精度”提升到“全精度”(就像从保留两位小数变成保留十位),虽然能缓解一点,但不能完全解决问题。这说明问题不仅在于“算得不够准”,还在于模型内部结构对这种误差太敏感了。

总结

这篇论文就像是在告诉我们要小心:

现在的超级 AI 虽然聪明,但它们的“神经系统”非常脆弱。你不需要用大锤去砸它,只需要用一根极细的针,在它内部最敏感的神经节点上轻轻刺一下,它就可能从“天才”变成“疯子”。

这提醒未来的 AI 开发者,在追求速度和效率(使用低精度计算)的同时,必须更加重视这种**“数字不稳定性”**带来的安全隐患,否则这些 AI 在自动驾驶、医疗诊断等关键领域可能会因为微小的计算误差而酿成大祸。