Partially Recentralization Softmax Loss for Vision-Language Models Robustness

该论文提出了一种通过限制 Top-K Softmax 输出并修改预训练多模态模型损失函数(即部分重新中心化 Softmax 损失)的方法,显著提升了模型在面对流行对抗攻击时的鲁棒性。

Hao Wang, Jinzhe Jiang, Xin Zhang, Chen Li

发布于 2026-03-13
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,现在的多模态大模型(比如能看图说话的 AI)就像是一个超级聪明的翻译官。它既懂文字,又懂图片,能把两者完美结合。但是,这个翻译官有个大毛病:它太“玻璃心”了。

如果有人在它看的图片上稍微加一点点人眼看不见的“噪点”(就像在画里撒了一把看不见的灰尘),或者在文字里改了一个不起眼的词,这个翻译官就会瞬间“发疯”,把原本正确的意思完全曲解。在学术界,这被称为对抗攻击

这篇论文就是为了解决这个“玻璃心”的问题,给翻译官穿上一层防弹衣

核心比喻:从“独裁者”到“民主委员会”

为了理解作者做了什么,我们可以把 AI 做决定(输出答案)的过程想象成投票选举

  1. 原来的情况(脆弱的模型):
    以前的模型在回答问题时,就像一个独裁者。它看到图片后,脑子里会冒出很多个可能的答案,但它只盯着可能性最高的那一个,并且把 100% 的注意力都押注在它身上。

    • 比喻: 就像你问它“这是什么动物?”,它脑子里闪过“猫”、“狗”、“老虎”,但它死死咬定是“猫”。这时候,如果坏人稍微在图片上动了一点手脚,让“猫”的分数稍微降一点点,而让“老虎”的分数稍微升一点点,这个独裁者就会立刻改口说:“哦,原来是老虎啊!”哪怕它看起来根本不像老虎。
  2. 作者的新方法(部分再中心化 Softmax 损失):
    这篇论文提出了一种新的训练方法,相当于给这个独裁者立了新规矩:“不许只盯着第一名看,要把前几名都纳入考虑范围!”

    • 比喻: 作者让模型在训练时,不仅关注那个“第一名”,还要把前 K 名(比如前 5 名)候选者都当作“重要候选人”来对待。这就像成立了一个民主委员会
    • 当坏人试图用“灰尘”去干扰模型时,模型不会轻易被带偏。因为即使“猫”的分数被干扰降下来了,但“狗”和“老虎”的分数在委员会里依然稳稳当当。模型会综合这前几名的意见,依然能做出正确的判断,或者至少不会做出离谱的错误判断。

这篇论文发现了什么?

作者把这套“民主委员会”的训练方法(也就是修改后的损失函数)应用到已经训练好的模型上,进行了一次微调(Fine-tuning)。

  • 结果: 实验证明,经过这种微调的模型,在面对各种常见的“捣乱”攻击时,变得非常强壮。它不再容易被一点点小干扰就骗得团团转了。
  • 未来的路: 虽然模型变强了,但作者也提醒我们,这就像给车装了防弹玻璃,可能会让车稍微重一点(影响速度或多样性)。接下来还需要研究如何平衡“防弹能力”和“反应速度/多样性”之间的关系。

总结

简单来说,这篇论文就是教 AI 在回答问题时,不要“一根筋”地只信一个答案,而是要学会“兼听则明”。通过让模型同时关注几个最可能的答案,它就能在面对恶意干扰时,依然保持冷静和准确,不再那么容易被“带节奏”了。

这就好比一个经验丰富的老侦探,面对嫌疑人时不会只盯着一个人看,而是会综合几个最像嫌疑人的特征,这样即使坏人试图伪装,也骗不过他的火眼金睛。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →