Enhancing CLIP Robustness via Cross-Modality Alignment

本文提出了一种名为 COLA 的免训练跨模态对齐框架,通过结合子空间投影与最优传输技术,在特征空间中恢复全局图文对齐与局部结构一致性,从而显著提升了 CLIP 模型在对抗攻击下的鲁棒性。

Xingyu Zhu, Beier Zhu, Shuo Wang, Kesen Zhao, Hanwang Zhang

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 COLA(Cross-modaLity Alignment,跨模态对齐)的新方法,旨在让 AI 模型(特别是像 CLIP 这样的“图文理解模型”)变得更“抗揍”,不容易被坏人通过微小的干扰骗过。

为了让你轻松理解,我们可以把整个故事想象成**“一个超级侦探在嘈杂的审讯室里识破伪装”**。

1. 背景:聪明的侦探,脆弱的耳朵

想象一下,CLIP 是一个超级侦探。它受过极好的训练,能看一眼照片(比如“一只在沙滩上奔跑的金毛犬”),就能立刻在脑海里匹配到对应的文字描述。它在正常环境下(干净的照片)表现完美,几乎百发百中。

但是,这个侦探有一个致命弱点:它太容易被“噪音”干扰了

  • 什么是攻击? 坏人可以在照片上添加一些人类肉眼几乎看不见的微小噪点(就像在照片上撒了一层极细的灰尘)。
  • 后果是什么? 这些微小的灰尘会让侦探的“大脑”短路。原本清晰的“金毛犬”特征,在侦探眼里变得模糊、混乱,甚至让他误以为那是“一辆卡车”。这就是所谓的**“对抗性攻击”**。

2. 问题出在哪?(为什么以前的方法不够好?)

以前的防御方法主要有两种:

  1. 重新训练(Adversarial Training): 让侦探在训练时专门看很多被污染的照片,以此“脱敏”。但这就像让侦探每天加班看假照片,太费时间、太烧钱,而且一旦换了新类型的假照片,他又可能失效。
  2. 优化提示词(Prompt Tuning): 试图改变侦探的“思考方式”或“提问方式”。但这往往治标不治本。

核心问题在于: 当照片被污染后,照片的“特征”和文字的“特征”在侦探的大脑空间里彻底分家了。就像原本应该紧紧握在一起的两只手(图和文),被坏人硬生生扯开了,而且扯得越远,侦探就越糊涂。

3. COLA 的解决方案:两个绝招

COLA 不需要重新训练侦探,它是一个**“即插即用”的急救包**,在侦探做判断的最后一刻介入,用了两个聪明的招数:

第一招:把“乱码”过滤掉(子空间投影)

  • 比喻: 想象侦探看到的被污染照片里,混杂了很多“无关的噪音”(比如背景里的奇怪阴影、攻击者故意制造的干扰)。
  • COLA 的做法: 它手里有一张“标准答案地图”(由所有正确文字描述组成的空间)。当侦探拿到一张被污染的照片时,COLA 会迅速把照片里的特征**“投影”**到这张标准地图上。
  • 效果: 这就像是用一个筛子,把那些偏离“标准答案”的噪音(非语义的干扰)直接筛掉,只保留那些真正属于“金毛犬”的核心特征。原本被扯散的手,被强行拉回了正确的轨道上。

第二招:用“群体智慧”来对齐(最优传输 OT)

  • 比喻: 以前侦探是拿“一张照片”去对“一句话”。如果这张照片被污染了,匹配就失败了。
  • COLA 的做法:
    • 对照片: 它不只看原图,而是把原图稍微裁剪、翻转一下,生成5 张稍微不同的“变体”(就像让侦探看同一只狗的不同角度)。
    • 对文字: 它也不只看一句话,而是让大语言模型(LLM)生成50 种不同的描述方式(比如“奔跑的狗”、“金色的狗”、“沙滩上的狗”等)。
    • 匹配过程: COLA 使用一种叫**“最优传输”(Optimal Transport)的数学方法。这就像是在玩一个“拼图游戏”:它计算这 5 张照片变体和 50 种文字描述之间,怎么搭配最省力、最合理。它不是强行匹配,而是寻找整体上的最佳对应关系**。
  • 效果: 即使某一张照片变体被干扰得很厉害,其他变体还能救回来;即使某句话描述得不完美,其他描述也能补位。这种**“群体对齐”**的方式,让侦探在混乱中也能找到真相。

4. 结果:既快又准

  • 不用重练: 这个方法不需要重新训练模型,直接用在现有的模型上就行(就像给侦探戴上一副特制眼镜,而不是给他换脑子)。
  • 效果惊人: 在 14 个不同的测试集上,COLA 让模型在面对强力攻击时,准确率从几乎为 0 提升到了 50% 甚至更高(比如在 ImageNet 数据集上提升了 6.7%)。
  • 保持原样: 最重要的是,它没有降低侦探在正常情况下的表现。也就是说,戴上这副眼镜,侦探既能识破伪装,看正常照片时依然眼神犀利。

总结

COLA 就像是一个聪明的“防干扰滤镜”和“群体决策系统”的结合体。
它告诉侦探:“别被那些微小的灰尘骗了,把那些无关的噪音过滤掉,然后多角度看问题,多听几种描述,这样你就能在混乱中依然认出那只‘金毛犬’了。”

这项技术对于自动驾驶、医疗诊断等需要高度可靠性的领域非常重要,因为它让 AI 在面对恶意攻击时,变得更加稳健和可靠

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →