Enhancing CLIP Robustness via Cross-Modality Alignment

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 COLA（Cross-modaLity Alignment，跨模态对齐）的新方法，旨在让 AI 模型（特别是像 CLIP 这样的“图文理解模型”）变得更“抗揍”，不容易被坏人通过微小的干扰骗过。

为了让你轻松理解，我们可以把整个故事想象成**“一个超级侦探在嘈杂的审讯室里识破伪装”**。

1. 背景：聪明的侦探，脆弱的耳朵

想象一下，CLIP 是一个超级侦探。它受过极好的训练，能看一眼照片（比如“一只在沙滩上奔跑的金毛犬”），就能立刻在脑海里匹配到对应的文字描述。它在正常环境下（干净的照片）表现完美，几乎百发百中。

但是，这个侦探有一个致命弱点：它太容易被“噪音”干扰了。

什么是攻击？ 坏人可以在照片上添加一些人类肉眼几乎看不见的微小噪点（就像在照片上撒了一层极细的灰尘）。
后果是什么？ 这些微小的灰尘会让侦探的“大脑”短路。原本清晰的“金毛犬”特征，在侦探眼里变得模糊、混乱，甚至让他误以为那是“一辆卡车”。这就是所谓的**“对抗性攻击”**。

2. 问题出在哪？（为什么以前的方法不够好？）

以前的防御方法主要有两种：

重新训练（Adversarial Training）： 让侦探在训练时专门看很多被污染的照片，以此“脱敏”。但这就像让侦探每天加班看假照片，太费时间、太烧钱，而且一旦换了新类型的假照片，他又可能失效。
优化提示词（Prompt Tuning）： 试图改变侦探的“思考方式”或“提问方式”。但这往往治标不治本。

核心问题在于： 当照片被污染后，照片的“特征”和文字的“特征”在侦探的大脑空间里彻底分家了。就像原本应该紧紧握在一起的两只手（图和文），被坏人硬生生扯开了，而且扯得越远，侦探就越糊涂。

3. COLA 的解决方案：两个绝招

COLA 不需要重新训练侦探，它是一个**“即插即用”的急救包**，在侦探做判断的最后一刻介入，用了两个聪明的招数：

第一招：把“乱码”过滤掉（子空间投影）

比喻： 想象侦探看到的被污染照片里，混杂了很多“无关的噪音”（比如背景里的奇怪阴影、攻击者故意制造的干扰）。
COLA 的做法： 它手里有一张“标准答案地图”（由所有正确文字描述组成的空间）。当侦探拿到一张被污染的照片时，COLA 会迅速把照片里的特征**“投影”**到这张标准地图上。
效果： 这就像是用一个筛子，把那些偏离“标准答案”的噪音（非语义的干扰）直接筛掉，只保留那些真正属于“金毛犬”的核心特征。原本被扯散的手，被强行拉回了正确的轨道上。

第二招：用“群体智慧”来对齐（最优传输 OT）

比喻： 以前侦探是拿“一张照片”去对“一句话”。如果这张照片被污染了，匹配就失败了。
COLA 的做法：
- 对照片： 它不只看原图，而是把原图稍微裁剪、翻转一下，生成5 张稍微不同的“变体”（就像让侦探看同一只狗的不同角度）。
- 对文字： 它也不只看一句话，而是让大语言模型（LLM）生成50 种不同的描述方式（比如“奔跑的狗”、“金色的狗”、“沙滩上的狗”等）。
- 匹配过程： COLA 使用一种叫**“最优传输”（Optimal Transport）的数学方法。这就像是在玩一个“拼图游戏”：它计算这 5 张照片变体和 50 种文字描述之间，怎么搭配最省力、最合理。它不是强行匹配，而是寻找整体上的最佳对应关系**。
效果： 即使某一张照片变体被干扰得很厉害，其他变体还能救回来；即使某句话描述得不完美，其他描述也能补位。这种**“群体对齐”**的方式，让侦探在混乱中也能找到真相。

4. 结果：既快又准

不用重练： 这个方法不需要重新训练模型，直接用在现有的模型上就行（就像给侦探戴上一副特制眼镜，而不是给他换脑子）。
效果惊人： 在 14 个不同的测试集上，COLA 让模型在面对强力攻击时，准确率从几乎为 0 提升到了 50% 甚至更高（比如在 ImageNet 数据集上提升了 6.7%）。
保持原样： 最重要的是，它没有降低侦探在正常情况下的表现。也就是说，戴上这副眼镜，侦探既能识破伪装，看正常照片时依然眼神犀利。

总结

COLA 就像是一个聪明的“防干扰滤镜”和“群体决策系统”的结合体。
它告诉侦探：“别被那些微小的灰尘骗了，把那些无关的噪音过滤掉，然后多角度看问题，多听几种描述，这样你就能在混乱中依然认出那只‘金毛犬’了。”

这项技术对于自动驾驶、医疗诊断等需要高度可靠性的领域非常重要，因为它让 AI 在面对恶意攻击时，变得更加稳健和可靠。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心问题：尽管像 CLIP 这样的视觉 - 语言模型（VLMs）在零样本分类任务中表现出强大的泛化能力，但它们对**对抗性扰动（Adversarial Perturbations）**极其脆弱。微小的、精心设计的输入图像修改会导致模型预测严重错误。
现有方法的局限性：
- 现有的防御方法主要集中在对抗性微调（Adversarial Fine-tuning）或提示词优化（Prompt Optimization）。
- 这些方法通常计算开销大、推理延迟高，或者需要重新训练模型。
- 关键缺陷：它们忽视了 CLIP 编码特征中存在的**模态不对齐（Modality Misalignment）**问题。在对抗攻击下，图像特征与文本特征在特征空间中的距离被显著拉大，导致全局匹配失效，且局部结构一致性被破坏，最终导致分类性能崩溃。
具体痛点：CLIP 的训练范式是全局匹配（将整张图像与整句文本对齐），缺乏细粒度的对应关系。对抗攻击会扭曲图像嵌入，使其偏离语义原型，且破坏特征空间内的局部结构。

2. 核心方法论 (Methodology)

作者提出了一种名为 COLA (Cross-modaLity Alignment) 的框架。这是一个无需训练（Training-free）、架构无关且基于**最优传输（Optimal Transport, OT）**的测试时防御方法。

COLA 的核心思想是通过恢复全局图像 - 文本对齐和局部结构一致性来解决对抗性不对齐问题。主要包含两个步骤：

(1) 基于子空间的特征投影 (Subspace Projection)

原理：利用干净文本特征张成的子空间作为可靠代理，来重构潜在的干净图像表示。
操作：
1. 将所有类别的文本嵌入 $\{z_y^m\}$ 组成矩阵 $Z$ 。
2. 对 $Z$ 进行奇异值分解（SVD），提取前 $C$ 个主成分，构建子空间 $U$ 。
3. 将受攻击的图像特征 $\hat{x}$ 投影到该子空间 $U$ 上： $\Pi(\hat{x}) = U_C U_C^\top \hat{x}$ 。
作用：有效过滤掉非语义的对抗性扭曲（即垂直于子空间方向的噪声），同时保留判别性信息，恢复特征空间的全局对齐。

(2) 基于最优传输的分布对齐 (OT-based Distribution Alignment)

原理：将图像和文本建模为离散分布，而非单一嵌入，以捕捉局部语义一致性。
操作：
1. 构建分布：
  - 图像分布：对受攻击图像进行 $N$ 次数据增强（裁剪、翻转等），形成集合 $\{\hat{x}_n\}$ 。
  - 文本分布：利用大语言模型（LLM）生成 $M$ 个细粒度的文本描述变体，形成集合 $\{z_y^m\}$ 。
2. 权重计算：根据预测置信度（熵）计算每个视图的重要性权重。
3. 最优传输（OT）：计算图像分布 $P(x)$ 与文本分布 $Q_y(z)$ 之间的 OT 距离。
4. 关键创新：在计算 OT 代价矩阵 $C^\Pi$ 时，直接嵌入子空间投影。即使用投影后的特征 $\Pi(\hat{x}_n)$ 与文本特征计算余弦相似度作为传输代价。
分类决策：选择 OT 距离最小的类别作为预测结果。

理论保证

论文证明了投影操作能降低成对相似性的失真（ $\Delta^\Pi \le \Delta$ ）。
证明了基于投影代价矩阵的 OT 分类器具有更大的决策边界（Decision Margin），从而提升了泛化能力和鲁棒性。

3. 主要贡献 (Key Contributions)

首个无需训练的测试时防御：提出 COLA，无需重新训练模型或修改架构，即可直接应用于现有的微调或预训练 CLIP 模型。
解决模态不对齐：首次明确将对抗攻击下的性能下降归因于“全局特征不对齐”和“局部结构破坏”，并分别通过子空间投影和 OT 分布匹配进行修复。
理论分析：从理论上证明了该方法能减少余弦相似度失真并扩大决策边界。
广泛的实验验证：在 14 个零样本分类基准（包括 ImageNet 及其变体、细粒度数据集等）上进行了评估，证明了其有效性。

4. 实验结果 (Results)

实验在 14 个数据集上进行，攻击方式包括 PGD 和 CW 攻击。

ImageNet 及变体表现：
- 在 PGD 攻击下，COLA 在 ImageNet 及其变体上的平均鲁棒准确率提升了 6.7%。
- 在 ImageNet-R 和 ImageNet-Sketch 等困难变体上，鲁棒性提升尤为显著（部分超过 +10%）。
- 在保持高清洁样本准确率（Clean Accuracy）的同时，大幅提升了鲁棒准确率。例如，在 ImageNet 上，COLA 的鲁棒准确率达到 50.0%，而原始 CLIP 仅为 1.1%，TTC（现有最强测试时防御）为 40.0%。
细粒度数据集表现：
- 在 Pets, Flowers, Cars 等 9 个数据集上，COLA 在 PGD 攻击下的鲁棒准确率平均提升了 6.7%（相对于基线）。
- 相比现有的测试时防御方法（如 TTC, TTE, HD），COLA 在多个数据集上取得了 SOTA 结果。
不同骨干网络：
- 在 ViT-B/16 和 ViT-L/14 上均表现优异。特别是在 ViT-L/14 上，ImageNet 的鲁棒准确率提升了 35.8%（相对于 CLIP 基线）。
效率：
- COLA 推理时间（28 分钟/ImageNet）显著快于 TTC（40 分钟），因为它避免了 TTC 所需的迭代对抗优化过程。
消融实验：
- 证明了子空间投影（ $C^\Pi$ ）比原始代价矩阵（ $C$ ）更有效。
- 证明了增加增强视图数量（至 5 个）和文本描述数量（至 50 个）能提升鲁棒性，且方法对超参数不敏感。

5. 意义与局限性 (Significance & Limitations)

意义：
- 安全性：为自动驾驶、医疗诊断等高风险领域的视觉 - 语言系统提供了更安全的防御方案。
- 实用性：无需重新训练的特性使其易于部署到现有的生产环境中。
- 理论深度：将最优传输理论引入对抗防御，为解决模态不对齐问题提供了新的视角。
局限性：
- 继承了预训练 VLM 的潜在偏见（Bias）。
- 文本诱导的子空间可能编码了特定数据集的先验知识，限制了在未见过的语言或视觉领域的泛化能力。
- 面对更强的自适应攻击（Adaptive Attacks）时，仍需进一步研究。

总结

COLA 通过子空间投影去除对抗噪声并恢复全局对齐，结合最优传输在分布层面细化局部语义一致性，成功解决了 CLIP 在对抗攻击下的脆弱性问题。该方法在无需训练的前提下，显著提升了模型在多种攻击和不同数据集上的鲁棒性，同时保持了清洁样本的高准确率，是视觉 - 语言模型安全领域的一项重要进展。