Towards Calibrating Prompt Tuning of Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文解决了一个关于人工智能（AI）的一个非常有趣且重要的问题：如何让 AI 在“自信”的同时，也保持“诚实”。

为了让你更容易理解，我们可以把这篇论文的核心内容想象成训练一个“超级导游”。

1. 背景：AI 导游的“自信危机”

想象一下，你有一个非常聪明的 AI 导游（基于 CLIP 模型），它看过世界上所有的图片和文字。

零样本（Zero-shot）模式：它就像个博学但有点书呆子气的导游。如果你问它“这是什么花？”，它会说：“这看起来像玫瑰，我有 60% 的把握。”它很诚实，但可能不够精准。
提示微调（Prompt Tuning）模式：为了让它更专业，我们给它做了一些“特训”（只调整它脑子里的一小部分参数，就像给它戴上一副新眼镜），让它专门认识特定的花。
- 问题出现了：特训后的导游变得太自信或太不自信了。
  - 对于它熟悉的花（基础类），它反而变得畏畏缩缩，明明认出来了，却只敢说“我有 40% 的把握”，这叫**“过度谦虚”**。
  - 对于它没见过的花（新类别），它却变得盲目自信，明明认错了，却信誓旦旦地说“我有 99% 的把握”，这叫**“盲目自大”**。

在医疗、自动驾驶等关键领域，这种“盲目自信”是致命的（比如把肿瘤看错，却自信地说没问题）。

2. 核心方案：给导游戴上“双保险”

作者提出了一种新的训练方法，就像给导游戴上了两副“矫正眼镜”（两个正则化器），让它在保持聪明的同时，变得诚实且可靠。

第一副眼镜：【均值 - 方差边界调节器】（Mean-Variance Margin Regularization）

比喻：想象导游在判断“这是玫瑰”还是“这是郁金香”时，心里有一个安全距离。
- 以前的问题：对于熟悉的花，这个安全距离太窄了，导游不敢下结论（不自信）；对于陌生的花，这个距离又乱跳，有时候太宽，有时候太窄，导致它乱猜还觉得自己很对。
- 我们的方法：
  1. 拉大平均距离：强迫导游在认识的花之间保持足够的“安全距离”，让它敢于自信地说“这就是玫瑰！”（解决不自信）。
  2. 控制波动：同时规定这个距离不能忽大忽小，必须稳定。防止导游在面对陌生事物时，突然产生“虚假的自信”（解决盲目自信）。
- 效果：让导游的自信程度变得稳定且适中。

第二副眼镜：【文本矩匹配损失】（Text Moment-Matching Loss）

比喻：想象导游脑子里有一个**“世界地图”**（CLIP 的预训练空间）。在这个地图上，所有的概念（如“猫”、“狗”、“汽车”）都有固定的位置，彼此之间的距离代表了它们的相似度。
- 以前的问题：特训（微调）过程中，导游为了适应新任务，把地图上的点揉成一团或者拉得太散，导致原本“猫”和“狗”的位置关系乱了。当遇到没见过的动物时，它因为地图乱了，就胡乱指路。
- 我们的方法：我们在训练时，时刻拿着**“原地图”**（冻结的 CLIP 模型）做对比。
  - 我们要求导游调整后的地图，整体形状（平均值）和分布范围（方差）必须和原地图保持一致。
  - 这就像是在装修房子时，虽然可以重新摆放家具（适应新任务），但不能把承重墙拆了，也不能把客厅和卧室的位置完全搞反。
- 效果：保证了导游在面对从未见过的新事物时，依然能利用原本的世界观进行合理的推断，不会瞎自信。

3. 实验结果：既聪明又诚实

作者在 11 个不同的数据集（从识别花朵到识别飞机、汽车）上测试了这种方法。

结果：
- 准确率没降：导游认东西的能力依然很强，甚至更强了。
- 校准误差（ECE）大幅下降：这是衡量“自信度是否真实”的指标。
  - 对于熟悉的花，它不再畏畏缩缩，该自信时自信。
  - 对于陌生的花，它不再盲目自大，该谨慎时谨慎。
通用性：这个方法像是一个“即插即用”的插件，可以套用在各种现有的 AI 微调方法上，不需要大改架构。

4. 总结：为什么这很重要？

这就好比我们在培养一个既专业又靠谱的专家。

以前的微调方法只追求“答对”，结果专家要么不敢说话（低估风险），要么乱说话（高估风险）。
这篇论文的方法，让专家在保持专业度的同时，学会了评估自己的不确定性。

一句话总结：
这篇论文通过给 AI 加上“稳定自信度”和“保持世界观”的双重约束，让大模型在适应新任务时，不再“飘忽不定”或“盲目自大”，从而在自动驾驶、医疗诊断等高风险领域变得更加安全、可信。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为TCPT (Towards Calibrating Prompt Tuning) 的框架，旨在解决大规模视觉 - 语言模型（如 CLIP）在进行**提示微调（Prompt Tuning）时面临的置信度校准（Confidence Calibration）**问题。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：提示微调（如 CoOp, MaPLe 等）是一种参数高效的方法，通过仅更新少量提示词（Prompt tokens）来适应下游任务，同时保留预训练模型的泛化能力。
核心问题：现有的提示微调方法虽然提高了分类准确率，但往往导致置信度校准不良。具体表现为“双重校准问题”：
1. 基类（Base Classes）欠自信（Underconfidence）：模型对训练过的类别预测概率偏低，实际准确率高于预测置信度。
2. 新类（Novel Classes）过自信（Overconfidence）：模型对未见过的类别预测概率过高，导致在分布外（OOD）数据上产生高置信度的错误预测。
现有方法的局限：
- 后处理校准方法（如温度缩放 Temperature Scaling）通常假设分布内数据，难以处理分布外场景。
- 现有的微调校准方法（如 DAC, ZS-Norm）要么破坏了预训练嵌入空间的几何结构，要么无法同时解决基类和新类的校准问题。

2. 方法论 (Methodology)

作者提出了一种训练时的正则化框架，在保持预训练语义结构的同时，稳定预测边界。该方法在标准的交叉熵损失（Cross-Entropy, CE）基础上，引入了两个互补的正则化项：

(1) 均值 - 方差边界正则化 (Mean-Variance Margin Regularization)

目的：解决基类的欠自信问题，同时防止新类的过自信。
机制：
- 均值项：最大化正确类别与最高错误类别之间的 Logit 差值（Margin），确保基类有足够的置信度。
- 方差项：最小化样本间 Margin 的方差。这防止了模型在特定样本上产生异常的“置信度尖峰”（Spurious Confidence Spikes），从而避免新类过自信。
公式： $L_{Margin} = -\alpha \cdot \text{Mean}(m) + \beta \cdot \text{Var}(m)$ ，其中 $m$ 是样本的 Logit 边界。

(2) 文本矩匹配损失 (Text Moment-Matching Loss)

目的：保持 CLIP 预训练嵌入空间的几何结构，确保模型在未见类别上的泛化能力和校准性。
机制：强制微调后的文本嵌入（Tuned Text Embeddings）与冻结的零样本 CLIP 文本嵌入（Frozen Zero-shot Embeddings）在统计矩上保持一致。
- 一阶矩（均值）：对齐分布中心。
- 二阶矩（协方差）：对齐分布的离散程度（Dispersion）。
意义：这种方法避免了直接强制实例级对齐（如 $\ell_1/\ell_2$ 对齐）可能导致的语义扭曲，而是通过约束全局分布统计量，保留了类与类之间的相对语义关系。
公式： $L_{mom} = \|\mu_{tuned} - \mu_{frozen}\|_2^2 + \|\Sigma_{tuned} - \Sigma_{frozen}\|_F^2$ 。

总目标函数

$L_{total} = L_{CE} + \lambda_{Margin} L_{Margin} + \lambda_{mom} L_{mom}$

3. 主要贡献 (Key Contributions)

提出了双重校准问题：系统性地分析了提示微调中基类欠自信和新类过自信的现象，并揭示了其与 Logit 边界变化及嵌入空间几何结构破坏之间的关联。
设计了互补的正则化框架：
- 通过均值 - 方差边界正则化优化决策边界，提升基类置信度并抑制异常高置信度。
- 通过文本矩匹配损失保留预训练语义几何结构，确保新类泛化时的校准性。
广泛的实验验证：
- 在 11 个 不同数据集（涵盖细粒度、粗粒度、领域特定任务）上进行了评估。
- 在 7 种 不同的提示微调方法（CoOp, MaPLe, KgCoOp 等）上验证了通用性。
- 结果表明，该方法显著降低了期望校准误差（ECE），且未牺牲分类准确率。
即插即用与高效性：该方法不改变模型架构，无需额外的推理时间，可作为插件集成到现有的提示微调框架中。

4. 实验结果 (Results)

基类校准：在 11 个数据集上，相比 CoOp 基线，该方法将平均 ECE 从 6.35% 降低至 2.93%（CoOp 场景），显著优于温度缩放（2.96%）和其他正则化方法。
新类校准：在开放词汇设置下，该方法有效缓解了过自信问题。例如，在 MaPLe 基线上，新类平均 ECE 从 5.76% 降至 4.23%，同时保持了相当的准确率。
鲁棒性：
- 在不同样本数（Few-shot, 4-32 shots）下表现稳定。
- 对不同的提示初始化策略具有鲁棒性。
- 在自然分布偏移（如 ImageNet-A, ImageNet-R）数据集上，校准性能依然优于基线。
消融实验：证明了边界正则化和矩匹配损失缺一不可。仅使用边界正则化可能导致新类过自信加剧，而仅使用矩匹配对基类欠自信改善有限。两者结合效果最佳。
计算开销：训练时间和显存占用与基线方法（如 MaPLe）基本持平。

5. 意义与影响 (Significance)

提升可靠性：在自动驾驶、医疗影像等高风险领域，不可靠的置信度估计可能导致严重后果。TCPT 使得提示微调后的 VLM 能够提供更可信的预测不确定性估计。
平衡泛化与校准：解决了以往方法在追求泛化能力时往往牺牲校准性，或在微调时破坏预训练语义结构的难题。
通用性：作为一种与具体提示微调算法无关的模块，它为未来构建更可靠的基础模型适配器提供了新的设计思路。

总结：这篇论文通过引入均值 - 方差边界约束和文本矩匹配，成功地在参数高效的提示微调过程中实现了预测置信度的校准，既保留了预训练模型的语义几何结构，又显著提升了模型在基类和新类上的可靠性。