Towards Calibrating Prompt Tuning of Vision-Language Models

该论文提出了一种针对视觉语言模型提示微调的校准框架,通过引入均值方差边界惩罚和文本矩匹配损失,在保持预训练嵌入空间几何结构的同时,显著提升了模型预测的置信度校准效果并降低了期望校准误差。

Ashshak Sharifdeen, Fahad Shamshad, Muhammad Akhtar Munir, Abhishek Basu, Mohamed Insaf Ismithdeen, Jeyapriyan Jeyamohan, Chathurika Sewwandi Silva, Karthik Nandakumar, Muhammad Haris Khan

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文解决了一个关于人工智能(AI)的一个非常有趣且重要的问题:如何让 AI 在“自信”的同时,也保持“诚实”

为了让你更容易理解,我们可以把这篇论文的核心内容想象成训练一个“超级导游”

1. 背景:AI 导游的“自信危机”

想象一下,你有一个非常聪明的 AI 导游(基于 CLIP 模型),它看过世界上所有的图片和文字。

  • 零样本(Zero-shot)模式:它就像个博学但有点书呆子气的导游。如果你问它“这是什么花?”,它会说:“这看起来像玫瑰,我有 60% 的把握。”它很诚实,但可能不够精准。
  • 提示微调(Prompt Tuning)模式:为了让它更专业,我们给它做了一些“特训”(只调整它脑子里的一小部分参数,就像给它戴上一副新眼镜),让它专门认识特定的花。
    • 问题出现了:特训后的导游变得太自信太不自信了。
      • 对于它熟悉的花(基础类),它反而变得畏畏缩缩,明明认出来了,却只敢说“我有 40% 的把握”,这叫**“过度谦虚”**。
      • 对于它没见过的花(新类别),它却变得盲目自信,明明认错了,却信誓旦旦地说“我有 99% 的把握”,这叫**“盲目自大”**。

在医疗、自动驾驶等关键领域,这种“盲目自信”是致命的(比如把肿瘤看错,却自信地说没问题)。

2. 核心方案:给导游戴上“双保险”

作者提出了一种新的训练方法,就像给导游戴上了两副“矫正眼镜”(两个正则化器),让它在保持聪明的同时,变得诚实且可靠

第一副眼镜:【均值 - 方差边界调节器】(Mean-Variance Margin Regularization)

  • 比喻:想象导游在判断“这是玫瑰”还是“这是郁金香”时,心里有一个安全距离
    • 以前的问题:对于熟悉的花,这个安全距离太窄了,导游不敢下结论(不自信);对于陌生的花,这个距离又乱跳,有时候太宽,有时候太窄,导致它乱猜还觉得自己很对。
    • 我们的方法
      1. 拉大平均距离:强迫导游在认识的花之间保持足够的“安全距离”,让它敢于自信地说“这就是玫瑰!”(解决不自信)。
      2. 控制波动:同时规定这个距离不能忽大忽小,必须稳定。防止导游在面对陌生事物时,突然产生“虚假的自信”(解决盲目自信)。
    • 效果:让导游的自信程度变得稳定且适中

第二副眼镜:【文本矩匹配损失】(Text Moment-Matching Loss)

  • 比喻:想象导游脑子里有一个**“世界地图”**(CLIP 的预训练空间)。在这个地图上,所有的概念(如“猫”、“狗”、“汽车”)都有固定的位置,彼此之间的距离代表了它们的相似度。
    • 以前的问题:特训(微调)过程中,导游为了适应新任务,把地图上的点揉成一团或者拉得太散,导致原本“猫”和“狗”的位置关系乱了。当遇到没见过的动物时,它因为地图乱了,就胡乱指路。
    • 我们的方法:我们在训练时,时刻拿着**“原地图”**(冻结的 CLIP 模型)做对比。
      • 我们要求导游调整后的地图,整体形状(平均值)和分布范围(方差)必须和原地图保持一致。
      • 这就像是在装修房子时,虽然可以重新摆放家具(适应新任务),但不能把承重墙拆了,也不能把客厅和卧室的位置完全搞反。
    • 效果:保证了导游在面对从未见过的新事物时,依然能利用原本的世界观进行合理的推断,不会瞎自信。

3. 实验结果:既聪明又诚实

作者在 11 个不同的数据集(从识别花朵到识别飞机、汽车)上测试了这种方法。

  • 结果
    • 准确率没降:导游认东西的能力依然很强,甚至更强了。
    • 校准误差(ECE)大幅下降:这是衡量“自信度是否真实”的指标。
      • 对于熟悉的花,它不再畏畏缩缩,该自信时自信。
      • 对于陌生的花,它不再盲目自大,该谨慎时谨慎。
  • 通用性:这个方法像是一个“即插即用”的插件,可以套用在各种现有的 AI 微调方法上,不需要大改架构。

4. 总结:为什么这很重要?

这就好比我们在培养一个既专业又靠谱的专家

  • 以前的微调方法只追求“答对”,结果专家要么不敢说话(低估风险),要么乱说话(高估风险)。
  • 这篇论文的方法,让专家在保持专业度的同时,学会了评估自己的不确定性

一句话总结
这篇论文通过给 AI 加上“稳定自信度”和“保持世界观”的双重约束,让大模型在适应新任务时,不再“飘忽不定”或“盲目自大”,从而在自动驾驶、医疗诊断等高风险领域变得更加安全、可信

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →