Prompt Tuning for CLIP on the Pretrained Manifold

该论文提出了 ManiPT 框架,通过在预训练流形上施加余弦一致性约束和结构偏差,解决提示微调在有限监督下偏离预训练表征导致泛化能力下降的问题,从而在多种下游任务中实现更优的迁移性能。

Xi Yang, Yuanrong Xu, Weigang Zhang, Guangming Lu, David Zhang, Jie Wen

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 ManiPT 的新方法,旨在解决人工智能(特别是像 CLIP 这样的“多模态大模型”)在数据很少的情况下学习新任务时容易“学偏”的问题。

为了让你轻松理解,我们可以把整个过程想象成教一个博学的老教授(预训练模型)学习一门新方言(下游任务)

1. 背景:博学的老教授与“学偏”的风险

想象一下,CLIP 模型就像一位博学的老教授。他在大学里读了成千上万本书(海量数据),对世界有了非常深刻、通用的理解(预训练流形/Manifold)。他的知识体系非常稳固,就像一张巨大的、结构严谨的“知识地图”。

现在,我们要教这位教授一种新的方言(比如识别某种特定的罕见动物),但手里只有几张图片(少样本/有限监督)。

  • 传统的做法(普通提示微调): 我们给教授几张图,让他自己猜。因为图太少,教授为了“猜对”,可能会开始死记硬背一些奇怪的规律。
    • 比喻: 教授为了认出“狗”,不再看狗的整体特征,而是死记“只要图片里有草地,就是狗”。结果,下次给他看一张在草地上的猫,他也认成狗了。
    • 后果: 教授偏离了他原本那张严谨的“知识地图”,跑到了错误的方向(流形漂移)。虽然他在考试(训练集)上得了高分,但到了真实世界(新场景)就彻底懵了。

2. 核心问题:为什么容易“学偏”?

论文指出,当数据很少时,模型很容易抓住一些虚假的捷径(Shortcut Learning)。

  • 比喻: 就像学生为了应付考试,不背公式,而是背“只要题目里有红笔写的字,答案就是 C"。这种技巧在特定试卷上管用,但换个试卷就废了。
  • 在 AI 里,这种“捷径”可能是背景颜色、纹理或者某种特定的噪点,而不是物体真正的特征。

3. ManiPT 的解决方案:给教授戴上“导航仪”和“安全带”

ManiPT 提出了两个聪明的策略,确保教授在学新方言时,既灵活又不会迷路

策略一:双模态“罗盘”(余弦一致性约束)

  • 怎么做: 论文给教授配了一个“罗盘”。
    • 视觉罗盘: 每次教授看新图片时,都要回头看看自己原本对这张图的理解(冻结的特征),确保新理解没有偏离太远。
    • 文字罗盘: 利用大语言模型(LLM)生成更丰富、更准确的文字描述(比如“一只长着毛茸茸耳朵、摇着尾巴的四足动物”),作为标准的“字典”。教授学习新词时,必须和这个标准字典保持“方向一致”。
  • 比喻: 就像教授在学新方言时,手里始终拿着一本标准词典老地图。他可以随时对照,确保自己说的新话没有脱离原本的语言逻辑,不会发明出没人听得懂的“黑话”。

策略二:渐进式“安全带”(结构偏差/Structural Bias)

  • 怎么做: 传统的微调可能让教授完全抛弃旧知识,直接重写大脑。ManiPT 则要求:新学到的知识,必须是在旧知识的基础上“加一点东西”,而不是“换掉”旧知识。
  • 比喻: 想象教授的大脑是一个坚固的地基(预训练模型)。
    • 普通方法像是在地基上直接盖一座摇摇欲坠的新楼,容易塌。
    • ManiPT 的做法是:在地基上轻轻加几块砖(增量修正)。新楼必须紧紧依附在地基上,不能悬空。这样,即使新楼有点小改动,整体结构依然是稳固的。
    • 这迫使教授只能沿着“可迁移”的方向(比如从“动物”细化到“狗”)去调整,而不能跳到“草地”这种无关的方向去。

4. 结果:既聪明又稳健

通过这种“罗盘”和“安全带”的双重保护,ManiPT 实现了:

  1. 不迷路: 即使在只有几张图的情况下,模型也不会偏离原本强大的知识体系。
  2. 不僵化: 模型依然能学会新任务,而且学得很扎实。
  3. 举一反三: 因为没学偏,所以遇到没见过的动物(新类别)或不同的环境(新领域),它依然能准确识别。

总结

这篇论文的核心思想就是:在教 AI 学新知识时,不要让它为了“走捷径”而丢掉原本的智慧。

ManiPT 就像一位严格的导师,它告诉 AI:“你可以学习新东西,但必须在你原本的知识框架内,一步步地、稳健地修正,不能为了应付眼前的几张图就胡乱猜测。”

这种方法让 AI 在数据稀缺的极端情况下,依然能保持高智商高稳定性,不再是个“死记硬背”的学渣,而是一个真正能举一反三的“学霸”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →