Local-Global Prompt Learning via Sparse Optimal Transport

本文提出了 SOT-GLP 方法,通过共享稀疏补丁支持和平衡最优传输分配,在少样本视觉语言模型适应中实现了全局与局部提示的协同学习,从而在提升分类精度的同时,通过保留原生特征几何结构显著增强了分布外检测性能。

Deniz Kizaro\u{g}lu, Ülku Tuncer Küçüktas, Emre Çakmakyurdu, Alptekin Temizel

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 SOT-GLP 的新方法,旨在让 AI 模型(特别是像 CLIP 这样的“看图说话”模型)在只有很少样本(比如只有几张图)的情况下,也能更聪明地识别物体,并且能更好地分辨“陌生”的图片。

为了让你轻松理解,我们可以把 AI 识别图片的过程想象成**“招聘面试”**。

1. 背景:以前的面试有什么问题?

想象一下,你是一家大公司的 HR,手里有一堆简历(图片),你需要把它们分给不同的部门(类别,比如“猫”、“狗”、“飞机”)。

  • 以前的做法(全局匹配):
    你只看求职者的整体印象(比如身高、学历)。这就像 AI 以前只看整张图的“平均感觉”。

    • 缺点: 如果一张图里既有猫又有狗,或者背景很乱,AI 就会糊涂。它分不清到底是“猫”还是“背景里的草地”。
  • 最近的改进(局部匹配):
    现在的 AI 开始看细节了,比如“猫耳朵”、“狗尾巴”。

    • 新问题: 就像一群面试官(Prompt)各自为战。面试官 A 盯着猫耳朵看,面试官 B 也盯着猫耳朵看,结果大家都抢着看同一个地方,而忽略了猫尾巴。这就叫**“重复劳动”“资源浪费”**。而且,如果大家都盯着同一个地方,一旦那个地方看错了,整个判断就全错了。

2. SOT-GLP 的解决方案:聪明的“分派任务”

SOT-GLP 就像是一位超级聪明的面试主管,它做对了三件事:

第一招:双管齐下(全局 + 局部)

它保留了“看整体”的能力(全局分支),确保不会把“猫”认成“狗”这种大方向错误。同时,它专门开辟了一个“细节观察员”团队(局部分支),专门盯着图片里的纹理、小零件。

第二招:只挑重点(稀疏选择)

以前,细节观察员会盯着图片里的每一寸地方看(包括背景里的灰尘、树叶)。
SOT-GLP 说:“别看了!只挑最有用的部分!”
它利用一种叫V-V 注意力的技术,像探照灯一样,自动过滤掉背景噪音,只把聚光灯打在“猫耳朵”、“汽车车灯”这些关键部位上。

第三招:公平分配(稀疏最优传输)

这是最核心的创新。
想象有 4 个面试官(Prompt),分别负责找“猫的特征”。

  • 以前的做法: 4 个面试官都抢着看“猫耳朵”,没人看“猫尾巴”。
  • SOT-GLP 的做法: 它使用一种数学工具叫**“最优传输”(Optimal Transport)。这就像是一个公平的调度员**。
    • 调度员规定:每个面试官必须分配到一个独特的“猫耳朵”或“猫尾巴”区域。
    • 大家不能抢同一个地方。
    • 结果:有的面试官负责看眼睛,有的负责看胡须,有的负责看尾巴。大家分工合作,拼凑出一个完整的“猫”的概念。这就避免了大家挤在一起看同一个地方,也避免了某个面试官“偷懒”只看一个地方。

3. 一个有趣的发现:速度与稳健的“天平”

论文还发现了一个非常有趣的“权衡”现象,就像**“精准度”与“抗干扰能力”**之间的博弈:

  • 模式 A(带投影): 如果让面试官们完全根据新公司的要求(训练数据)去调整自己的眼光,他们在熟悉的领域(比如只认猫狗)会非常准,成绩很好。
  • 模式 B(无投影): 如果让面试官们保持原本的眼光(不强行调整),虽然他们在熟悉领域的分数稍微低了一点点(比如从 99 分降到 98 分),但他们极其擅长发现“陌生人”
    • 比喻: 一个完全适应了新环境的保安,可能认不出混进来的伪装者;而一个坚持自己原则的保安,只要看到不对劲的地方(比如背景里的奇怪纹理),立刻就能报警。
    • 结果: 论文发现,去掉那个“强行调整”的步骤,AI 在识别异常图片(Out-of-Distribution,比如把猫的图片拿去识别成“汽车”)时,表现达到了世界顶尖水平。

4. 总结:这有什么用?

简单来说,SOT-GLP 让 AI 变得更聪明、更公平:

  1. 少样本学习更强: 哪怕只给几张图,它也能通过“分工合作”迅速学会识别新物体。
  2. 不瞎凑热闹: 它强迫不同的“观察员”去关注图片的不同部分,避免了重复和混乱。
  3. 更安全: 它提供了一种选择,如果你更看重“别把假东西当真东西”,就可以选择那个“不调整”的模式,让 AI 对陌生事物保持警惕。

一句话总结:
SOT-GLP 就像给 AI 配备了一支分工明确、互不抢戏的特种部队,既能精准识别目标,又能敏锐地察觉异常,而且还能根据任务需求,灵活地在“追求高分”和“追求安全”之间切换。