Evolving Prompt Adaptation for Vision-Language Models

本文提出了名为 EvoPrompt 的新框架,通过模态共享提示投影器、解耦进化训练策略以及特征几何正则化,在实现少样本任务高性能适配的同时,有效解决了视觉语言模型微调过程中的灾难性遗忘问题,从而在保留预训练零样本能力的同时完成稳定进化。

Enming Zhang, Jiayang Li, Yanru Wu, Zhenyu Liu, Yang Li

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 EvoPrompt 的新方法,旨在解决让大型“视觉 - 语言模型”(比如能看图说话的 AI)适应新任务时遇到的一个核心难题:如何在学会新东西的同时,不忘记原本学到的通用知识。

为了让你更容易理解,我们可以把整个技术过程想象成**“培养一位全能专家”**的故事。

1. 背景:天才学生遇到了“偏科”危机

想象一下,你有一个超级天才学生(这就是预训练好的大模型,比如 CLIP)。他在学校里见过世界上所有的书和画,所以他对任何事物都能做出很棒的“零样本”判断(比如没学过猫,但看到猫也能猜出是猫)。

现在,你想让他专门去学**“识别某种特定的稀有兰花”**(这是下游任务,数据很少)。

  • 传统做法(全量微调): 让他把脑子里所有的知识都推翻,重新背一遍。这太费脑子(计算资源)了,而且他可能会把以前学的“猫”和“狗”的知识全忘了。
  • 现有做法(提示词学习/Prompt Learning): 给他发一张“小抄”(Prompt),让他考试时照着念。但这有个大问题:为了适应兰花,他可能会把小抄改得面目全非,结果考试时虽然能认出兰花,但连基本的“这是植物”这个概念都忘了,甚至把兰花认成了蘑菇。这就是论文里说的**“灾难性遗忘”**。

2. 核心方案:EvoPrompt(进化式提示)

EvoPrompt 就像是一位高明的教练,他设计了一套独特的训练方案,确保学生在学新技能时,既能进步,又能守住底线。这套方案有三个绝招:

绝招一:共享的“核心笔记” (Modality-Shared Prompt Projector)

  • 以前的做法: 给学生的每一层大脑(模型的每一层)都发一张独立的小纸条。这些纸条互不相干,导致信息传递断断续续。
  • EvoPrompt 的做法: 教练只给学生发一本统一的“核心笔记”。这本笔记是通用的,但会根据不同的任务(看图还是看字),自动拆解成适合每一层大脑的“分册”。
  • 比喻: 就像盖房子,以前是每层楼用不同的砖头随意堆砌;现在是用同一套高质量的“核心蓝图”,根据楼层需求灵活调整。这样,视觉(看图)和语言(读字)的信息就能完美融合,不再各说各话。

绝招二:只改“音量”,不改“方向” (Evolutionary Trajectory-Aware Learning)

这是论文最精彩的部分。

  • 以前的做法: 学生在学习时,可能会把原本正确的“方向”(比如“这是花”)彻底改歪,变成“这是草”。一旦改歪了,就回不来了。
  • EvoPrompt 的做法: 教练把学生的调整分为两个部分:
    1. 方向(Direction): 这是学生早期学到的核心知识(比如“这是植物”)。教练规定:这个方向一旦确定,就冻结住,不许乱动! 就像指南针的北极,必须永远指着北。
    2. 幅度(Magnitude): 这是学生后来学到的细节(比如“这是兰花,不是玫瑰”)。教练允许学生只调整这个“音量”的大小
  • 比喻: 想象你在调收音机。以前的方法是把整个频道都换掉,结果可能连台都搜不到。EvoPrompt 的方法是:频道(方向)锁死在“古典音乐”,你只能调节“音量”(幅度)。这样,你既能听到更清晰的细节(适应新任务),又永远不会切到“重金属摇滚”去(忘记基础知识)。

绝招三:防止“走火入魔”的几何约束 (Feature Geometric Regularization)

  • 问题: 有时候学生为了迎合新任务,会把脑子里的特征都挤在一起,变得乱七八糟(特征坍塌),导致什么都分不清。
  • EvoPrompt 的做法: 教练加了一条规矩:你学到的新特征,必须和旧特征保持“ orthogonal(正交/垂直)”的关系。
  • 比喻: 就像整理书架。以前的书(旧知识)和新买的书(新知识)不能混成一团乱麻,必须分门别类,整齐排列。这样,当你想找“兰花”时,不会把“猫”的书也翻出来。

3. 训练过程:像“进化”一样成长

这个方法的名字叫“进化”,是因为它模拟了生物进化的过程:

  1. 早期: 学生快速建立核心方向(确定大框架)。
  2. 中期: 学生开始微调幅度(适应具体任务)。
  3. 后期: 随着训练深入,教练会降低学生的“学习权限”(降秩机制),让他不再能随意大改,只能做微调。这就像青春期结束,人的性格(方向)定型了,只能在外表(幅度)上稍微修饰一下。

4. 结果:既专又博

实验证明,EvoPrompt 这个方法非常成功:

  • 在少样本学习(Few-shot)中: 它只需要看几张图就能学会新任务,而且学得非常快。
  • 在保持通用能力上: 它没有因为学新东西而变笨。原本它能识别 1000 种东西,学完新任务后,它依然能识别那 1000 种,甚至识别得更准。
  • 效率: 它不需要像以前那样训练巨大的模型,只训练很少的参数(就像只给天才学生发了一张小纸条,而不是让他重写整本教科书)。

总结

EvoPrompt 就像是给 AI 装了一个**“智能导航系统”。它告诉 AI:“去新地方(新任务)时,你可以调整车速和路线细节(幅度),但大方向(核心知识)绝对不能变**,而且要把行李整理好(几何约束),别把东西弄丢了。”

这让 AI 既能成为某个领域的专家,又能保持它原本博学多才的“通才”本色,完美解决了“学新忘旧”的难题。