DeCLIP: Decoupled Prompting for CLIP-based Multi-Label Class-Incremental Learning

本文提出了 DeCLIP 框架,通过解耦提示机制将多标签图像转化为单类视图以适配 CLIP 预训练范式,并引入自适应相似度调节策略,在无需回放和参数高效的前提下有效解决了多标签类增量学习中的灾难性遗忘与高误报率问题。

Kaile Du, Zihan Ye, Junzhou Xie, Yixi Shen, Yuyang Li, Fuyuan Hu, Ling Shao, Guangcan Liu, Joost van de Weijer, Fan Lyu

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DeCLIP 的新方法,旨在解决人工智能在“不断学习新事物”时容易“忘旧事”且“乱认人”的难题。

为了让你轻松理解,我们可以把 AI 想象成一个正在上学的学生,把这项技术想象成一套超级学习法

1. 背景:学生面临的两大难题

想象这个学生(AI)正在学习识别图片里的东西。

  • 多标签(Multi-label): 一张照片里可能同时有“猫”、“狗”和“人”。学生需要同时认出它们,而不是只选一个。
  • 增量学习(Class-Incremental): 学校今天教“猫”,明天教“狗”,后天教“鸟”。学生不能把以前学的“猫”忘了,还要学会新的“鸟”。

在这个学习过程中,学生遇到了两个大麻烦:

  1. 灾难性遗忘(Catastrophic Forgetting): 就像你背了新的单词,结果把旧的单词全忘了。学生学了一堆新动物,结果把以前学的“猫”给忘了。
  2. 高误报率(High False Positives): 这是最头疼的。因为照片里有些动物是“没出现”的(比如照片里有猫和狗,但没鸟),而老师(训练数据)只告诉学生“这里有猫和狗”,没特意说“这里没有鸟”。
    • 结果学生变得过度自信:看到一张有猫的照片,他不仅说“有猫”,还瞎猜“肯定也有鸟!”,因为老师没教过他“没有鸟”这件事。这就叫误报(把没有的认成有的)。

2. 以前的方法为什么不行?

以前的方法(比如 L2P, DualPrompt)有点像**“大锅饭”**。

  • 它们给所有动物共用一个“提示词库”。
  • 当照片里同时有“猫”和“狗”时,它们共用同一个提示空间。这就像让猫和狗共用一个大脑区域,结果它们**“串味”**了(语义混淆)。
  • 而且,因为要不断从那个公共池子里选提示词,新学的知识会干扰旧的知识,导致学生忘得更快。

3. DeCLIP 的绝招:给每个人发专属“小抄”

DeCLIP 提出了一套全新的学习策略,核心思想是**“分而治之”**。

第一招:一对一专属小抄(语义解耦)

  • 以前的做法: 所有人共用一个笔记本,大家挤在一起,容易互相干扰。
  • DeCLIP 的做法:每一个动物(猫、狗、鸟、车...)都发一本专属的、独立的“小抄”(Prompt)。
    • 当看到照片时,AI 会分别翻开“猫的小抄”、“狗的小抄”去核对。
    • 好处: 猫和狗不再挤在一起了,它们互不干扰。即使照片里同时有猫和狗,AI 也能清晰地分开识别,不会把猫的特征误认为是狗的。
    • 防遗忘: 这些“小抄”一旦写好,就锁进保险柜(作为知识锚点),以后学新东西时,旧的小抄不会被擦除或修改。所以,学生永远不会忘记以前学过的动物。

第二招:冷静剂(自适应相似度调节 AST)

  • 问题: 学生还是容易“过度自信”,看到什么都觉得“可能有鸟”。
  • DeCLIP 的做法: 引入一个**“冷静剂”**(AST 模块)。
    • 当学生要判断“这是不是鸟”时,这个模块会根据当前学了多少种动物,自动调节学生的**“自信程度”**。
    • 如果学生学了很多新东西,这个模块就会告诉他:“慢点,别太自信!如果没有确凿证据,就别说有。”
    • 效果: 极大地减少了“瞎猜”的情况(把误报率从 25% 降到了 2% 左右),让学生变得既聪明又谨慎。

第三招:深度思考(深层提示)

  • 以前的方法只在浅层加提示,像只给表面贴个标签。
  • DeCLIP 把“小抄”贴在了大脑的深层区域(深层神经网络层)。这里处理的信息更丰富、更抽象,能让 AI 更精准地理解复杂的画面。

4. 总结:DeCLIP 厉害在哪里?

  1. 不用“复习旧书”(Replay-free): 以前的方法为了不忘旧知识,需要把以前的照片存下来反复看(占用大量内存)。DeCLIP 不需要存照片,光靠那些“锁好的小抄”就能记住一切,省空间又高效
  2. 参数极少: 它只训练很少的参数(就像只让学生背几行小抄,而不是重写整本教科书),但效果却比那些死记硬背的方法好得多。
  3. 结果更好: 在著名的测试题(MS-COCO 和 PASCAL VOC 数据集)上,DeCLIP 的成绩吊打之前的所有方法,既记得住旧知识,又很少乱认新东西。

一句话总结:
DeCLIP 就像给 AI 学生发了一套**“专属且永不过期的独立小抄”,并配了一个“防过度自信的冷静剂”**,让它能在不断学习新物种的同时,既不忘记老朋友,也不瞎猜陌生人,而且不需要背着一大堆旧照片到处跑。