One-Prompt Strikes Back: Sparse Mixture of Experts for Prompt-based Continual Learning

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 SMoPE 的新方法，旨在解决人工智能（AI）在学习新知识时容易“忘记”旧知识的难题。

为了让你轻松理解，我们可以把 AI 的学习过程想象成一位正在不断进修的“超级大厨”。

1. 核心问题：大厨的“失忆症”

在人工智能领域，这叫持续学习（Continual Learning）。

场景：这位大厨（AI 模型）今天学做川菜，明天学做粤菜，后天学做法餐。
问题：传统的 AI 就像一位记性不好的大厨，每学一道新菜，脑子里的旧菜谱就被覆盖或弄乱了。学完法餐后，他可能完全忘了怎么做川菜。这就是著名的**“灾难性遗忘”**。

2. 现有的两种笨办法

为了解决这个问题，以前的研究者想了两个办法，但都有缺点：

办法 A：给每道菜配一个专属“小抄”（Task-Specific Prompts）
- 做法：学川菜时，给大厨贴一张“川菜小抄”；学粤菜时，换一张“粤菜小抄”。
- 缺点：如果大厨要学 100 道菜，就需要 100 张小抄。这不仅太占地方（内存大），而且每次做菜前，大厨得先花时间去翻找“我现在该用哪张小抄？”，这太慢了（计算开销大）。
办法 B：只用一张“万能小抄”（Shared Prompt）
- 做法：不管学什么菜，只给大厨一张小抄，让他自己根据情况调整。
- 缺点：这张小抄上的字会越改越乱。学川菜时写的字，可能被学粤菜时改没了。结果就是，大厨什么菜都做得不正宗（性能差），因为知识互相干扰了。

3. SMoPE 的妙计：智能“专家团”

这篇论文提出的 SMoPE 方法，就像给这位大厨配备了一个**“专家顾问团”，但只叫其中几个**来帮忙。

核心比喻：稀疏混合专家（Sparse Mixture of Experts）

想象大厨的脑子里有一个**“专家会议室”**，里面坐着 25 位不同的“口味专家”（Prompt Experts）：

有的专家擅长辣味（川菜）。
有的专家擅长鲜味（粤菜）。
有的专家擅长酸甜味（糖醋里脊）。

SMoPE 是怎么工作的？

只叫对的人（稀疏激活）：
当大厨接到“做麻婆豆腐”的任务时，SMoPE 不会把 25 位专家全叫来开会（那样太吵太慢），也不会只叫一位（可能不够用）。它会智能地计算，发现“辣味专家”和“豆制品专家”最相关，于是只叫这 2 位进来帮忙。
- 好处：既不用存 100 张小抄，也不用让所有专家互相打架。
动态打分系统（Prompt-Attention Score）：
怎么知道该叫谁？SMoPE 有一个**“智能评分器”**。它看一眼当前的食材（输入数据），迅速给每位专家打分，选出分数最高的几位。这就像大厨看一眼食材，脑子里瞬间闪过“这个需要辣椒专家”，完全不需要翻找旧笔记。
防止“老专家”霸占舞台（自适应噪声）：
在训练过程中，可能会出现一种情况：几位“老专家”特别受欢迎，每次都被叫去干活，而新来的专家根本没机会上场。这会导致新任务学不好。
- SMoPE 的对策：它给那些太忙的老专家施加一点“噪音”（就像给他们戴个耳塞，稍微降低他们的声音），强迫系统去尝试那些被冷落的新专家。这样既保护了老专家的核心知识，又给了新专家锻炼的机会，保持团队的多样性。
保留“记忆原型”（原型损失函数）：
为了防止新专家把老专家的记忆覆盖掉，SMoPE 给每位专家发了一张**“记忆卡片”**（Prefix Keys）。这张卡片记录了该专家最擅长的领域特征。在训练新任务时，系统会检查新专家的动作，确保他们没有把“记忆卡片”上的核心特征擦掉。

4. 结果如何？

实验证明，SMoPE 这个方法非常棒：

更聪明：它的做菜水平（准确率）比那些给每道菜配专属小抄的方法还要好。
更省钱：因为它只调用一小部分专家，所以计算速度快了一半，占用的内存也极少。
更灵活：它不需要在推理时先跑一遍全模型来猜任务，直接就能根据当前输入做出反应。

总结

简单来说，SMoPE 就像是一个高效的“按需服务”系统。它不再给 AI 塞满成千上万张互不相关的小抄，也不再让它用一张混乱的万能小抄。而是建立了一个**“按需召唤”的专家库**：遇到什么任务，就精准召唤最相关的几位专家，既保留了过去的经验，又轻松学会了新技能，而且跑得飞快、省资源。

这就是为什么论文标题叫 "One-Prompt Strikes Back"（一张小抄的反击）：它用一张共享的“小抄”（专家库），通过智能调度，打败了那些笨重的旧方法。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于**持续学习（Continual Learning, CL）**的学术论文，提出了一种名为 SMoPE (Sparse Mixture of Prompt Experts) 的新框架。该论文发表于 ICLR 2026。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

在基于提示（Prompt-based）的持续学习中，主要存在两种策略，但各自都有明显的局限性：

任务特定提示（Task-specific Prompts）： 为每个任务分配独立的提示子集。虽然能有效隔离知识、减少干扰，但会导致参数量随任务数量线性增长，且推理时若任务身份未知，需要额外的计算开销来推断提示，效率低下。
共享提示（Shared Prompt）： 所有任务共用一个提示（如 OVOR 方法）。虽然参数效率极高，但由于所有任务共用同一组参数进行更新，容易导致知识干扰（Knowledge Interference），从而引发灾难性遗忘，性能通常不如任务特定方法。

核心问题： 能否在保持单提示（Single Prompt）的高参数效率的同时，达到甚至超越任务特定提示方法的性能，从而在效率与效果之间取得平衡？

2. 方法论 (Methodology)

SMoPE 的核心思想是将**稀疏混合专家模型（Sparse Mixture of Experts, SMoE）的架构引入到前缀微调（Prefix Tuning）**框架中。它将一个共享的提示结构化为多个“提示专家（Prompt Experts）”，并在每个输入样本上动态激活其中一小部分。

2.1 核心机制

稀疏提示专家选择 (Sparse Prompt Expert Selection)：
- 基于前缀微调，将每个注意力头（Attention Head）视为包含预训练专家和新增提示专家的混合专家模型。
- 提出提示 - 注意力分数聚合机制（Prompt-Attention Score Aggregation）：为了降低计算复杂度，不再为每个 token 单独计算所有专家的分数，而是计算输入的平均 token 表示（ $\tilde{x}$ ），据此生成每个提示专家的统一代理分数（Proxy Score）。
- 利用 Top-K 机制，仅激活与当前输入最相关的 $K$ 个专家，实现隐式的参数划分，减少任务间的干扰。
自适应噪声机制 (Adaptive Noise Mechanism)：
- 针对稀疏 MoE 中常见的“专家利用不平衡”问题（即少数专家被过度使用，导致知识覆盖不足），提出了一种自适应噪声策略。
- 该机制根据专家的历史激活频率，对高频激活的“重要专家”施加噪声惩罚，鼓励模型探索低频使用的专家，同时保护已学到的关键知识不被覆盖。
基于原型的损失函数 (Prototype-based Loss)：
- 为了增强专家的专业化（Specialization）并防止遗忘，利用前缀键（Prefix Keys）作为过去任务输入分布的隐式记忆（原型）。
- 设计了一个原型损失函数（ $L_{proto}$ ），在训练新任务时，约束前缀键不要偏离之前任务中高频专家的原型，从而在无需存储旧数据的情况下保留旧知识。
训练策略：
- 采用**任务自适应预测（Task-Adaptive Prediction）**来缓解分类器对新类别的偏差。
- 在第一个任务的初始阶段采用稠密训练（Dense Training）（即激活所有专家），以建立稳定的专家表征，随后切换为稀疏训练。

3. 主要贡献 (Key Contributions)

SMoPE 框架： 首次将稀疏混合专家架构集成到前缀微调中，通过动态稀疏激活机制，在单提示共享架构下实现了类似任务特定提示的性能。
创新组件：
- 提出了提示 - 注意力分数聚合，显著降低了专家选择的计算复杂度（从 $O(N \cdot d_k)$ 降至 $O(d_k)$ ）。
- 设计了自适应噪声机制，有效平衡了专家利用率，解决了稀疏 MoE 中的路由偏差问题。
- 提出了基于前缀键原型的损失函数，利用隐式记忆缓解灾难性遗忘。
理论保证： 证明了使用分数聚合机制的 SMoPE 在估计提示专家时，其样本复杂度与标准 MoE 相同（ $O(\tau^{-4})$ ），保证了模型的学习效率。
实验验证： 在多个基准测试中证明了该方法的有效性，同时大幅减少了参数量和计算成本。

4. 实验结果 (Results)

论文在 ImageNet-R、CIFAR-100 和 CUB-200 三个持续学习基准上进行了广泛实验（包括类增量学习场景）。

性能表现：
- SMoPE 在最终平均准确率（FAA）和累积平均准确率（CAA）上一致优于现有的任务特定提示方法（如 HiDe-Prompt, NoRGa）和共享提示方法（如 OVOR）。
- 在 ImageNet-R 上，SMoPE 的 FAA 达到 79.32%，优于次优的 VQ-Prompt (78.71%) 和 OVOR (75.25%)。
- 在 CUB-200 上，SMoPE 的 FAA 达到 87.43%，显著优于 HiDe-Prompt (85.60%)。
效率分析：
- 参数量： 仅使用一个共享提示，参数量（Learnable Parameters）仅为 0.38M，远低于任务特定方法（如 DualPrompt 为 1.10M，Deep L2P++ 为 4.78M）。
- 计算成本： 由于不需要为推断任务身份而进行全模型前向传播，且仅激活部分专家，推理计算量（GFLOPs）降低了约 50%。
消融实验： 证明了分数聚合、稀疏选择、自适应噪声和原型损失等每个组件都对最终性能有显著贡献。

5. 意义与影响 (Significance)

打破效率与性能的权衡： SMoPE 成功证明了在持续学习中，无需为每个任务分配独立参数，仅通过精心设计的稀疏共享架构，即可在保持极高参数效率的同时，实现甚至超越现有最先进（SOTA）方法的性能。
可扩展性： 该方法避免了提示数量随任务数量线性增长的问题，更适合长期、大规模的持续学习场景。
通用性： 实验表明该方法在不同预训练范式（如 ImageNet-1K, iBOT, DINO）下均表现稳健，具有良好的泛化能力。
未来方向： 为基于提示的持续学习提供了新的视角，即利用 MoE 的动态路由机制来解决知识干扰问题，而非单纯依赖参数隔离。

总结： SMoPE 通过“一个提示，多个专家，动态激活”的策略，巧妙地解决了持续学习中知识干扰与参数效率之间的矛盾，为构建高效、可扩展的持续学习系统提供了强有力的解决方案。

One-Prompt Strikes Back: Sparse Mixture of Experts for Prompt-based Continual Learning

1. 核心问题：大厨的“失忆症”

2. 现有的两种笨办法

3. SMoPE 的妙计：智能“专家团”

核心比喻：稀疏混合专家（Sparse Mixture of Experts）

4. 结果如何？

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 核心机制

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers