Learning in the Null Space: Small Singular Values for Continual Learning

本文提出了名为 NESS 的持续学习方法,该方法利用输入表示中小奇异值对应的方向构建近似零空间,并通过在该子空间内约束低秩适配(LoRA)更新,在无需梯度投影的情况下有效缓解了灾难性遗忘并实现了对新任务的学习。

Cuong Anh Pham, Praneeth Vepakomma, Samuel Horváth

发布于 2026-02-26
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 NESS 的新方法,旨在解决人工智能领域的一个大难题:“机器如何一边学习新知识,一边不忘掉旧知识?”

在机器学习中,这被称为“持续学习”(Continual Learning)。如果模型学得太快,往往会发生“灾难性遗忘”(Catastrophic Forgetting),就像你刚背熟了新的电话号码,结果把老朋友的名字全忘了。

为了解决这个问题,作者们想出了一个非常巧妙的办法,我们可以用几个生活中的比喻来理解:

1. 核心难题:在拥挤的房间里跳舞

想象你的大脑(神经网络)是一个拥挤的舞池

  • 旧任务:已经有很多人在舞池里跳着熟悉的舞步(旧知识)。
  • 新任务:现在来了一个新舞者,想加入进来跳新的舞蹈。
  • 问题:如果新舞者乱跳,很容易踩到旧舞者的脚,或者把大家挤散,导致旧舞蹈跳不下去了(这就是“遗忘”)。

以前的方法(梯度投影法)通常是:新舞者每跳一步,都要停下来检查:“我是不是踩到别人了?如果是,我就把脚缩回来,换个方向。”这就像是在跳舞过程中不断修正动作,虽然有效,但有点笨拙且计算量大。

2. NESS 的创意:寻找“隐形空地”

NESS 的方法完全不同。它不打算在跳舞时不断修正,而是一开始就只去那些没人踩的地方跳

作者发现了一个数学上的秘密:

  • 在舞池(数据空间)里,有些方向是人声鼎沸、拥挤不堪的(对应大奇异值),那是旧舞者主要活动的区域。
  • 而有些方向是几乎没人去、非常空旷的(对应小奇异值)。这些方向对于旧任务来说,就像是一个“隐形空地”或“静默区”。

NESS 的核心策略就是:

“只在这些‘隐形空地’里学习新东西。”

3. 具体怎么做?(三个步骤)

第一步:绘制“无人区地图” (SVD 分解)

在开始学习新任务前,NESS 会先快速扫描一下旧任务留下的“脚印”(输入数据)。它通过一种数学工具(奇异值分解,SVD),找出哪些方向是旧任务几乎没怎么用过的。

  • 比喻:就像在图书馆里,管理员发现书架的某些角落(小奇异值方向)几乎没人放书,非常安静。

第二步:搭建“专属脚手架” (构建子空间)

NESS 会把这些“无人区”的方向提取出来,做成一个固定的框架(冻结的基底)。

  • 比喻:它在这个安静的角落里搭好了一个专属的脚手架。这个架子是锁死的,不会动,因为它属于旧任务的“安全区”。

第三步:只动“小零件” (低秩适应 LoRA)

新任务的学习,被限制在这个脚手架上。

  • 比喻:新舞者(新任务)只能在这个脚手架上活动。因为脚手架本身就在“无人区”,所以新舞者怎么跳,都不会碰到旧舞者。
  • 关键点:NESS 不需要训练整个大脑,它只需要训练一个非常小的矩阵(就像只训练舞者的手脚动作,而不是整个身体)。这就像给旧衣服加了一个可拆卸的袖套,既灵活又不会破坏衣服本身。

4. 为什么这很厉害?

  • 互不干扰:因为新学习的内容被严格限制在旧任务“没怎么用”的方向上,所以旧知识完全不会受影响。就像你在图书馆的角落里练字,完全不会打扰到在主要区域看书的人。
  • 效率极高:它不需要像以前的方法那样,每走一步都要回头检查(梯度投影)。它直接“走对路”,计算速度更快,内存占用更少。
  • 结果更好:论文在三个著名的测试数据集(CIFAR-100, 5-datasets, MiniImageNet)上做了实验。结果显示,NESS 不仅记得住旧知识(遗忘率极低,甚至有时候新任务还能帮旧任务变得更好),而且学新东西的速度和准确度都非常高。

总结

NESS 就像是一个聪明的“空间规划师”
它不强迫新来的学生去挤占老学生的座位,而是敏锐地发现了教室里那些被遗忘的角落(小奇异值方向),并在那里专门开辟了一个新教室

  • 旧知识:在原来的位置稳稳当当。
  • 新知识:在专属的新位置自由生长。
  • 结果:大家和平共处,谁也不忘谁。

这篇论文告诉我们,有时候少即是多(Small Singular Values),那些看似微不足道的“安静角落”,恰恰是解决“遗忘”问题的关键钥匙。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →