Barriers for Learning in an Evolving World: Mathematical Understanding of Loss of Plasticity

本文基于动力系统理论,从第一性原理出发揭示了深度学习中“可塑性丧失”现象的数学本质,指出激活饱和导致的单元冻结与表示冗余引发的克隆流形是造成梯度轨迹陷入稳定流形从而阻碍持续学习的主要机制,并阐明了静态泛化优势与持续学习能力之间的根本矛盾。

Amir Joudaki, Giulia Lanzillotta, Mohammad Samragh Razlighi, Iman Mirzadeh, Keivan Alizadeh, Thomas Hofmann, Mehrdad Farajtabar, Fartash Faghri

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个深度学习领域非常棘手的问题:为什么人工智能模型在不断学习新事物时,会逐渐变得“变傻”或“僵化”,再也学不会新东西了?

作者把这种现象称为**“可塑性丧失”(Loss of Plasticity, LoP)。为了让你更容易理解,我们可以把训练好的神经网络想象成一个正在不断扩建的图书馆**,而学习新任务就是往图书馆里添加新书

以下是这篇论文的核心内容,用通俗的语言和比喻来解释:

1. 核心问题:图书馆的“死胡同”

想象一下,你经营着一个图书馆(神经网络)。

  • 初始状态:图书馆刚开张,书架是空的,你可以随意摆放任何书(模型处于“可塑”状态,什么都能学)。
  • 学习过程:随着你不断往里面放书(训练数据),书架慢慢被填满。
  • 问题出现:在传统的训练模式下,为了把书放得整整齐齐、方便查找(为了在静态数据上表现好),管理员(优化算法)开始把相似的书强行塞进同一个格子里,甚至把某些书架彻底封死,不再允许放新书。
  • 后果:当新的、不同类型的书(新任务)来了,管理员发现根本没有地方放,或者根本打不开那些被封死的门。这时候,图书馆虽然看起来书很多,但已经失去了接纳新事物的能力。这就是“可塑性丧失”。

2. 为什么会发生?两个“陷阱”

论文指出,模型之所以会掉进这个“死胡同”,是因为参数空间(图书馆的布局)里存在两个天然的**“陷阱”(Manifolds)**。一旦掉进去,梯度下降(管理员的整理动作)就只会沿着陷阱的边缘走,永远爬不出来。

陷阱一:冻僵的单元(Frozen Units)

  • 比喻:想象图书馆里有些图书管理员(神经元)太累了,或者被安排在了一个光线太暗(激活函数饱和)的角落,他们彻底“睡着了”,不再对任何新书做出反应。
  • 原理:当神经元的激活值变得极大或极小(比如 ReLU 激活函数输入负数太大),它们的“反应速度”(梯度)就变成了 0。一旦它们“睡着”了,无论怎么推它们(更新权重),它们都纹丝不动。
  • 结果:这部分书架彻底报废,模型失去了这部分的学习能力。

陷阱二:克隆的单元(Cloned Units)

  • 比喻:为了节省空间,管理员发现把两本书的内容完全复制一份,放在两个相邻的格子里,看起来像是两个书架,其实内容一模一样。
  • 原理:模型为了追求“高效”和“低秩”(用更少的资源表达更多信息),会让不同的神经元学习完全相同的东西。它们就像克隆人,输入什么,输出什么,连思考过程都一模一样。
  • 结果:虽然书架数量没变,但有效信息量大大减少了。模型实际上是在用“假”的多样性来欺骗自己,一旦遇到新任务,这些克隆人无法提供新的视角。

3. 一个讽刺的真相:越努力,越僵化

论文提出了一个非常反直觉的观点:导致模型“僵化”的机制,恰恰是它之前“变强”的原因。

  • 比喻:这就好比为了在旧书展上拿奖(在静态数据集上取得好成绩),图书馆管理员拼命把书归类、压缩、去重,把书架整理得井井有条(低秩结构、神经坍缩)。
  • 矛盾:这种“井井有条”在旧环境下是优点,但在需要不断接纳新环境(持续学习)时,就变成了枷锁。为了追求当前的完美,模型主动把自己锁进了一个狭窄的房间里,失去了探索新世界的自由度。

4. 怎么破局?(解决方案)

既然知道了原因,作者也提出了一些“越狱”的方法:

方法一:给图书馆“通风”(归一化 Normalization)

  • 做法:使用批归一化(Batch Norm)或层归一化(Layer Norm)。
  • 比喻:这就像给那些“睡着”的管理员吹空调、开窗户,或者给书架加个自动调节器,防止它们因为太热或太冷而“冻僵”。这能保持神经元的活跃度,防止它们过早进入“死机”状态。

方法二:制造一点“混乱”(扰动 Perturbations)

  • 做法:在训练过程中加入噪声(Noisy SGD)或者随机丢弃部分神经元(Dropout)。
  • 比喻:既然模型已经掉进了“死胡同”里出不来,那就故意制造一点地震或混乱
    • 噪声:就像在图书馆里突然扔几个球,把那些“克隆”的管理员撞散,让他们重新思考,不再完全同步。
    • Dropout:就像随机把某些管理员关进小黑屋,强迫剩下的管理员必须学会独立工作,打破“克隆”的依赖关系。
    • 效果:这种人为的“混乱”能打破对称性,把模型从陷阱里推出来,让它重新获得学习新事物的能力。

总结

这篇论文告诉我们:
现在的 AI 模型太擅长“应试”了(在固定任务上表现完美),以至于它们为了追求这种完美,主动把自己变成了**“死板”的机器**。它们学会了把知识压缩、复制,却忘了保持灵活和多样性的重要性。

要想让 AI 真正像人类一样终身学习,我们不能只盯着它现在的考试成绩,还要时刻警惕它是否掉进了“僵化”的陷阱,并适时地给它一点“混乱”和“刺激”,让它保持可塑性(Plasticity),永远保持学习新事物的能力。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →