Vision Transformers that Never Stop Learning

本文针对视觉 Transformer(ViT)在持续学习中出现的可塑性丧失问题,揭示了注意力模块的不稳定性与 MLP 模块的退化机制,并提出了基于在线曲率估计的几何感知优化器 ARROW,通过自适应调整梯度方向有效恢复并维持模型对新任务的学习能力。

Caihao Sun, Mingqi Yuan, Shiyuan Wang, Jiayu Chen

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个让 AI 变得像人类一样“终身学习”的核心难题,并提出了一个聪明的解决方案。为了让你轻松理解,我们可以把整个研究过程想象成经营一家不断扩张的“超级餐厅”

1. 背景:AI 的“失忆”与“僵化”危机

想象你开了一家餐厅(这就是Vision Transformer,简称 ViT,一种目前最强大的图像识别 AI 模型)。

  • 理想情况:餐厅今天学做川菜,明天学做粤菜,后天学做法餐。无论学多少新菜,之前的手艺都不忘,而且学新菜越来越快。
  • 现实问题(塑性丧失 Loss of Plasticity):随着时间推移,这家餐厅的厨师们开始“僵化”了。他们脑子里的菜谱变得死板,学新菜时,要么把旧菜全忘了(灾难性遗忘),要么根本学不会新菜,因为大脑里的“神经通道”已经堵死了。
  • 之前的研究:科学家发现,以前那种简单的“单层厨房”(像 MLP 这种简单模型)很容易僵化。但现在的“超级厨房”(ViT,结构更复杂,有注意力机制和多层网络)是不是也会僵化?以前没人仔细研究过。

2. 诊断:为什么 ViT 也会“变笨”?

作者像侦探一样,把 ViT 这个“超级厨房”拆开来检查,发现了两个关键问题:

  • 问题一:后厨越深,越容易“死机”
    ViT 有很多层(就像厨房有 12 个加工站)。研究发现,越靠后的加工站(深层模块),越容易变得死板。

    • 比喻:就像厨房的前几个切菜工(浅层)还能灵活切各种菜,但到了最后负责摆盘和调味的环节(深层),厨师们已经形成了固定的肌肉记忆,完全听不进新指令了。
  • 问题二:两个部门的“性格”不同
    ViT 主要由两个部门组成:注意力模块(MHSA)前馈网络(FFN)

    • 注意力模块(像“点菜员”):负责决定关注图片的哪部分。它们比较灵活,但在深层也会变得不稳定。
    • 前馈网络(像“厨师”):负责实际处理信息。作者发现,这个部门是“重灾区”。随着学习任务变多,这里的“厨师”大量“失业”(神经元不再激活),导致整个厨房的创造力枯竭。

结论:ViT 并不是天生免疫“僵化”的。相反,它的结构越复杂,深层的“厨师”死得越快,导致它学新东西越来越难。

3. 尝试的“药方”:为什么有些不管用?

作者试了好几种以前用来治疗“僵化”的老办法,结果发现:

  • 老办法 A(重启部分厨师):比如把不干活的老厨师踢走,换新人(CBP 算法)。
    • 结果:没用!因为 ViT 的部门之间配合太紧密,光换人解决不了整体配合僵化的问题。
  • 老办法 B(给厨师加点调料/正则化):强行规范厨师的动作。
    • 结果:效果微乎其微。

真正的发现:只有改变“训练方法”(优化器),也就是改变给厨师下达指令的方式,才能奏效。

4. 终极方案:ARROW(聪明的“指挥家”)

作者提出了一种叫 ARROW 的新方法。我们可以把它想象成一位拥有“透视眼”的超级指挥家

  • 传统方法(普通指挥家)
    当厨师们想往左走(梯度方向),指挥家就喊“向左”。但问题是,如果所有厨师都习惯往左走,新来的菜谱(新任务)需要往右走时,指挥家还是只会喊“向左”,只是喊得大声一点(调整学习率),结果厨师们还是撞墙。

  • ARROW 指挥家(几何感知)
    这位指挥家不仅听指令,还能看到厨房的“地形”(曲率估计)。

    • 它怎么做? 它发现某些方向(比如老菜谱的方向)已经被踩得坑坑洼洼(高曲率),再走就撞墙了;而某些方向(新菜谱需要的方向)是平坦的,但没人敢走。
    • 它的绝招:它利用一种“低秩”技术(简单说就是快速计算),实时调整指挥棒的方向。它强行把那些被忽视的、平坦的新方向“推”出来,让厨师们敢于尝试新菜,同时抑制那些已经走不通的老方向。
    • 比喻:就像在拥挤的地铁里,普通指挥只会让人往前挤,而 ARROW 指挥家能瞬间发现旁边有个空位,大喊:“别挤了,往那边空位走!”

5. 实验结果:效果显著

在 CIFAR-100(像 100 种不同的小动物图片)和 ImageNet-R(各种艺术风格的图片)等测试中:

  • 普通 ViT:学到后面,准确率大幅下降,完全学不动了。
  • ARROW 版 ViT:就像给餐厅请了个天才指挥家,无论学多少种新菜系,它都能保持高准确率,而且越学越稳。

总结

这篇论文告诉我们:

  1. AI 也会“变老”:即使是先进的 Vision Transformer,在长期学习中也会因为深层结构僵化而失去学习新事物的能力。
  2. 光换人不灵:简单的重启或结构调整救不了场。
  3. 改变“走路姿势”是关键:ARROW 通过智能地调整学习方向(就像指挥家引导人流),让 AI 在终身学习中始终保持“年轻”和灵活,真正实现了“永不停止学习”。

这就好比,要让一个老人(AI 模型)保持年轻,不是靠换掉他的器官(重置参数),而是教他一套新的、更灵活的运动体操(优化器),让他能灵活地适应新的生活节奏。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →