NOBLE: Accelerating Transformers with Nonlinear Low-Rank Branches

本文提出了专为从头预训练设计的 NOBLE 架构,通过在 Transformer 线性层中引入带有可学习非线性(如 CosNet)的低秩分支,在仅增加少量参数和时间开销的情况下显著提升了 LLM、BERT 及 ViT 等模型的训练效率。

Ethan Smith (Canva Research)

发布于 Mon, 09 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 NOBLE 的新方法,旨在让人工智能(特别是像大语言模型这样的“Transformer"架构)学得更聪明、更快。

为了让你轻松理解,我们可以把训练一个 AI 模型想象成教一个学生(AI)做数学题

1. 现状:学生只有一种解题思路

目前的 AI 模型(Transformer)在思考时,主要依赖一种“线性”的思维方式。

  • 比喻:想象这个学生非常擅长做直线运动。如果题目是“从 A 点走到 B 点”,他能算得飞快。但是,如果题目里藏着一些弯曲的、复杂的、像波浪一样起伏的规律(非线性关系),他就有点抓瞎了,只能硬着头皮用直线去近似,结果就是学得慢,或者最后算不准。
  • 问题:为了教他,我们通常需要让他重复做很多很多遍题(训练步数多),消耗大量时间和电力。

2. 解决方案:NOBLE 的“特快专列”

NOBLE 的核心思想是:给这个学生加一条**“特快专列”**(非线性低秩分支)。

  • 以前的做法(LoRA)
    以前的方法(如 LoRA)像是在学生已经毕业后,给他发一本“小抄”或者“补丁”,让他去适应新工作。这很好,但只适用于微调。
  • NOBLE 的做法
    NOBLE 是在学生刚入学(从头预训练)时,就给他装上一条永久性的副脑
    • 这条副脑专门负责处理那些弯曲的、复杂的、像波浪一样的规律
    • 主脑继续负责处理简单的直线规律。
    • 两者分工合作,学生就能同时掌握“直线”和“曲线”的解题技巧。

3. 核心魔法:CosNet(会唱歌的副脑)

这条“副脑”里装了什么?论文发现,用**余弦函数(Cosine)**作为激活函数效果最好。

  • 比喻
    • 普通的激活函数(如 ReLU)像是一个开关:要么开,要么关,或者像斜坡一样直上直下。
    • NOBLE 用的 CosNet 像是一个会唱歌的乐器。它产生的波形是平滑的、周期性的(像正弦波)。
    • 为什么有效? 现实世界的数据(比如语言、图像)充满了起伏和节奏。这个“会唱歌的副脑”天生就能捕捉这些高频的、细微的波动。它不需要像主脑那样费力地去“猜”这些波动,而是直接“唱”出来。
    • 论文还发现,这个副脑有两个“旋钮”(频率和相位),可以自动调节它唱歌的音调和节奏,以适应不同的题目。

4. 效果:虽然车重了一点,但跑得更快了

你可能会问:“加了副脑,学生是不是变笨重了?跑得慢了吗?”

  • 代价:是的,学生背的书包确实重了一点点(参数量增加了 4%24%),每做一道题的时间也稍微慢了一点点(每步耗时增加 7%21%)。
  • 收益:但是!因为副脑帮大忙了,学生学会同样难度的题目,需要的练习次数(训练步数)减少了 21%~32%
  • 最终结果:虽然每道题做得慢了一点点,但因为总题数大大减少,最终完成训练的时间反而快了 1.17 到 1.22 倍
    • 比喻:就像你开车去目的地。虽然你的车因为装了新引擎(NOBLE)稍微重了一点,油耗稍微高了一点点,但因为新引擎让你能走一条更直的捷径,你反而比开旧车的人更早到达

5. 一个有趣的“副作用”:太光滑的路反而不好走

论文发现了一个有趣的现象:NOBLE 在大多数任务上都很强,但在图像分类任务中,如果使用了某种叫 Mixup/CutMix 的“数据增强”技巧(简单说就是把两张图拼在一起,或者把标签模糊化,强行让数据变得更平滑),NOBLE 的效果就会变差。

  • 原因
    • NOBLE 的副脑擅长捕捉尖锐的、细微的、高频的细节(就像捕捉波浪的尖峰)。
    • 而 Mixup/CutMix 这种技巧,强行把数据“磨平”了,把那些尖锐的细节给抹掉了。
    • 比喻:这就好比你派了一个擅长攀岩的专家(NOBLE)去爬山,结果主办方把山修成了滑梯(Mixup 的平滑作用)。专家发现没地方抓了,他的特长发挥不出来,甚至可能因为不适应滑梯而表现不佳。
    • 结论:如果关掉这些“磨平”数据的技巧,NOBLE 在图像任务上依然表现优异。

总结

NOBLE 就像是给 AI 模型装了一个专门处理复杂波形的“副脑”

  • 它不是用来修补旧模型的,而是从出生起就一起训练的。
  • 它用会唱歌的余弦波来捕捉数据中那些细微的起伏。
  • 虽然让模型稍微变重了一点,但极大地提高了学习效率,让 AI 能更快地学会复杂的任务。

这项技术让训练大模型变得更便宜、更快,是人工智能领域的一个实用小进步。