Taming Momentum: Rethinking Optimizer States Through Low-Rank Approximation

本文提出了名为 LoRA-Pre 的新型低秩优化器,通过将动量矩阵分解为紧凑的低秩子空间来显著降低内存开销,并在 Llama 架构的预训练和微调任务中实现了超越现有高效基线方法的性能表现。

Zhengbo Wang, Jian Liang, Ran He, Zilei Wang, Tieniu Tan

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 LoRA-Pre 的新方法,旨在解决训练大型人工智能模型(如 Llama 系列)时“太费内存”的痛点。

为了让你轻松理解,我们可以把训练 AI 模型想象成一位正在学习驾驶新车的司机

1. 核心问题:司机的“记性”太占地方

在训练 AI 时,优化器(Optimizer,比如常用的 Adam)就像司机的大脑。为了开得稳,司机不能只看眼前的路况(当前的梯度),还需要记住过去的经验(动量 Momentum)。

  • 传统做法(Adam/Muon): 司机的大脑里有一个巨大的“记忆本”,详细记录了每一秒、每一个方向上的过去经验。这个本子非常厚,随着车开得越久(模型越大),本子就越厚,最后把司机的背包(显存/内存)塞爆了,导致他跑不动了,或者只能开很小的车。
  • 现状: 现在的 AI 模型越来越大,这个“记忆本”占用的内存甚至超过了模型本身,成了最大的瓶颈。

2. 核心洞察:记忆其实是个“线性回归”

作者发现了一个有趣的数学秘密:“动量”的更新方式,本质上和“在线线性回归”是一回事。

  • 通俗比喻:
    • 传统的动量更新像是在说:“记住过去,再结合现在,取个平均值。”
    • 作者发现,这其实等同于:司机在实时训练一个“预测器”。他在问自己:“如果我要预测未来的路况,我该怎么调整我的记忆策略,才能最准确地拟合刚才走过的路?”
    • 这就把“死记硬背”变成了“学习如何预测”。

3. 解决方案:LoRA-Pre(低秩压缩)

既然动量是一个“预测器”,我们就不需要把整个巨大的“记忆本”都存下来。我们可以用两张薄薄的卡片(低秩矩阵)来代表这个记忆本。

  • 比喻:
    • 以前,司机要背下整本《世界地图》(全秩矩阵,p×qp \times q),这太重了。
    • 现在,LoRA-Pre 告诉司机:“你不需要背整本地图。你只需要记住两个关键点:‘主要方向’(矩阵 A)和‘主要距离’(矩阵 B)。只要把这两个卡片拼起来,就能还原出 99% 的地图信息。”
    • 效果: 内存占用从“一本厚书”瞬间变成了“两张小卡片”。

4. 为什么它比以前的方法更好?

以前的低秩方法(比如 GaLore)有点像**“定期更新地图”**:

  • 它们每隔一段时间才重新计算一次“主要方向”,中间这段时间,如果路况变了(梯度变了),司机还在用旧地图,就会走弯路,产生误差积累。

LoRA-Pre 的做法是“实时微调”:

  • 它利用刚才提到的“线性回归”原理,每一步都在微调那两张小卡片。
  • 比喻: 就像司机手里拿着一个智能导航仪,每走一步,导航仪就自动微调路线,而不是等开了一公里才重新规划。这样,即使卡片很薄(秩很低),也能紧紧跟上路况的变化,不会走偏。

5. 实验结果:小身材,大能量

作者在 Llama 模型(从 6000 万参数到 10 亿参数)上进行了测试:

  • 预训练(从头学): LoRA-Pre 在几乎所有模型大小上都取得了最好的成绩,甚至超过了那些占用巨大内存的传统优化器。
  • 微调(学新技能): 在让大模型学习数学题时,LoRA-Pre 的表现也吊打其他省内存的方法。
  • 惊人的效率: 最酷的是,LoRA-Pre 只需要使用其他方法 1/8 甚至更少 的“卡片厚度”(Rank),就能达到同样的效果。

总结

LoRA-Pre 就像给 AI 司机换了一个**“智能压缩记忆法”
它不再死记硬背庞大的历史数据,而是学会了
用两张小卡片实时预测路况**。这不仅让司机(AI)能背起更重的背包(训练更大的模型),还跑得更快、更稳,而且省下的内存空间足以让它在更便宜的电脑上运行。

一句话总结: 把笨重的“死记硬背”变成了灵动的“实时预测”,用极少的内存训练出最强的 AI。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →