Omni-Masked Gradient Descent: Memory-Efficient Optimization via Mask Traversal with Improved Convergence

本文提出了一种名为 Omni-Masked Gradient Descent (OMGD) 的内存高效优化方法,该方法通过掩码遍历机制在无需额外显存开销的情况下,将非凸优化场景下的迭代复杂度从 O(ϵ4)\mathcal{O}(\epsilon^{-4}) 严格提升至 O~(ϵ3)\tilde{\mathcal{O}}(\epsilon^{-3}),并在大语言模型的预训练与微调任务中展现出优于基线的性能。

Hui Yang, Tao Ren, Jinyang Jiang, Wan Tian, Yijie Peng

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 OMGD (Omni-Masked Gradient Descent,全向掩码梯度下降) 的新方法,旨在解决大语言模型(LLM)训练中最头疼的问题:显存不够用

为了让你轻松理解,我们可以把训练大模型想象成在一个巨大的迷宫里寻找出口(最优解),而我们的显卡(GPU)内存就是背包的容量

1. 核心痛点:背包太小,装不下所有地图

现在的 AI 模型(如 LLaMA、GPT)非常巨大,参数多达几十亿甚至上百亿。

  • 传统训练:就像你要在迷宫里找路,必须把整张地图(模型参数)、走过的路线(激活值)、每一步的修正建议(梯度)以及修正建议的统计记录(优化器状态)全部背在背包里。
  • 问题:对于 70 亿参数的模型,这个背包需要 60GB 的容量。普通人的背包(消费级显卡,如 RTX 4090 只有 24GB)根本装不下,导致训练无法进行。

2. 现有的解决方案:要么“偷懒”,要么“压缩”

为了解决背包太小的问题,以前的方法主要有两种,但都有缺点:

  • 方法 A(参数高效微调,如 LoRA/LISA):只背地图的一小部分,或者只更新地图的某些角落。
    • 缺点:这就像只盯着迷宫的一小块区域看,容易走偏,而且理论上无法保证一定能找到出口(收敛性没有严格证明)。
  • 方法 B(梯度压缩,如 GaLore):把地图上的细节模糊化,只记大概方向,以此节省空间。
    • 缺点:虽然省了空间,但模糊化会引入“噪音”。就像在雾里走路,虽然能走,但走得慢,需要很多很多步才能到达终点(迭代复杂度是 O(ϵ4)O(\epsilon^{-4}),效率较低)。

3. 本文的妙招:OMGD —— “轮流背地图,绝不重复”

OMGD 提出了一种全新的策略,结合了**“随机洗牌”“轮流覆盖”**的概念。

核心比喻:轮流值班制

想象你有一群清洁工(数据样本)要打扫整个大房子(模型参数)

  • 传统做法(有放回采样):每天随机派一个清洁工去打扫,但他可能今天打扫客厅,明天又去打扫客厅,后天还是客厅。有些房间(参数)很久没人管,有些房间被反复打扫。这导致打扫效率低,且容易遗漏死角。
  • OMGD 的做法(无放回遍历)
    1. 生成任务单(Mask):先把整个房子分成几个区域(比如卧室、厨房、客厅、卫生间),生成几份不同的“打扫清单”。
    2. 严格轮岗:在一个“周期”内,确保每个房间都被打扫过且只打扫一次
    3. 互相抵消:因为每个房间都被公平地照顾到了,之前因为“只打扫局部”带来的误差(比如只打扫了卧室导致客厅脏),在周期结束时会被互相抵消

为什么这很厉害?

  • 省内存:每次只更新一部分参数(比如只更新卧室),背包里只需要装卧室的地图,内存占用瞬间降低。
  • 不迷路(收敛性):因为在一个周期内,所有房间都被覆盖了一次,整体方向没有偏差。
  • 走得更快(理论突破)
    • 以前的方法走 10000 步才能到达终点附近。
    • OMGD 只需要走 1000 步(理论复杂度从 O(ϵ4)O(\epsilon^{-4}) 提升到 O~(ϵ3)\tilde{O}(\epsilon^{-3}))。
    • 比喻:以前是在雾里摸索,现在虽然也是局部看,但因为“轮流看”的策略,你实际上是在清晰地规划路线,所以速度更快,更稳。

4. 实验结果:小背包也能跑大模型

作者把这种方法应用到了现有的优化器中(比如给 LISA 加上 OMGD 变成了 LISA-WOR),并在各种任务上进行了测试:

  • 图像分类:在 CIFAR 和 ImageNet 数据集上,准确率比旧方法更高。
  • 语言模型:在微调 RoBERTa 和预训练 GPT-2 时,表现优于竞争对手。
  • 内存大减:最惊人的是,在训练 LLaMA-7B(70 亿参数)时,使用 OMGD 可以将显存占用从 64GB 降低到 19GB
    • 这意味着:以前需要昂贵的专业显卡才能训练的模型,现在**一张普通的 RTX 4090(24GB 显存)**就能跑起来了!

总结

这篇论文就像发明了一种**“智能轮流打扫法”
它告诉我们,不需要一次性把整个大房子的地图都背在身上。只要
有策略地、轮流地去关注房子的不同部分,并且确保每个部分在一段时间内都被公平地照顾到**,我们就能用更小的背包(显存)更快地(收敛速度),**更稳地(理论保证)**找到迷宫的出口。

这让普通开发者也能在消费级显卡上训练和微调超大的 AI 模型,极大地降低了 AI 开发的门槛。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →