veScale-FSDP: Flexible and High-Performance FSDP at Scale

本文提出了 veScale-FSDP,一种通过引入灵活的 RaggedShard 分片格式和结构感知规划算法,有效解决现有 FSDP 系统难以适配块状量化及非元素级优化器等前沿需求,从而在数万张 GPU 规模下实现更高吞吐量和更低内存占用的全新分布式训练系统。

Zezhou Wang, Youjie Li, Zhiqi Lin, Jiacheng Yang, Cong Xie, Guanyu Feng, Zheng Zhong, Ziyue Huang, Hongyu Zhu, Zhi Zhang, Yanghua Peng, Xin Liu

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一个名为 veScale-FSDP 的新技术,它是用来训练超级巨大的人工智能模型(比如像人一样聪明的聊天机器人)的“超级引擎”。

为了让你更容易理解,我们可以把训练一个大模型想象成在一个巨大的厨房里,由成千上万个厨师(GPU 显卡)合作做一道极其复杂的“超级大餐”

1. 以前的困境:切菜切得乱七八糟

背景:
现在的 AI 模型太大了,一台电脑(GPU)根本存不下,必须把模型“切”成几千份,分给几千台电脑一起算。以前的方法(叫 FSDP 或 ZeRO)就像是一个死板的切菜工

  • 死板的切法(旧系统): 不管这块肉(模型参数)是什么形状,切菜工都只按“一刀切”的方式,把肉切成完全一样大小的薄片。
    • 问题 A(切坏了): 有些特殊的烹饪方法(比如“块状量化”或“矩阵优化器”),要求必须整块整块地处理,不能切碎。旧系统把整块肉切碎了,厨师们就得把碎肉拼回去,或者重新切,非常浪费时间。
    • 问题 B(切多了): 为了凑齐人数,切菜工经常会在肉块之间塞入很多“空气”(填充数据/Padding),导致切出来的肉片里有很多没用的空隙,既占地方(内存浪费)又浪费传送时间(通信效率低)。
    • 结果: 几千个厨师忙得团团转,但真正在做菜的时间很少,大部分时间都在搬运碎肉和塞空气。

2. 新的解决方案:veScale-FSDP(智能切菜工 + 传送带)

ByteDance(字节跳动)的工程师们发明了这个新系统,它做了三件聪明的事:

第一招:灵活的“不规则切法” (RaggedShard)

  • 比喻: 以前的切菜工只切正方形,现在 veScale-FSDP 请来了一个**“随形切菜大师”**。
  • 解释: 它不再强迫把模型切成一样大的块。如果模型里有一块是 32x32 的方块,它就按 32x32 切;如果有一块是长条,它就按长条切。
  • 好处: 那些特殊的“烹饪技巧”(如 8-bit 量化、Muon 优化器)不需要把肉切碎再拼起来,直接整块处理。这让厨师们能直接上手干活,不用做多余的拼接工作。

第二招:智能的“排队算法” (Planning Algorithm)

  • 比喻: 即使切好了,怎么把这些肉块放到传送带上(通信缓冲区)也有讲究。如果乱塞,传送带会卡住,或者为了填满传送带塞很多空气。
  • 解释: veScale-FSDP 有一个**“超级调度员”**。它会在训练开始前,花几秒钟算一下:怎么把不同大小的肉块(参数)排列组合,才能让传送带塞得最满,且不需要塞太多“空气”(Padding)。
  • 好处: 这是一个很难的数学题(NP 难问题),但他们用了一个聪明的“捷径”算法,算得又快又好。结果就是,几千个厨师之间的传菜速度极快,几乎没有等待时间。

第三招:零损耗的“传送带” (Distributed Buffer / DBuffer)

  • 比喻: 以前的传送带,厨师拿菜要先把菜从盘子里倒出来,再倒进传送带,吃完再倒回盘子(数据拷贝)。
  • 解释: veScale-FSDP 发明了一种**“悬浮传送带”**。它让数据直接在内存里“指路”,不需要搬运。
  • 好处: 厨师拿菜是“零拷贝”的,瞬间完成。这不仅省了力气(计算资源),还省了盘子(显存空间)。

3. 实际效果:快了多少?省了多少?

经过测试,这个新系统带来了巨大的提升:

  • 速度更快: 训练速度比以前的系统快了 5% 到 66%。这意味着以前要跑一个月的模型,现在可能只需要两周。
  • 更省空间: 占用的显存(厨房空间)减少了 16% 到 30%。这意味着用同样的几千台电脑,可以训练更大的模型,或者在同样的模型下,不需要买那么多昂贵的显卡。
  • 规模更大: 它可以轻松扩展到 几万台 GPU 一起工作,而不会像以前那样因为“切菜”太乱而崩溃。

4. 为什么这很重要?

  • 对科学家: 以前想尝试新的模型结构或新的优化方法,往往因为系统不支持“不规则切法”而被迫放弃,或者需要花几个月去修改底层代码。现在,veScale-FSDP 像是一个万能插座,插上就能用,让科学家能专注于设计更好的模型,而不是纠结于怎么切分数据。
  • 对大众: 这意味着未来我们能更快、更便宜地训练出更聪明、更强大的 AI,而且这些 AI 能更好地处理复杂的任务。

总结一句话:
veScale-FSDP 就像给 AI 训练厨房换了一套智能、灵活且零损耗的自动化流水线,让几千个厨师能完美配合,不再因为切菜和传菜而浪费时间,从而让超级 AI 的诞生变得更快、更省钱。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →