MegaScale-Data: Scaling Dataloader for Multisource Large Foundation Model Training

本文提出了 MegaScale-Data,一种专为多源大基础模型训练设计的工业级分布式数据加载架构,通过解耦数据预处理、集中式数据编排及多级自动分区机制,有效解决了多源数据并行训练中的负载不均衡与内存冗余问题,实现了高达 4.5 倍的端到端训练吞吐量提升和 13.5 倍的 CPU 内存占用降低。

Juntao Zhao, Qi Lu, Wei Jia, Borui Wan, Lei Zuo, Junda Feng, Jianyu Jiang, Yangrui Chen, Shuaishuai Cao, Jialing He, Kaihua Jiang, Yuanzhe Hu, Shibiao Nong, Yanghua Peng, Haibin Lin, Chuan Wu

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 MegaScale-Data 的新技术,它的核心任务是解决在训练超大型人工智能模型(比如能写诗、画图的“大模型”)时,如何高效、省心地准备和输送数据的问题。

为了让你更容易理解,我们可以把训练大模型想象成经营一家超级繁忙的“米其林餐厅”

1. 背景:餐厅的困境(为什么要做这个?)

想象一下,你的餐厅(AI 模型)要接待成千上万的客人(训练数据)。这些客人来自四面八方:有的来自“文字村”(文本数据),有的来自“图片镇”(图像数据),还有的来自“视频城”(视频数据)。

在传统的做法中,餐厅里有很多个备餐员(DataLoader,数据加载器),每个备餐员负责一部分客人。但是,当客人来源太杂、数量太多时,会出现两个大麻烦:

  • 麻烦一:忙闲不均(负载不平衡)
    • 比喻:有的客人只点了一杯水(短文本),备餐员几秒钟就搞定;有的客人点了一桌满汉全席(长文本或高清图片),备餐员要忙活半小时。
    • 后果:因为餐厅是流水线作业,所有备餐员必须等最慢的那一个做完,大家才能一起上菜。结果就是,做快餐的备餐员在干等,做满汉全席的备餐员累得半死,整个餐厅效率极低。
  • 麻烦二:冰箱塞爆了(内存浪费)
    • 比喻:每个备餐员为了应对不同的客人,都在自己的小冰箱里存了一套完整的“菜单、食材清单、甚至切菜工具”。如果有 100 种不同的食材来源,每个备餐员都要存 100 套工具。
    • 后果:餐厅的冰箱(CPU 内存)很快就被这些重复的工具塞满了,根本放不下真正的食材。而且,如果客人突然想换菜单(动态调整数据比例),每个备餐员都要重新整理冰箱,乱作一团。

2. 解决方案:MegaScale-Data 的“新厨房”架构

MegaScale-Data 就像是一个智能厨房管理系统,它彻底改变了备餐的方式,提出了三个核心创新:

创新一:拆分工种(Disaggregated Preprocessing)

  • 旧模式:每个备餐员既是“切菜工”又是“摆盘工”,还要负责“点菜”。
  • 新模式
    • 专职采购员(Source Loaders):他们只负责去特定的“菜市场”(数据源)把菜买回来,洗好,切成块。不管客人是谁,他们只负责把“原材料”准备好。
    • 专职摆盘师(Data Constructors):他们坐在流水线末端,专门负责把采购员送来的菜,根据客人的具体要求(比如“要长盘子”或“要短盘子”)进行最后的组装和打包。
  • 好处:采购员不用管怎么摆盘,摆盘师不用去菜市场。大家各司其职,不再重复购买工具,冰箱空间瞬间释放了。

创新二:中央调度室(Centralized Data Plane)

  • 旧模式:每个备餐员自己决定今天先做谁的菜,容易乱套。
  • 新模式:有一个超级调度员(Planner)。他手里有一张巨大的“智能地图”(DGraph),上面清楚标记着:
    • 哪些菜是“短菜”(短文本),哪些是“长菜”(长文本)。
    • 哪些客人(GPU 显卡)正在等菜,哪些已经吃饱了。
    • 动态调整:如果今天“文字村”的客人变多了,调度员会立刻指挥采购员多去文字村进货;如果“图片镇”的客人变少了,就减少那边的采购。
  • 好处:就像交通指挥中心一样,确保所有流水线上的工人(GPU)都能均匀地拿到工作量,没人闲着,也没人累死。

创新三:弹性伸缩(Auto-Scaling)

  • 旧模式:餐厅不管客人多还是少,都固定雇佣 100 个备餐员。客人少时浪费钱,客人多时忙不过来。
  • 新模式:系统能自动数人头
    • 如果“视频城”的客人突然变多(处理视频很费时间),系统会自动增加专门处理视频的采购员。
    • 如果“文字村”的客人变少,就减少那边的采购员。
  • 好处:根据实际工作量动态调整人手,既省钱又高效。

3. 效果如何?(成绩单)

这套新系统在实际的大规模测试中(比如在 4096 块显卡的超级集群上)表现惊人:

  1. 速度快了 4.5 倍:餐厅上菜的速度(训练吞吐量)提升了 4.5 倍,因为不再有人干等,也没有人因为冰箱塞满而手忙脚乱。
  2. 省了 13.5 倍的内存:因为不再让每个备餐员都重复存储工具,冰箱(内存)的使用量大幅降低,这意味着可以用更少的钱办更大的事。
  3. 更聪明:即使客人突然改变口味(动态调整数据混合比例),或者某个备餐员突然生病(故障),系统也能立刻找到替补,保证餐厅不停业。

总结

MegaScale-Data 就是把原本混乱、重复、低效的“大模型数据准备”过程,变成了一条分工明确、中央指挥、灵活应变的现代化智能流水线。

它不再让每个 AI 训练节点都“单打独斗”地处理数据,而是通过拆解任务统一调度,让成千上万个计算芯片能像一支训练有素的交响乐团一样,整齐划一地演奏出最强大的 AI 模型。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →