Resource Heterogeneity-Aware and Utilization-Enhanced Scheduling for Deep Learning Clusters

本文提出了名为 Hadar 及其增强版 HadarE 的新型深度学习集群调度系统,通过任务级异构感知优化框架及作业分叉并发策略,在显著提升资源利用率的同时大幅缩短了模型训练时间并改善了模型推理质量。

Abeda Sultana, Nabin Pakka, Fei Xu, Xu Yuan, Li Chen, Nian-Feng Tzeng

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 Hadar(及其升级版 HadarE)的“超级调度员”,专门用来管理深度学习(AI 训练)集群中的 GPU 资源。

为了让你更容易理解,我们可以把深度学习训练集群想象成一个巨大的、繁忙的“烹饪厨房”

1. 背景:混乱的厨房

  • 场景:这个厨房里有各种各样的炉灶(GPU 显卡),有的非常高级(像 V100,火力猛、速度快),有的比较老旧(像 K80,火力小、速度慢)。
  • 任务:有很多不同的厨师(AI 模型训练任务)要在这里做饭。有的菜需要大火快炒(ResNet-50),有的菜需要小火慢炖(A3C)。
  • 问题
    • 以前的调度员(比如 Gavel)有点“死板”。如果一个厨师需要 4 个高级炉灶,但厨房里只有 3 个高级炉灶和 3 个旧炉灶,调度员就会说:“不行,炉灶不够,厨师你等着吧!”哪怕旧炉灶闲着,它也不让厨师用,导致很多炉灶闲置,做饭效率很低。
    • 这就好比:明明有 3 个旧炉灶能帮忙,却非要等 4 个新炉灶凑齐,结果大家都饿肚子。

2. 主角登场:Hadar(精明的调度员)

Hadar 是一个更聪明的调度员,它有两个核心绝招:

  • 绝招一:看人下菜碟(任务级异构感知)

    • 以前的调度员只看“厨师”本身,Hadar 则看“厨师”在“不同炉灶”上的表现。
    • 它知道:虽然旧炉灶慢,但用来炒这道菜可能只慢一点点;而新炉灶炒那道菜可能快 10 倍。
    • 比喻:Hadar 会灵活安排。如果高级炉灶满了,它会让厨师把一部分任务分给旧炉灶。就像让一个厨师同时用大火灶炒主菜,用小灶炖汤,只要能把菜做出来,就不让任何炉灶闲着
    • 效果:厨房利用率提高了,所有菜做完的总时间缩短了。
  • 绝招二:数学优化(原对偶框架)

    • 它不是拍脑袋决定谁用哪个炉灶,而是用一套复杂的数学公式(原对偶算法)来算出“最优解”。
    • 比喻:这就像是一个超级计算器,瞬间算出怎么分配炉灶,能让所有厨师在最短的时间内把饭做完,而且让炉灶的“性价比”最高。

3. 升级版:HadarE(分身术大师)

虽然 Hadar 已经很聪明了,但它还有一个限制:它通常把一个厨师限制在一个区域(一台机器)里工作。如果厨房里还有空炉灶,这个厨师也不能分身去用。

HadarE 给 Hadar 加了一个“分身术”功能:

  • 核心逻辑:如果一个厨师要炒一大锅菜,HadarE 会把这个厨师复制成 5 个分身
  • 操作:这 5 个分身可以同时在厨房里的 5 个不同炉灶上工作。
    • 分身 A 在高级炉灶上炒。
    • 分身 B、C 在旧炉灶上炒。
    • 分身 D、E 在另一个机器的炉灶上炒。
  • 收尾:每个分身炒完一部分后,会把结果汇总(就像把分开的汤倒回一个大锅里搅拌均匀),最后合成一道完美的菜。
  • 比喻:以前是“一个人守着一个灶台”,现在是“一个人同时指挥 5 个灶台”。只要厨房里有空灶,分身就去用,彻底杜绝了炉灶闲置

4. 实验结果:真的快吗?

作者真的在真实的“厨房”(AWS 云集群和实验室集群)里测试了:

  • 效率提升
    • 相比以前的“死板调度员”(Gavel),Hadar 让厨房利用率提高了 20% 左右。
    • 用了“分身术”的 HadarE,利用率更是提高了 45% 甚至更多!
  • 速度提升
    • 做完所有菜(训练完所有模型)的总时间,HadarE 比 Gavel 快了 50% 到 80%。这意味着以前要等 10 小时的训练,现在 2-5 小时就搞定了。
  • 菜的味道(模型质量)
    • 最神奇的是,虽然分身在不同的炉灶上干活,但最后合成的菜(训练好的 AI 模型)味道更好(推理准确率更高)。
    • 原因:可能是因为不同的炉灶(硬件)让模型学到了不同的特征,最后汇总起来更聪明。

5. 总结

这篇论文的核心思想就是:
不要死板地等待资源凑齐,也不要让资源闲置。

  • Hadar 教会我们:根据任务特性,灵活地把任务拆分到不同性能的硬件上。
  • HadarE 教会我们:如果一个任务太大,就把它“分身”成多个副本,同时利用所有可用的硬件资源。

这就好比在高峰期点外卖,以前是“等 4 个骑手都到齐了才发车”,现在变成了“谁有空谁先送,送一部分算一部分,最后汇总”,结果就是大家都吃得更快,外卖员也不闲着

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →