Resource Heterogeneity-Aware and Utilization-Enhanced Scheduling for Deep Learning Clusters

Dit paper introduceert Hadar en HadarE, twee nieuwe schedulers voor deep learning-clusters die door middel van taakniveau-heterogeniteitsbewustzijn en het forken van taken de resourcebenutting en trainingssnelheid aanzienlijk verbeteren ten opzichte van bestaande systemen zoals Gavel.

Abeda Sultana, Nabin Pakka, Fei Xu, Xu Yuan, Li Chen, Nian-Feng Tzeng

Gepubliceerd 2026-03-17
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme keuken hebt met verschillende soorten kachels: een superkrachtige gaskachel, een wat langzamere elektrische kookplaat en een oude, trage keramische plaat. Je hebt ook tien verschillende recepten (je "Deep Learning-modellen") die tegelijkertijd moeten worden bereid.

Het probleem met de huidige systemen (zoals Gavel, de huidige standaard) is dat ze een beetje stijf zijn. Ze zeggen: "Recept A heeft 4 kachels nodig. Oké, ik zoek 4 identieke gaskachels. Als die niet allemaal vrij zijn, wacht Recept A gewoon tot ze er allemaal zijn." Dit betekent dat de elektrische kookplaat en de keramische plaat vaak leeg staan terwijl de gaskachels vol zitten. Er is veel verspilling.

De auteurs van dit paper hebben een slimme nieuwe kok bedacht, genaamd Hadar, en een nog slimmere versie, HadarE. Hier is hoe het werkt, vertaald naar alledaags taal:

1. Hadar: De Slimme Chef die Alles Kijkt

Hadar kijkt niet alleen naar de kachels, maar ook naar de recepten zelf.

  • Het inzicht: Sommige recepten werken sneller op een gaskachel, maar andere werken bijna net zo goed op een elektrische plaat.
  • De oplossing: In plaats van te wachten op 4 perfecte gaskachels, zegt Hadar: "Oké, Recept A, je krijgt 2 gaskachels, 1 elektrische plaat en 1 keramische plaat. Je moet je aanpassen, maar je kunt wel koken!"
  • Het resultaat: De keuken draait veel efficiënter. Niets staat stil. De totale tijd om alle maaltijden klaar te krijgen, wordt korter omdat er geen enkele kachel onbenut blijft.

2. HadarE: De "Kloon-methode"

Hadar is al goed, maar HadarE (Hadar Enhancement) is de echte game-changer. Het introduceert een concept dat we kunnen vergelijken met het klonen van een taak.

Stel je voor dat je een enorme taart moet bakken, maar je hebt maar één oven. Het duurt lang.

  • Hadar zou zeggen: "We gebruiken de oven zo efficiënt mogelijk, maar we bakken maar één taart tegelijk."
  • HadarE zegt: "Wacht even! Laten we het recept voor die taart in 5 kopieën verdelen. We laten 5 verschillende koks (of kachels) elk een klein stukje van die taart bakken tegelijk."

Hoe werkt dit in de praktijk?

  1. Verdelen: Zodra een taak (een AI-model) begint, wordt deze opgesplitst in meerdere kopieën.
  2. Verspreiden: Deze kopieën worden verspreid over alle beschikbare kachels in de keuken, zelfs als ze allemaal verschillend zijn (snel, traag, oud, nieuw).
  3. Samenvoegen: Zodra een kachel klaar is met zijn stukje, meldt hij dit. De "Chef" (de Job Tracker) pakt de resultaten, mengt ze samen (zodat het weer één compleet recept is) en stuurt de taak verder.

Waarom is dit geweldig?

  • Geen lege kachels: Zelfs als je maar één taak hebt om te doen, maar 10 kachels hebt, gebruikt HadarE alle 10 kachels om die ene taak sneller af te ronden.
  • Snelheid: De taart is veel sneller klaar. In de tests bleek dat HadarE de totale tijd met wel 50% tot 80% verkortte vergeleken met de oude methoden.
  • Beter resultaat: Het verrassende is dat de taart (het AI-model) zelfs beter smaakt. Omdat de verschillende kachels op hun eigen manier hebben gewerkt, lijkt het alsof het model meer "ervaring" heeft opgedaan en generaliseert het beter.

Samenvatting in een Metafoor

  • De oude manier (Gavel): Een busmaatschappij die alleen bussen laat rijden als er precies 50 passagiers zijn. Als er 49 zijn, staat de bus stil en wachten de passagiers. De andere bussen rijden leeg.
  • Hadar: Een slimme busplanner die zegt: "Deze 49 passagiers kunnen ook in een kleinere bus of een taxi stappen, zolang ze maar op weg zijn."
  • HadarE: De busmaatschappij die zegt: "We splitsen deze 49 passagiers op in 5 kleine groepjes. Elke groep gaat in een ander voertuig (fiets, scooter, bus, auto). Ze komen allemaal tegelijk aan bij het station, en we vervoeren ze allemaal tegelijk."

Conclusie:
Dit paper introduceert een systeem dat slim genoeg is om te zien dat niet alle computerchips (GPU's) hetzelfde zijn, en dat niet alle taken hetzelfde moeten worden behandeld. Door taken slim te verdelen en zelfs te "vermenigvuldigen" over verschillende machines, wordt de computercluster veel sneller, goedkoper en efficiënter. Het is alsof je van een trage, statische fabriek bent veranderd in een dynamisch, vloeiend team dat altijd op volle toeren draait.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →