The Big Send-off: Scalable and Performant Collectives for Deep Learning

Each language version is independently generated for its own context, not a direct translation.

🚀 Das große Abschiedsritual: Wie man Tausende von Computern zum Tanzen bringt

Stellen Sie sich vor, Sie organisieren die größte Party der Welt. Aber nicht nur eine normale Party – hier tanzen 2.000 Supercomputer (genauer gesagt: deren Grafikprozessoren oder GPUs) gleichzeitig, um ein riesiges KI-Modell zu trainieren. Das Ziel ist es, dass alle diese Computer ihre Informationen perfekt austauschen, damit das KI-Modell lernt.

Das Problem? Die aktuellen „Tanzmeister" (die Software-Bibliotheken, die den Datenaustausch regeln) sind bei so vielen Teilnehmern völlig überfordert. Sie werden langsam, ineffizient und bremsen die ganze Party aus.

Diese Forscher haben eine neue Lösung namens PCCL entwickelt. Hier ist, wie sie es geschafft haben, die Party wieder flott zu machen:

1. Das Problem: Der Stau im Verkehr

Bisher nutzten die Computer Bibliotheken wie NCCL (für NVIDIA-Chips) oder RCCL (für AMD-Chips). Man kann sich diese wie einen alten, ineffizienten Busfahrer vorstellen:

Der Ring-Algorithmus: Die Computer stehen in einem Kreis. Jeder muss warten, bis der Nachbar ihm die Nachricht gibt, bevor er weiterreicht. Bei 10 Teilnehmern ist das okay. Bei 2.000 Teilnehmern? Das dauert ewig! Es ist wie ein Stau auf einer einspurigen Straße.
Der falsche Fahrer: Bei manchen Systemen (wie Cray-MPICH) wurde die schwere Arbeit (das Zusammenrechnen von Daten) von einem langsamen „Kellner" (der CPU) erledigt, anstatt von den starken „Köchen" (den GPUs), die eigentlich dafür gemacht sind. Das war extrem ineffizient.

2. Die Lösung: PCCL – Der neue, cleere Tanzleiter

Die Forscher haben PCCL (Performant Collective Communication Library) gebaut. Man kann sich PCCL wie einen hochmodernen, KI-gesteuerten Tanzleiter vorstellen, der drei geniale Tricks anwendet:

Trick 1: Die Hierarchie (Die Orchester-Struktur)
Statt dass alle 2.000 Computer direkt miteinander reden (was Chaos wäre), teilt PCCL die Gruppe auf:

Schritt A (In der Gruppe): Zuerst tauschen die Computer innerhalb eines einzelnen Servers (z. B. 8 Maschinen in einem Schrank) schnell untereinander aus. Das ist wie ein Gespräch am selben Tisch – sehr schnell.
Schritt B (Zwischen den Gruppen): Dann tauschen die Gruppen untereinander aus.
Der Clou: PCCL nutzt dabei alle verfügbaren „Leitungen" (Netzwerkkarten) gleichzeitig. Die alten Bibliotheken nutzten oft nur eine Leitung, während die anderen drei tatenlos dastanden. PCCL füllt alle vier Leitungen voll – wie ein Stau, der plötzlich auf eine 8-spurige Autobahn verlegt wird.

Trick 2: Der cleere Algorithmus (Das Telefon-Spiel)
Für die Kommunikation zwischen den Gruppen nutzt PCCL keine langsame Kette mehr. Stattdessen nutzt es eine Methode, die wie ein Telefon-Spiel funktioniert, bei dem sich die Nachrichten verdoppeln:

Runde 1: Jeder spricht mit 1 Nachbarn.
Runde 2: Jeder spricht mit 2 Nachbarn.
Runde 3: Jeder spricht mit 4 Nachbarn.
In nur wenigen Schritten hat jeder alle Informationen. Das ist viel schneller als die alte „Reihum"-Methode, besonders wenn die Nachricht klein ist und viele Leute dabei sind.

Trick 3: Der KI-Tanzmeister (Der adaptive Dispatcher)
Das ist der genialste Teil. PCCL weiß nicht immer im Voraus, welche Methode am besten ist.

Ist die Nachricht riesig und die Gruppe klein? Dann nutzt PCCL die alte, bewährte „Ring-Methode" (weil die bei großen Datenmengen gut ist).
Ist die Nachricht klein und die Gruppe riesig? Dann schaltet PCCL sofort auf die schnelle „Verdopplungs-Methode" um.
Wie lernt er das? PCCL hat einen kleinen KI-Algorithmus (einen SVM-Klassifikator) im Gepäck. Dieser hat tausende von Tests gesehen und weiß genau: „Bei 1000 Computern und 50 MB Daten nimm Methode A. Bei 2000 Computern und 10 MB nimm Methode B." Er wählt also in Echtzeit den schnellsten Weg.

3. Die Ergebnisse: Ein riesiger Geschwindigkeitsschub

Die Forscher haben PCCL auf zwei der stärksten Supercomputer der Welt getestet (Frontier und Perlmutter). Die Ergebnisse sind atemberaubend:

Auf dem AMD-System (Frontier): PCCL war bis zu 168-mal schneller als das alte System bei bestimmten Aufgaben! Stellen Sie sich vor, ein Prozess, der früher 168 Minuten dauerte, dauert jetzt nur noch eine Minute.
Auf dem NVIDIA-System (Perlmutter): Auch hier war PCCL bis zu 5,7-mal schneller.
Im echten Leben: Als sie damit echte KI-Modelle (wie große Sprachmodelle) trainierten, war das Training bis zu 4,9-mal schneller. Das bedeutet, dass KI-Modelle in Tagen fertig sind, die sonst Wochen brauchen würden.

Fazit

Diese Arbeit zeigt, dass wir nicht unbedingt neue Hardware brauchen, um KI schneller zu machen. Wir brauchen nur bessere Software, die weiß, wie man die vorhandene Hardware intelligent nutzt. PCCL ist wie ein genialer Dirigent, der aus einem chaotischen Orchester aus 2.000 Instrumenten plötzlich eine perfekte Symphonie macht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Mit dem zunehmenden Einsatz verteilter KI-Workloads in Rechenzentren und Supercomputern wird die Kommunikation zwischen GPUs zu einem kritischen Engpass. Herkömmliche Bibliotheken für kollektive Kommunikation wie NCCL (NVIDIA), RCCL (AMD) und Cray-MPICH zeigen auf modernen GPU-Supercomputern bei großen Nachrichtenmengen (typischerweise 10–1000 MB) und hohen GPU-Anzahlen (bis zu 2048 GPUs) erhebliche Skalierungsprobleme.

Die Autoren identifizierten drei Hauptmängel in den bestehenden Lösungen:

Ressourcen-Unterauslastung (Cray-MPICH): Diese Bibliothek nutzt oft nur einen einzigen Netzwerk-Controller (NIC) pro Knoten für Schreib- und Lesevorgänge, anstatt das gesamte verfügbare Netzwerkbandbreite zu nutzen. Zudem führt sie Reduktionsoperationen auf der CPU durch, anstatt diese auf die leistungsfähigeren GPUs auszulagern.
Algorithmische Ineffizienz (NCCL & RCCL): Diese Bibliotheken verlassen sich für Operationen wie All-Gather und Reduce-Scatter fast ausschließlich auf Ring-Algorithmen. Während Ringe bei bandbreitenbeschränkten Szenarien gut funktionieren, skaliert ihre Latenz linear mit der Anzahl der Prozesse ( $O(p)$ ). Dies führt bei großen GPU-Anzahlen zu massiven Performance-Einbußen, da die Latenzkomponente dominiert.
Fehlende Adaptivität: Es gibt keine dynamische Auswahl zwischen verschiedenen Algorithmen basierend auf der aktuellen Workload-Charakteristik (Nachrichtengröße und GPU-Anzahl).

2. Methodik: Die PCCL-Lösung

Um diese Herausforderungen zu bewältigen, stellen die Autoren PCCL (Performant Collective Communication Library) vor. PCCL ist speziell für verteiltes Deep Learning (DL) mit großen Puffern (>10 MB) konzipiert und basiert auf einem dreiteiligen Designansatz:

Hierarchisches Zwei-Ebenen-Design:
- Die Kommunikation wird in Inter-Node (zwischen Knoten) und Intra-Node (innerhalb eines Knotens) Phasen unterteilt.
- Intra-Node: Hier werden die optimierten Bibliotheken der Hardware-Hersteller (NCCL oder RCCL) genutzt, da diese für die hohe Bandbreite innerhalb eines Knotens (via NVLink/Infinity Fabric) optimiert sind.
- Inter-Node: Hier werden MPI-basierte Punkt-zu-Punkt-Operationen verwendet, um die Netzwerklast gleichmäßig auf alle verfügbaren NICs eines Knotens zu verteilen und so Engpässe zu vermeiden.
Algorithmische Optimierung:
- Anstatt nur Ringe zu nutzen, implementiert PCCL für die Inter-Node-Kommunikation rekursive Halbierungs- und Verdopplungsalgorithmen (Recursive Halving/Doubling).
- Diese Algorithmen reduzieren die Anzahl der Kommunikationsschritte auf logarithmische Komplexität ( $O(\log p)$ ), was die Latenz bei großen Prozessanzahlen drastisch senkt.
- Reduktionsoperationen werden explizit auf den GPUs durchgeführt, um CPU-Overhead zu eliminieren.
Lernbasierte adaptive Dispatcher:
- Da kein einzelner Algorithmus für alle Szenarien optimal ist, integriert PCCL einen Support Vector Machine (SVM)-basierten Dispatcher.
- Dieser Dispatcher wählt zur Laufzeit basierend auf der Nachrichtengröße und der Anzahl der GPUs den besten Backend-Algorithmus aus (entweder die bestehenden Bibliotheken wie RCCL/NCCL für bandbreitenintensive Szenarien oder die neuen PCCL-Implementierungen für latenzsensitive Szenarien).

3. Schlüsselbeiträge

Analyse bestehender Bibliotheken: Umfassende Benchmarking-Studie auf den Supercomputern Frontier (AMD MI250X) und Perlmutter (NVIDIA A100), die die spezifischen Skalierungsprobleme von Cray-MPICH, NCCL und RCCL aufzeigen.
Entwicklung von PCCL: Implementierung hochoptimierter Versionen von All-Gather, Reduce-Scatter und All-Reduce unter Nutzung hierarchischer Designs und GPU-offloaded Berechnungen.
Adaptive Steuerung: Einführung eines ML-gesteuerten Dispatchers, der die Leistung über ein breites Spektrum an Konfigurationen optimiert.
Validierung in Produktion: Demonstration der Verbesserungen nicht nur in Mikro-Benchmarks, sondern auch in realen DL-Training-Workloads (DeepSpeed ZeRO-3 und PyTorch DDP).

4. Ergebnisse

Die Evaluierung auf Frontier und Perlmutter zeigt erhebliche Performance-Gewinne:

Skalierung auf 2048 GPUs (Frontier):
- Reduce-Scatter: Bis zu 168-fache Beschleunigung gegenüber RCCL.
- All-Gather: Bis zu 33-fache Beschleunigung gegenüber RCCL.
- All-Reduce: Bis zu 10-fache Beschleunigung gegenüber RCCL.
- Ursache: RCCL und Cray-MPICH zeigen bei hohen GPU-Anzahlen eine lineare Zunahme der Ausführungszeit, während PCCL nahezu ideale Skalierung (flache Kurven) aufweist.
Skalierung auf Perlmutter (NVIDIA):
- Deutliche, wenn auch geringere Gewinne gegenüber NCCL, mit Speedups von bis zu 5,7-fach bei latenzkritischen Szenarien (viele GPUs, kleinere Nachrichten).
Auswirkung auf DL-Training:
- DeepSpeed ZeRO-3: Bis zu 4,9-fache Beschleunigung gegenüber RCCL bei der Skalierung auf 2048 GPUs.
- PyTorch DDP: Bis zu 2,4-fache Beschleunigung gegenüber RCCL.
- PCCL verhindert das „Strong Scaling"-Versagen, das bei RCCL/NCCL bei sehr großen GPU-Anzahlen beobachtet wurde (wo die Trainingszeit sogar ansteigt).

5. Bedeutung und Fazit

Das Paper demonstriert, dass die aktuellen Standardbibliotheken für kollektive Kommunikation an ihre Grenzen stoßen, wenn sie auf zukünftige, massiv parallele GPU-Supercomputer angewendet werden. PCCL beweist, dass durch die Kombination aus hierarchischen Algorithmen, der Auslagerung von Berechnungen auf die GPU und einer intelligenten, datengesteuerten Algorithmus-Auswahl die Kommunikationskosten massiv gesenkt werden können.

Dies ist von entscheidender Bedeutung für das Training von Large Language Models (LLMs) mit Milliarden von Parametern, da die Effizienz der Kommunikation direkt die Trainingsgeschwindigkeit und die Skalierbarkeit bestimmt. PCCL bietet einen Weg, um die volle Leistungsfähigkeit von Exascale-Systemen für Deep Learning zu erschließen.

The Big Send-off: Scalable and Performant Collectives for Deep Learning

🚀 Das große Abschiedsritual: Wie man Tausende von Computern zum Tanzen bringt

1. Das Problem: Der Stau im Verkehr

2. Die Lösung: PCCL – Der neue, cleere Tanzleiter

3. Die Ergebnisse: Ein riesiger Geschwindigkeitsschub

Fazit

1. Problemstellung

2. Methodik: Die PCCL-Lösung

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents