EROICA: Online Performance Troubleshooting for Large-scale Model Training

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantische orkestrepetitie leidt met 100.000 muzikanten (de GPU's) die allemaal tegelijk een nieuw, extreem complex symfonie moeten spelen (het trainen van een groot AI-model).

Soms gaat het mis. De muziek vertraagt, een instrument klinkt vals, of een hele sectie houdt plotseling op met spelen. Vroeger was het voor de dirigent (de ingenieur) bijna onmogelijk om te weten waar het probleem zat. Was het een kapot instrument? Was het een verkeerde bladmuziek? Of was het gewoon dat de luidsprekers in de hal te traag waren?

EROICA is de nieuwe, super-snelle dirigent-assistent die dit probleem oplost. Hier is hoe het werkt, vertaald naar alledaags taal:

1. Het oude probleem: Te traag of te duur

Vroeger hadden de ingenieurs twee opties, maar beide waren niet ideaal:

De "Grote Kijker" (Online Monitoring): Ze keken van ver weg naar het hele orkest. Ze zagen wel dat het tempo daalde, maar konden niet zien welke muzikant de fout maakte. Het was als kijken naar een wolk van geluid zonder de individuele noten te horen.
De "Microfoon" (Offline Profiling): Ze konden microfoons op elke muzikant zetten om alles tot in detail op te nemen. Maar dit kostte zoveel energie en ruimte dat ze dit niet tijdens de echte repetitie konden doen. Ze moesten eerst een klein, nep-orkestje in een testzaal bouwen. Als het probleem daar niet verscheen (wat vaak zo was), konden ze het niet vinden.

2. Het EROICA-magie: De slimme samenvatting

EROICA is de eerste tool die beide werelden combineert. Het luistert naar iedereen tegelijk, maar doet het op een slimme manier.

In plaats van dat EROICA elke seconde van elke muzikant opneemt (wat een berg data zou zijn), doet het iets slims:

Het kijkt niet naar de ruwe audio, maar maakt een samenvatting van het gedrag.
Stel je voor dat EROICA aan elke muzikant vraagt: "Hoe hard heb je gespeeld in de laatste 20 seconden, en hoe stabiel was dat?"
In plaats van 3 Gigabytes aan data per muzikant, krijgt EROICA slechts een klein briefje van 30 kilobyte. Dat is als het verschil tussen het opslaan van een hele film en het opslaan van één zinnetje.

3. Hoe vindt het de fout? (Het "Hooiberg"-principe)

Stel je voor dat 9.999 muzikanten perfect in de pas lopen. Dan is er één muzikant die net iets te traag is, of een instrument heeft dat een beetje piept.

Omdat EROICA de samenvattingen van iedereen vergelijkt, ziet het direct: "Hé, muzikant nummer 4.521 gedraagt zich anders dan de rest!"
Het maakt geen gebruik van exacte klokken (want die lopen op 100.000 computers nooit perfect synchroon). Het kijkt puur naar het patroon. Is het patroon van deze muzikant anders dan dat van zijn buren? Dan is daar het probleem.

4. Wat kan EROICA vinden?

EROICA heeft in de praktijk al talloze mysteries opgelost:

De "Verkeerde Kabel": Soms is een netwerkverbinding tussen twee computers beschadigd. EROICA ziet dat de data-overdracht van die ene computer trager is dan die van de rest.
De "Slome Software": Soms schrijft een programmeur code die te veel werk voor de processor (CPU) doet, waardoor de GPU's wachten. EROICA ziet dat de CPU "vol" zit terwijl de GPU's "leeg" wachten.
De "Vastgelopen Queue": In één geval zat een programmeur vast in een lusje in zijn code. EROICA zag dat één computer vastliep terwijl de rest wachtte. De AI-assistent van de programmeur kon de code direct repareren op basis van de waarschuwing van EROICA.

5. Waarom is dit zo belangrijk?

Snelheid: Het vindt de fout in minuten, niet in dagen.
Geen storing: Het kost zo weinig energie dat het de repetitie (het trainen van de AI) niet vertraagt.
Schaal: Het werkt even goed voor 100 computers als voor 1.000.000 computers.

Kortom:
EROICA is als een super-slimme, onzichtbare assistent die naar een gigantisch orkest luistert. In plaats van de hele opname te bekijken, kijkt hij alleen naar de "vingerafdrukken" van het geluid. Als één muzikant een andere vingerafdruk heeft dan de rest, wijst hij direct naar die persoon en zegt: "Kijk hier, hier zit het probleem!" Hierdoor kunnen de ingenieurs de AI-modellen veel sneller en efficiënter laten werken.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "EROICA: Online Performance Troubleshooting for Large-Scale Model Training" in het Nederlands.

Probleemstelling

Het oplossen van prestatieproblemen bij het trainen van grote modellen (Large Model Training - LMT) is een enorme uitdaging vanwege de ongeëvenaarde schaal van moderne GPU-clusters, de complexiteit van software-hardware-interacties en de data-intensiteit van het trainingsproces.

Bestaande beperkingen: Traditionele aanpakken zijn vaak een compromis tussen observatiegranulariteit en clusterdekking.
- Online monitoring is grofkorrelig (vaak seconden-granulariteit) om de hele cluster te dekken zonder prestatieverlies, maar kan geen fijne oorzaken vinden (bijv. specifieke code-regels of netwerklinks).
- Offline profiling biedt fijne details (microseconden-granulariteit), maar genereert enorme hoeveelheden data (terabytes per seconde) en heeft te veel overhead. Dit maakt het onmogelijk om dit in productie op alle workers tegelijkertijd te draaien.
Gevolg: In de praktijk kunnen slechts ongeveer 30% van de prestatieproblemen worden opgelost met bestaande tools. Veel problemen blijven onopgelost of vereisen tijdrovende, handmatige herproductie in testomgevingen.

Methodologie: EROICA

EROICA is het eerste online systeem dat fijne granulariteit (zoals offline profiling) combineert met clusterbrede dekking (zoals online monitoring) door gebruik te maken van differentiële waarneembaarheid (differential observability).

Kernprincipes:

Differentiële Observatie: In plaats van ruwe profiling-data van alle workers te analyseren (wat onhaalbaar is), vat EROICA de runtime-gedragspatronen van gerelateerde functies samen. Omdat LMT-workloads vaak homogeen zijn, moeten alle workers vergelijkbaar gedrag vertonen. Afwijkingen wijzen op problemen.
Kritiek Pad (Critical Path): Het systeem focust alleen op functies op het "kritieke pad" van de training (waarbij geen hogere prioriteitstaken, zoals GPU-berekeningen, actief zijn). Dit verkleint de dataset aanzienlijk.
Patronsamenvatting: Voor elke functie op elke worker worden drie statistische metrieken berekend die onafhankelijk zijn van absolute tijdstempels (cruciaal voor clusters zonder perfecte klok-synchronisatie):
- $\beta$ : Percentage van de tijd dat de functie op het kritieke pad zit.
- $\mu$ : Gemiddelde hardware-resourcegebruik (bijv. GPU-frequentie, netwerkbandbreedte) tijdens de uitvoering.
- $\sigma$ : Standaarddeviatie van het resourcegebruik (indicateur voor fluctuaties/wachten).
- Resultaat: De datagrootte wordt gereduceerd van ~3 GB per worker (ruwe data) naar slechts ~30 KB (patroonpatronen).

Systeemarchitectuur:

Detectie: EROICA detecteert automatisch prestatiedegradatie (bijv. langzamere iteraties) en triggert gelijktijdig een korte profiling-sessie (20 seconden) op alle workers in de cluster.
Verzameling: Het gebruikt aangepaste versies van Torch Profiler en nsys om data te verzamelen, maar verwerkt deze lokaal in een daemon-proces om de training niet te blokkeren.
Locatie: Een centraal algoritme vergelijkt de samengevatte patronen van alle workers. Het identificeert "uitbijters" door te kijken naar:
- Afstand tot verwachting: Hoe afwijkend is het patroon ten opzichte van een ideale range?
- Differentiële afstand: Hoe uniek is het patroon van deze worker ten opzichte van de rest van de cluster?

Belangrijkste Bijdragen

Eerste Online Profiling Systeem: EROICA is het eerste systeem dat online profiling toepast op productie-LMT-workloads met volledige clusterdekking zonder de training te verstoren.
Efficiënte Differentiële Waarneembaarheid: De techniek om runtime-gedragspatronen te samenvatten (in plaats van ruwe data te analyseren) maakt het mogelijk om anomalieën te detecteren zonder de schaalbaarheid te verliezen.
Productie-Validatie: Het systeem is gedurende 1,5 jaar ingezet op een productie-omgeving met ongeveer 100.000 GPU's.
AI-integratie: De output van EROICA (identificatie van de defecte functie en het gedrag) kan direct worden gebruikt als prompt voor AI-assistenten om automatisch code-fouten te repareren.

Resultaten

Succesratio: EROICA heeft 97,5% van de complexe prestatieproblemen succesvol gediagnosticeerd die eerder onoplosbaar waren met state-of-the-art technieken.
Schaalbaarheid: Het systeem kan een cluster van 3.400 GPU's in 3 minuten analyseren en is schaalbaar tot 1.000.000 GPU's (analyse binnen 7 minuten).
Prestatieverbetering: In case studies leidde het oplossen van gedetecteerde problemen tot een toename van de trainingsdoorvoer (throughput) met 20% tot 100%.
Overhead: De overhead voor de training is minimaal. De data-generatie duurt slechts ~20 seconden (eenmalig per incident), en de samenvatting en lokalisatie gebeuren parallel of extern, wat nul overhead toevoegt aan de lopende trainingstaken.

Voorbeelden van gedetecteerde problemen:

Hardware: Defecte netwerkkaarten (NICs), trage NVLink-verbindingen, CPU-frequentie-drosseling.
Software/Configuratie: Inefficiënte dataloaders, asynchrone garbage collection die workers blokkeert, load imbalance door variabele inputlengtes, en deadlock in Python-data-pipelines.

Significantie

EROICA markeert een doorbraak in het beheer van AI-infrastructuur. Het lost het fundamentele dilemma op tussen "grote schaal" en "fijne details" door slimme data-aggregatie. Door het probleem te reduceren tot het vergelijken van compacte gedragspatronen, maakt het online troubleshooting mogelijk op schalen die voorheen ondenkbaar waren.

Bovendien vormt het een cruciale schakel voor AIOps (Artificial Intelligence for IT Operations). Door de diagnose te koppelen aan AI-coding tools, kan het systeem niet alleen problemen vinden, maar ook automatisch oplossingen genereren voor code-fouten, wat de tijd tot herstel (MTTR) voor complexe LMT-problemen drastisch verkort.

EROICA: Online Performance Troubleshooting for Large-scale Model Training

1. Het oude probleem: Te traag of te duur

2. Het EROICA-magie: De slimme samenvatting

3. Hoe vindt het de fout? (Het "Hooiberg"-principe)

4. Wat kan EROICA vinden?

5. Waarom is dit zo belangrijk?

Probleemstelling

Methodologie: EROICA

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

XConv: Low-memory stochastic backpropagation for convolutional layers

A Survey on Decentralized Federated Learning

Polynomially Over-Parameterized Convolutional Neural Networks Contain Structured Strong Winning Lottery Tickets

Provable Filter for Real-world Graph Clustering

Enhancing Computational Efficiency in Multiscale Systems Using Deep Learning of Coordinates and Flow Maps