Scaling with Collapse: Efficient and Predictable Training of LLM Families

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: "Groeien met Instorting" – Hoe je AI-modellen sneller en slimmer traint

Stel je voor dat je een gigantisch leger van robots wilt bouwen om een taal te leren spreken. Je hebt verschillende maten: kleine robots (300 miljoen parameters), middelgrote robots (1 miljard) en enorme reuzen (3,9 miljard).

Vroeger was het trainen van deze robots een beetje als gokken. Je zette ze aan het werk, hoopte dat ze leerden, en keek of ze niet "op hol" sloegen. Als je een grote robot trainde, wist je niet zeker of de regels die je voor de kleine robot gebruikte ook wel werkten voor de grote. Het was vaak een dure en chaotische reis.

De onderzoekers van Cerebras Systems hebben nu een geheim ontdekt dat dit proces volledig verandert. Ze noemen het "Scaling with Collapse" (Groeien met Instorting).

1. Het Grote Geheim: De "Universele Weg"

Stel je voor dat elke robot een eigen kaart heeft om een berg op te klimmen.

Vroeger: De kleine robot liep een steile, korte weg. De grote robot liep een lange, kronkelige weg. Ze leken totaal niet op elkaar.
Nu: De onderzoekers ontdekten dat als je de robots op de juiste manier "kijft" (de juiste snelheid en instellingen kiest), ze allemaal precies dezelfde universele weg lopen.

Wanneer je hun voortgang op een speciale manier normaliseert (alsof je de kaart schaalverandert tot één standaardformaat), instorten hun paden op elkaar. Ze vallen samen tot één perfecte lijn. Of je nu een kleine of een enorme robot traint: ze volgen exact hetzelfde patroon.

2. De Drie Sleutels tot Succes

Hoe krijg je die perfecte lijn? Je moet drie dingen precies goed afstemmen, net als het afstellen van een racefiets:

De "Wissel" (AdamW timescale $\tau$ ): Dit bepaalt hoe lang de robot zich herinnert aan zijn oude fouten. Is het te kort? Dan vergeet hij te snel. Is het te lang? Dan is hij traag. De onderzoekers vonden de perfecte "geheugensnelheid" voor elke situatie.
De "Lesstof" (Tokens per Parameter - TPP): Dit is hoeveel tekst de robot leest per "breinunit". Als je te weinig tekst geeft, leert hij niet genoeg. Te veel? Dan raakt hij in de war. Ze vonden het perfecte aantal woorden per robot.
Het "Tempo" (Leerplan): Hoe snel de robot leert en of hij langzaam afremt aan het einde (net als een auto die zachtjes stopt in plaats van hard remmen).

Als je deze drie dingen goed instelt, gedragen alle robots zich als één groot team.

3. Waarom is dit zo geweldig? Twee Superkrachten

Deze ontdekking geeft de onderzoekers twee nieuwe superkrachten:

Kracht 1: De Vroege Waarschuwing (De "Rookmelder")
Stel je voor dat je een grote robot traint en plotseling begint hij rare bewegingen te maken.

Vroeger: Je zag pas dat er iets mis was als de robot al 90% van de weg had afgelegd en toen opeens viel. Dan was het te laat en moest je alles opnieuw doen.
Nu: Omdat je weet hoe de "universele weg" eruit moet zien, zie je direct als de robot een beetje uit de lijn raakt. Het is alsof je een ruitje hebt waar je doorheen kijkt: als de robot ook maar een millimeter uit de lijn loopt, zie je het direct. Je kunt het probleem oplossen voordat het een ramp wordt.

Kracht 2: De Voorspeller (De "Crystal Ball")
Stel je voor dat je twintig verschillende instellingen wilt testen voor je enorme robot. Dat kost enorm veel tijd en geld.

Vroeger: Je moest alle twintig tot het einde trainen om te zien welke het beste was.
Nu: Je traint ze maar een klein stukje (bijvoorbeeld 10% van de tijd). Omdat je weet dat ze allemaal op dezelfde universele weg moeten liggen, kun je de rest van de reis voorspellen. Je kunt al na een paar uur zeggen: "Die instelling is de winnaar!" en de andere twintig stoppen. Dit bespaart enorme hoeveelheden energie en geld.

4. Het Resultaat: De Celerity Familie

De onderzoekers hebben een nieuwe familie AI-modellen gebouwd, genaamd Celerity.

Ze zijn getraind met deze nieuwe, perfecte regels.
Ze zijn niet alleen slimmer en sneller, maar ze zitten ook op de "efficiëntie-voorhoede". Dat betekent dat ze met minder rekenkracht (minder stroom en tijd) net zo goed presteren als de zware modellen van grote concurrenten.
Ze zijn openbaar gemaakt, zodat iedereen kan zien hoe het moet.

Conclusie

Kortom: Dit papier zegt dat we stoppen met blind gokken bij het trainen van AI. Door te begrijpen dat alle modellen, groot of klein, eigenlijk dezelfde "universele dans" dansen als we ze goed afstemmen, kunnen we:

Fouten direct opsporen.
Tijd en geld besparen door te voorspellen wat er gaat gebeuren.
Slimmere, efficiëntere AI bouwen.

Het is alsof we eindelijk de muziek hebben gevonden waar al onze robots perfect op kunnen dansen, in plaats van dat ze allemaal hun eigen, rommelige dansjes doen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Scaling with Collapse: Efficient and Predictable Training of LLM Families

Auteurs: Shane Bergsma, Bin Claire Zhang, Nolan Dey, Shaheer Muhammad, Gurpreet Gosal, Joel Hestness (Cerebras Systems)

1. Het Probleem

De effectieve training van Large Language Models (LLMs) is afhankelijk van de voorspelbaarheid van schaalwetten: hoe prestaties (zoals de finale loss) en optimale hyperparameters veranderen naarmate modelgrootte en datasetgrootte toenemen. Hoewel recente werken (zoals Qiu et al., 2025) hebben aangetoond dat trainingsverliescurves (TLCs) kunnen "instorten" (collapse) tot een universeel pad na normalisatie, bleef het onduidelijk of dit fenomeen standhoudt bij praktische schaalingsrecepten voor LLM-families.

In de praktijk worden breedte, diepte, leertempo (learning rate), batchgrootte en gewichtsverval (weight decay) vaak gelijktijdig geschaald. Bestaande families zoals Llama-2 trainen met variërende tokens-per-parameter (TPP) en AdamW-tijdschalen ( $\tau$ ), wat leidt tot niet-overlappende, onvoorspelbare verliescurves. Dit maakt het moeilijk om training op frontier-schalen te diagnosticeren, hyperparameters te optimaliseren zonder volledige training, en te bepalen of een model compute-efficiënt wordt getraind.

2. Methodologie en Kernconcepten

De auteurs introduceren een theoretisch en empirisch kader waarbij trainingsverliescurves van modellen van verschillende groottes exact op elkaar vallen (collapse) onder specifieke voorwaarden.

De Drie Controles voor Collapse

Voor een succesvolle collapse moeten drie schaal-invariante controles consistent worden gehouden over verschillende modelgroottes:

Tokens-per-Parameter Ratio (TPP): De verhouding $D/N$ (aantal trainings-tokens gedeeld door het aantal parameters).
AdamW-tijdschaal ( $\tau$ ): Een normalisatie van de tijdschaal van de optimizer, gedefinieerd als $\tau = \frac{B}{\eta \lambda D}$ , waarbij $B$ de batchgrootte is, $\eta$ de leertempo, $\lambda$ het gewichtsverval en $D$ het totale aantal tokens. $\tau$ regelt de afweging tussen bias-reductie (vroege training) en variance-onderdrukking (late training).
Leertempo-schema (LR Schedule): Het patroon waarmee de leertempo afneemt (bijv. lineair naar nul).

De auteurs tonen aan dat wanneer $\tau$ optimaal wordt ingesteld voor een gegeven TPP, de genormaliseerde trainingsverliescurves ( $\ell(\hat{t})$ ) van modellen van 300M tot 3,9B parameters samenvallen tot één universele curve.

De Celerity Model-familie

Om dit concept te valideren, trainden de auteurs de Celerity-familie van LLMs.

Architectuur: Decoder-only Transformers (GPT2-achtig) met CompleteP-parameterisatie (een verbetering van $\mu$ P die zowel breedte als diepte schaalbaar maakt).
Data: Een mix van hoogwaardige educatieve, wiskundige en code-datasets (o.a. FineWeb-Edu, StarCoder), zonder late-stage "data annealing" op specifieke benchmarks.
Schaalingsstrategie: Celerity trainde in vaste TPP-banden (20, 80 en 234 TPP). Voor elke band werd $\tau$ geoptimaliseerd en vervolgens over de verschillende modelgroottes (300M, 500M, 900M, 1.8B, 3.9B) overgedragen.

3. Belangrijkste Bijdragen

Identificatie van de drijvende factoren: Het paper identificeert dat de vorm van de trainingscurve wordt bepaald door $\tau$ (bias-variance trade-off), TPP (snelheid van verbetering) en het LR-schema.
Demonstratie van Collapse op LLM-schaal: Het bewijst dat collapse niet beperkt is tot kleine autoregressieve taken, maar ook optreedt bij volledige LLM-families wanneer $\tau$ en TPP correct worden geschaald.
De Celerity Familie: De introductie van een nieuwe, open LLM-familie die compute-efficiënt is en als bewijs van concept dient voor de "collapse"-regime.
Vroege Stoppen en Diagnostiek: Het ontwikkelen van methoden om hyperparameters te tunen en trainingsproblemen te detecteren door gebruik te maken van de voorspelbaarheid van de gecollapseerde curves.

4. Resultaten

A. Collapse en Diagnose

Llama-2 vs. Celerity: Llama-2-curves vallen niet samen omdat $\tau$ en TPP variëren. Celerity-curves vallen perfect samen binnen hun TPP-band.
Detectie van Pathologieën: Afwijkingen van de gecollapseerde curve dienen als een gevoelige vroege waarschuwing voor trainingsproblemen. In een 1.8B Celerity-run werd een numerieke instabiliteit (een "blip" in de loss) gedetecteerd via de collapse residuals bij 60% van de training, lang voordat de ruwe loss-curve een duidelijke stijging vertoonde. Dit stelde het team in staat om de oorzaak (een kernel-probleem bij specifieke microbatch-groottes) te vinden en te repareren voordat de training volledig mislukte.

B. Compute-Efficiëntie

Celerity-modellen liggen op de Pareto-grens van compute-efficiëntie. Ze bereiken vergelijkbare prestaties als BTLM (een eerdere compute-optimale familie) met 75% minder trainings-FLOPs.
Door te trainen met een hogere TPP (234 in plaats van het compute-optimale ~20), worden modellen 62% kleiner voor dezelfde loss, tegen een meerkost van slechts 67% aan extra FLOPs. Dit biedt een goede balans tussen parameter-efficiëntie en rekentijd.

C. Vroege Stoppen in Hyperparameter Tuning (HPO)

De auteurs stellen een methode voor om de finale loss te voorspellen op basis van slechts 10-30% van de training.
Door kleine proxy-modellen te trainen om een universele normalisatiecurve te fiten, kunnen grote runs worden gestopt en geëvalueerd voordat ze voltooid zijn.
Experimenten tonen aan dat deze methode (gebaseerd op het voorspellen van de finale loss via de gecollapseerde curve) aanzienlijk beter presteert dan het kiezen van de "huidige beste" run, wat vaak misleidt door vroege variatie.

5. Betekenis en Impact

Dit paper biedt een fundamenteel inzicht in de dynamiek van LLM-training:

Voorspelbaarheid: Het maakt training op frontier-schalen minder een "black box". Door de curvevorm te normaliseren, kunnen teams hun training vergelijken met een universeel referentiepunt.
Efficiëntie: Het biedt een praktische route om compute-kosten te verlagen door hyperparameters op kleine schaal te tunen en deze direct over te dragen naar grote schaal, zonder dure volledige trainingen.
Stabiliteit: Het introduceert een robuust mechanisme voor het detecteren van numerieke fouten en data-problemen in real-time, wat essentieel is voor het trainen van modellen met miljarden parameters waar directe experimenten onmogelijk zijn.
Open Science: De Celerity-familie dient als een transparante, reproduceerbare baseline voor de gemeenschap, trainend op publieke data zonder verborgen "tricks" of benchmark-overschrijding.

Kortom, "Scaling with Collapse" transformeert trainingsverliescurves van een passief meetinstrument naar een actief hulpmiddel voor het ontwerpen, diagnosticeren en optimaliseren van de volgende generatie efficiënte Large Language Models.