Scaling with Collapse: Efficient and Predictable Training of LLM Families

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Warum laufen KI-Modelle manchmal durcheinander?

Stellen Sie sich vor, Sie sind ein Architekt, der riesige Wolkenkratzer baut. In der Welt der Künstlichen Intelligenz (KI) sind diese Wolkenkratzer die Sprachmodelle (wie Llama oder GPT). Je größer der Turm, desto intelligenter wird er.

Das Problem bisher: Wenn Sie einen kleinen Turm (z. B. 1 Milliarde Parameter) bauen, wissen Sie genau, wie er sich verhält. Aber wenn Sie versuchen, einen riesigen Turm (z. B. 70 Milliarden Parameter) zu bauen, ist es wie ein Blindflug. Sie wissen nicht genau, welche Einstellungen (Lernrate, Datenmenge, Batch-Größe) Sie brauchen, damit der Turm stabil bleibt und nicht einstürzt. Oft müssen Sie einfach raten, und das kostet eine Menge Geld und Zeit.

Die Entdeckung: Der „universelle Fahrplan"

Die Forscher von Cerebras haben etwas Erstaunliches entdeckt: Alle diese KI-Türme folgen eigentlich demselben Fahrplan, wenn man sie richtig baut.

Stellen Sie sich vor, Sie haben verschiedene Autos: ein Kleinkind, ein Sportwagen und einen LKW. Wenn Sie sie alle mit demselben Benzin und demselben Fahrverhalten (Geschwindigkeit, Bremsen) fahren, sehen ihre Geschwindigkeitskurven völlig unterschiedlich aus. Aber wenn Sie die Kurven „normalisieren" (also alles auf eine gemeinsame Skala bringen), stellen Sie fest: Alle Autos fahren exakt die gleiche Kurve.

Das nennen die Forscher „Collapse" (Zusammenfallen).
Das bedeutet: Wenn Sie die KI-Modelle mit den perfekten Einstellungen trainieren, fallen ihre Lernkurven auf eine einzige, universelle Linie zusammen. Es ist, als ob alle Modelle denselben unsichtbaren Lehrer hätten, der ihnen sagt: „So lernst du am besten."

Die drei Geheimzutaten für den perfekten Fahrplan

Damit diese „universelle Linie" entsteht, müssen drei Dinge stimmen, wie bei einem perfekten Rezept:

Das Verhältnis von Daten zu Größe (TPP): Wie viele Wörter (Token) sieht jedes einzelne Bauteil des Modells? Wenn ein kleines Modell 20 Wörter pro Bauteil sieht, muss ein riesiges Modell auch genau 20 Wörter pro Bauteil sehen. Nicht mehr, nicht weniger.
Die „Gedächtniszeit" des Optimierers (τ): Der Algorithmus, der das Lernen steuert (AdamW), hat ein gewisses „Gedächtnis". Er muss wissen, wie lange er auf alte Fehler schauen soll, bevor er neue macht. Dieser Wert muss für alle Modellgrößen perfekt aufeinander abgestimmt sein.
Der Lern-Takt (Lernrate): Wie schnell wird die Geschwindigkeit am Ende des Trainings gedrosselt? Auch das muss für alle Größen gleich geregelt sein.

Wenn diese drei Zutaten stimmen, passiert das Magische: Die Lernkurven aller Modelle – egal ob klein oder riesig – fallen auf eine Linie zusammen.

Was bringt uns das? (Die zwei Superkräfte)

Diese Entdeckung ist wie ein Werkzeugkasten für KI-Ingenieure:

1. Der Frühwarn-Alarm (Diagnose)
Stellen Sie sich vor, Sie fahren einen riesigen LKW. Wenn das Lenkrad ein wenig wackelt, merken Sie das vielleicht erst, wenn der LKW schon aus der Kurve fliegt.
Mit dem „Collapse"-Prinzip haben Sie aber einen perfekten Vergleichswert. Wenn Ihre aktuelle Lernkurve auch nur ein winziges Stück von der universellen Linie abweicht, wissen Sie sofort: „Achtung! Etwas stimmt nicht!"
Beispiel aus dem Papier: Bei einem ihrer Modelle (1,8 Mrd. Parameter) sah die Kurve am Anfang normal aus. Aber wenn man sie mit der „universellen Linie" verglich, sah man, dass sie schon bei 60 % des Trainings einen kleinen Fehler hatte. Ohne diesen Vergleich hätten sie das erst am Ende bemerkt, wenn alles kaputt war. So konnten sie den Fehler früh finden und reparieren.

2. Der Zeit- und Geld-Sparer (Frühes Stoppen)
Normalerweise muss man ein KI-Modell zu 100 % durchtrainieren, um zu sehen, ob es gut ist. Das kostet Millionen.
Mit dieser Methode können Sie das Modell nur zu 10–30 % trainieren. Dann schauen Sie: „Passt die Kurve auf die universelle Linie?" Wenn ja, können Sie mit einer mathematischen Vorhersage sagen: „Wenn wir weitermachen, wird das Ergebnis X sein."
Das bedeutet: Sie müssen nicht mehr jedes Modell bis zum Ende trainieren, um zu testen, welche Einstellungen am besten sind. Sie können viel früher entscheiden, welche Einstellung die Gewinner-Strategie ist. Das spart enorme Rechenleistung.

Das Ergebnis: Die Celerity-Familie

Die Forscher haben diese Erkenntnisse genutzt, um eine neue Familie von Modellen namens Celerity zu bauen.

Sie haben die „perfekten Zutaten" (TPP und τ) verwendet.
Die Modelle lernen effizienter als viele andere bekannte Modelle (wie Llama oder Gemma).
Sie sind nicht nur schnell, sondern auch vorhersehbar stabil.

Zusammenfassung in einem Satz

Die Forscher haben herausgefunden, dass KI-Modelle, wenn sie richtig trainiert werden, alle denselben Lernweg gehen; dieses Wissen hilft uns, Fehler sofort zu erkennen und beim Training von riesigen KIs Zeit und Geld zu sparen.

Die Metapher:
Statt jeden neuen Wolkenkratzer blind zu bauen, haben wir jetzt einen perfekten Bauplan, der für alle Größen funktioniert. Wenn sich ein Turm auch nur ein Millimeter von diesem Plan entfernt, wissen wir sofort, dass die Fundamente wackeln, und können es reparieren, bevor das Gebäude einstürzt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Training von Large Language Models (LLMs) erfordert zunehmend enorme Rechenressourcen. Ein zentrales Problem ist die Vorhersagbarkeit des Trainingsverlaufs:

Fehlende Skalierbarkeit: Bei der Skalierung von Modellgröße und Datensatz ändern sich oft die optimalen Hyperparameter (Lernrate, Batch-Größe, Weight Decay).
Ineffizientes Experimentieren: Da direkte Experimente an der „Frontier" (sehr große Modelle) zu teuer sind, verlassen sich Teams oft auf heuristische Methoden oder manuelle Inspektion von Loss-Kurven, um Probleme wie Loss-Spikes oder Sättigung zu erkennen.
Vorherige Grenzen: Kürzliche Arbeiten (z. B. Qiu et al., 2025) zeigten, dass Trainingsverlustkurven (Training Loss Curves, TLCs) unter bestimmten Bedingungen kollabieren (d. h. sich auf eine universelle Kurve überlagern), aber dies wurde bisher nur bei kleinen Modellen und einfachen Optimierern (ohne Weight Decay) untersucht. Es war unklar, ob dies für praktische LLM-Familien gilt, bei denen Breite, Tiefe, Batch-Größe und Weight Decay gemeinsam skaliert werden.

2. Methodik und theoretische Grundlagen

Die Autoren untersuchen die Bedingungen, unter denen normalisierte Trainingsverlustkurven über verschiedene Modellgrößen hinweg kollabieren.

Schlüsselkonzepte:

Tokens-per-Parameter (TPP): Das Verhältnis von Trainings-Token ( $D$ ) zu Modellparametern ( $N$ ).
AdamW Timescale ( $\tau$ ): Ein neuer, normalisierter Parameter, der die „Gedächtnislänge" des AdamW-Optimierers beschreibt. Er wird definiert als $\tau = B / (\eta \cdot \lambda \cdot D)$ , wobei $B$ die Batch-Größe, $\eta$ die Lernrate und $\lambda$ der Weight-Decay-Koeffizient ist.
Maximal Update Parameterization ( $\mu$ P): Eine Methode, die es erlaubt, Hyperparameter von kleinen Proxy-Modellen auf große Modelle zu übertragen.

Die Entdeckung des „Collapse":
Die Autoren zeigen, dass TLCs kollabieren, wenn drei Kontrollgrößen über alle Modellgrößen hinweg konsistent gehalten werden:

TPP-Ratio: Fixiert das relative Tempo der Verbesserung.
AdamW Timescale ( $\tau$ ): Steuert den Bias-Variance-Trade-off. Ein kleineres $\tau$ führt zu schnellerer Bias-Reduktion, aber einem höheren Varianz-Boden; ein größeres $\tau$ reduziert die Varianz effektiver, aber langsamer.
Lernraten-Schedule: Phasiert die frühe Bias-Reduktion gegen die spätere Varianzunterdrückung.

Wenn $\tau$ optimal für ein gegebenes TPP gewählt wird (basierend auf empirischen Skalierungsgesetzen), überlagern sich die normalisierten Verlustkurven verschiedener Modellgrößen fast perfekt.

3. Wichtige Beiträge

Identifikation der steuernden Faktoren: Die Autoren klären, dass die Form der TLC nicht nur von der Modellgröße abhängt, sondern primär durch $\tau$ , TPP und den Lernraten-Schedule bestimmt wird. Sie zeigen, dass $\tau$ der entscheidende Faktor für die Form der Kurve ist.
Nachweis des Kollapses bei vollem Maßstab: Im Gegensatz zu früheren Arbeiten demonstrieren sie, dass der Kollapseffekt auch bei großen LLM-Familien auftritt, die mit praktischen Skalierungsrezepten (inkl. Weight Decay und komplexen Architekturen) trainiert werden.
Einführung der „Celerity"-Modellfamilie: Sie stellen eine neue Familie von LLMs (300M bis 3,9B Parameter) vor, die explizit in einem „Collapse-Regime" trainiert wurde (feste TPP-Bänder mit optimalem $\tau$ ).
Diagnostik und Early Stopping:
- Diagnostik: Abweichungen von der kollabierten Kurve dienen als hochempfindliches Frühwarnsystem für numerische Instabilitäten oder Trainingsfehler (z. B. Kernel-Probleme), lange bevor die rohe Loss-Kurve Anomalien zeigt.
- Hyperparameter-Tuning: Durch das Anpassen von Teilkurven an eine universelle Referenzkurve (basierend auf kleinen Modellen) kann der finale Verlust vorhergesagt werden. Dies ermöglicht ein Early Stopping beim Hyperparameter-Tuning nach nur 10–30 % des Trainings, was enorme Rechenkosten spart.

4. Ergebnisse

Celerity Performance: Die Celerity-Modelle liegen an der Pareto-Grenze für Rechen-effizientes Training. Sie erreichen eine vergleichbare Genauigkeit wie andere Open-Source-Modelle (z. B. BTLM) mit 75 % weniger Trainings-FLOPs.
Kollabierende Kurven: In den Experimenten kollabierten die Kurven von Modellen zwischen 300M und 3,9B Parametern bei festen TPP-Werten (20, 80, 234) und optimalem $\tau$ präzise.
Fehlererkennung: In einem 1,8B-Training wurde ein numerisches Problem (ein „Blip" im Loss) durch die Analyse der Residuen zur kollabierten Kurve bei ca. 60 % des Trainings erkannt. Ohne diese Referenz wäre das Problem erst bei 90 % sichtbar geworden, was zu einer Verschwendung von Ressourcen geführt hätte.
Vorhersagegenauigkeit: Ein parametrisches Surrogatmodell, das auf kleinen Daten (111M Parameter) trainiert wurde, konnte den finalen Verlust von großen Modellen (bis 3,3B) mit hoher Genauigkeit vorhersagen. Dies ermöglichte die Auswahl der besten Hyperparameter (Batch-Größe, Weight Decay) bereits nach 10–30 % des Trainings mit vernachlässigbarem Fehler im Vergleich zum wahren Optimum.

5. Bedeutung und Fazit

Das Paper etabliert das „Scaling with Collapse" als ein fundamentales Prinzip für das effiziente und vorhersagbare Training von LLMs.

Paradigmenwechsel: Statt Loss-Kurven als subjektive Signale zu betrachten, bietet der Kollaps eine quantitative, skalierungsinvariante Referenz.
Kostenreduktion: Die Fähigkeit, Hyperparameter-Tuning und Fehlererkennung drastisch zu beschleunigen, ist entscheidend für das Training von Modellen im Frontier-Bereich, wo jeder fehlgeschlagene Lauf Millionen von Dollar kostet.
Reproduzierbarkeit: Die Einführung von Celerity als offene Referenz-Modellfamilie, die auf diesen Prinzipien basiert, fördert die Transparenz und Vergleichbarkeit in der Forschung.

Zusammenfassend beweisen die Autoren, dass durch die richtige Einstellung von $\tau$ und TPP das Training von LLMs nicht nur effizienter, sondern auch mathematisch vorhersagbarer wird, was neue Wege für die Entwicklung zukünftiger KI-Systeme eröffnet.

Scaling with Collapse: Efficient and Predictable Training of LLM Families

Das große Rätsel: Warum laufen KI-Modelle manchmal durcheinander?

Die Entdeckung: Der „universelle Fahrplan"

Die drei Geheimzutaten für den perfekten Fahrplan

Was bringt uns das? (Die zwei Superkräfte)

Das Ergebnis: Die Celerity-Familie

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik und theoretische Grundlagen

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

LLM-Augmented Knowledge Base Construction For Root Cause Analysis

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Depression Detection at the Point of Care: Automated Analysis of Linguistic Signals from Routine Primary Care Encounters

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering