Scaling with Collapse: Efficient and Predictable Training of LLM Families

Die Studie zeigt, dass sich die Trainingsverlustkurven von LLM-Familien unter optimalen Skalierungsbedingungen zu einer universellen Trajektorie zusammenführen lassen, was als zuverlässiges Werkzeug zur Diagnose von Trainingsproblemen, zur frühen Beendigung von Hyperparameter-Optimierungen und zur effizienten Entwicklung leistungsfähiger Modelle wie der „Celerity"-Familie dient.

Shane Bergsma, Bin Claire Zhang, Nolan Dey, Shaheer Muhammad, Gurpreet Gosal, Joel Hestness

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Warum laufen KI-Modelle manchmal durcheinander?

Stellen Sie sich vor, Sie sind ein Architekt, der riesige Wolkenkratzer baut. In der Welt der Künstlichen Intelligenz (KI) sind diese Wolkenkratzer die Sprachmodelle (wie Llama oder GPT). Je größer der Turm, desto intelligenter wird er.

Das Problem bisher: Wenn Sie einen kleinen Turm (z. B. 1 Milliarde Parameter) bauen, wissen Sie genau, wie er sich verhält. Aber wenn Sie versuchen, einen riesigen Turm (z. B. 70 Milliarden Parameter) zu bauen, ist es wie ein Blindflug. Sie wissen nicht genau, welche Einstellungen (Lernrate, Datenmenge, Batch-Größe) Sie brauchen, damit der Turm stabil bleibt und nicht einstürzt. Oft müssen Sie einfach raten, und das kostet eine Menge Geld und Zeit.

Die Entdeckung: Der „universelle Fahrplan"

Die Forscher von Cerebras haben etwas Erstaunliches entdeckt: Alle diese KI-Türme folgen eigentlich demselben Fahrplan, wenn man sie richtig baut.

Stellen Sie sich vor, Sie haben verschiedene Autos: ein Kleinkind, ein Sportwagen und einen LKW. Wenn Sie sie alle mit demselben Benzin und demselben Fahrverhalten (Geschwindigkeit, Bremsen) fahren, sehen ihre Geschwindigkeitskurven völlig unterschiedlich aus. Aber wenn Sie die Kurven „normalisieren" (also alles auf eine gemeinsame Skala bringen), stellen Sie fest: Alle Autos fahren exakt die gleiche Kurve.

Das nennen die Forscher „Collapse" (Zusammenfallen).
Das bedeutet: Wenn Sie die KI-Modelle mit den perfekten Einstellungen trainieren, fallen ihre Lernkurven auf eine einzige, universelle Linie zusammen. Es ist, als ob alle Modelle denselben unsichtbaren Lehrer hätten, der ihnen sagt: „So lernst du am besten."

Die drei Geheimzutaten für den perfekten Fahrplan

Damit diese „universelle Linie" entsteht, müssen drei Dinge stimmen, wie bei einem perfekten Rezept:

  1. Das Verhältnis von Daten zu Größe (TPP): Wie viele Wörter (Token) sieht jedes einzelne Bauteil des Modells? Wenn ein kleines Modell 20 Wörter pro Bauteil sieht, muss ein riesiges Modell auch genau 20 Wörter pro Bauteil sehen. Nicht mehr, nicht weniger.
  2. Die „Gedächtniszeit" des Optimierers (τ): Der Algorithmus, der das Lernen steuert (AdamW), hat ein gewisses „Gedächtnis". Er muss wissen, wie lange er auf alte Fehler schauen soll, bevor er neue macht. Dieser Wert muss für alle Modellgrößen perfekt aufeinander abgestimmt sein.
  3. Der Lern-Takt (Lernrate): Wie schnell wird die Geschwindigkeit am Ende des Trainings gedrosselt? Auch das muss für alle Größen gleich geregelt sein.

Wenn diese drei Zutaten stimmen, passiert das Magische: Die Lernkurven aller Modelle – egal ob klein oder riesig – fallen auf eine Linie zusammen.

Was bringt uns das? (Die zwei Superkräfte)

Diese Entdeckung ist wie ein Werkzeugkasten für KI-Ingenieure:

1. Der Frühwarn-Alarm (Diagnose)
Stellen Sie sich vor, Sie fahren einen riesigen LKW. Wenn das Lenkrad ein wenig wackelt, merken Sie das vielleicht erst, wenn der LKW schon aus der Kurve fliegt.
Mit dem „Collapse"-Prinzip haben Sie aber einen perfekten Vergleichswert. Wenn Ihre aktuelle Lernkurve auch nur ein winziges Stück von der universellen Linie abweicht, wissen Sie sofort: „Achtung! Etwas stimmt nicht!"
Beispiel aus dem Papier: Bei einem ihrer Modelle (1,8 Mrd. Parameter) sah die Kurve am Anfang normal aus. Aber wenn man sie mit der „universellen Linie" verglich, sah man, dass sie schon bei 60 % des Trainings einen kleinen Fehler hatte. Ohne diesen Vergleich hätten sie das erst am Ende bemerkt, wenn alles kaputt war. So konnten sie den Fehler früh finden und reparieren.

2. Der Zeit- und Geld-Sparer (Frühes Stoppen)
Normalerweise muss man ein KI-Modell zu 100 % durchtrainieren, um zu sehen, ob es gut ist. Das kostet Millionen.
Mit dieser Methode können Sie das Modell nur zu 10–30 % trainieren. Dann schauen Sie: „Passt die Kurve auf die universelle Linie?" Wenn ja, können Sie mit einer mathematischen Vorhersage sagen: „Wenn wir weitermachen, wird das Ergebnis X sein."
Das bedeutet: Sie müssen nicht mehr jedes Modell bis zum Ende trainieren, um zu testen, welche Einstellungen am besten sind. Sie können viel früher entscheiden, welche Einstellung die Gewinner-Strategie ist. Das spart enorme Rechenleistung.

Das Ergebnis: Die Celerity-Familie

Die Forscher haben diese Erkenntnisse genutzt, um eine neue Familie von Modellen namens Celerity zu bauen.

  • Sie haben die „perfekten Zutaten" (TPP und τ) verwendet.
  • Die Modelle lernen effizienter als viele andere bekannte Modelle (wie Llama oder Gemma).
  • Sie sind nicht nur schnell, sondern auch vorhersehbar stabil.

Zusammenfassung in einem Satz

Die Forscher haben herausgefunden, dass KI-Modelle, wenn sie richtig trainiert werden, alle denselben Lernweg gehen; dieses Wissen hilft uns, Fehler sofort zu erkennen und beim Training von riesigen KIs Zeit und Geld zu sparen.

Die Metapher:
Statt jeden neuen Wolkenkratzer blind zu bauen, haben wir jetzt einen perfekten Bauplan, der für alle Größen funktioniert. Wenn sich ein Turm auch nur ein Millimeter von diesem Plan entfernt, wissen wir sofort, dass die Fundamente wackeln, und können es reparieren, bevor das Gebäude einstürzt.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →