What do near-optimal learning rate schedules look like?

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie trainieren einen sehr intelligenten, aber etwas ungeduldigen Schüler, um eine komplexe Aufgabe zu lösen. Der „Lernrate"-Plan (Learning Rate Schedule) ist im Grunde der Fahrplan, den Sie diesem Schüler geben, um zu sagen: „Wie schnell sollst du heute lernen?"

Wenn Sie ihn zu schnell antreiben, stolpert er über seine eigenen Füße und lernt gar nichts. Wenn Sie ihn zu langsam antreiben, kommt er nie ans Ziel. Die Frage, die sich die Autoren dieses Papers stellen, lautet: Wie sieht der perfekte Fahrplan aus?

Hier ist die einfache Erklärung der Forschung, gemischt mit ein paar kreativen Vergleichen:

1. Das Problem: Der „Einheits-Plan" ist oft langweilig

Bisher haben die meisten KI-Forscher einen sehr starren Fahrplan benutzt. Das war wie ein Standard-Kochrezept:

Aufwärmen (Warmup): Zuerst langsam anfangen, damit der Schüler nicht erschrickt.
Hauptteil: Eine bestimmte Kurve (oft eine „Cosinus-Kurve", also eine sanfte Welle).
Abklingen (Decay): Am Ende ganz langsam werden, damit er die letzten Details feinjustieren kann.

Die Forscher dachten sich: „Aber ist das wirklich das beste Rezept? Oder gibt es einen besseren Weg, den wir noch nicht gesehen haben?"

2. Die Lösung: Ein riesiger Suchroboter

Die Autoren haben einen digitalen Suchroboter gebaut. Statt nur ein paar feste Rezepte zu testen, haben sie eine riesige Bibliothek mit tausenden verschiedenen Fahrplänen erstellt.

Manche waren wie eine Steigung (immer langsamer werden).
Manche waren wie eine Berg-und-Tal-Bahn (mal schneller, mal langsamer).
Manche waren wie ein Flachwasser (konstant).

Sie haben diesen Roboter dann auf drei verschiedene „Schüler" losgelassen:

Ein einfacher Mathe-Schüler (Lineare Regression).
Ein Bilderkennungs-Schüler (CIFAR-10: Bilder von Hunden, Autos etc. erkennen).
Ein Sprach-Schüler (Wikitext103: Texte verstehen und vorhersagen).

3. Was haben sie herausgefunden? (Die Überraschungen)

A. Der Fahrplan ist wichtig, aber das „Tempo" ist alles

Stellen Sie sich vor, Sie haben den perfekten Fahrplan (die beste Kurve), aber Sie setzen den Schüler auf ein Fahrrad mit einem kaputten Pedal (eine falsche Basis-Lernrate). Dann bringt der perfekte Fahrplan nichts.
Erkenntnis: Die genaue Form der Kurve ist zweitrangig. Der wichtigste Hebel ist die Höchstgeschwindigkeit (die Basis-Lernrate). Wenn diese stimmt, funktioniert fast jeder vernünftige Fahrplan gut.

B. „Aufwärmen" und „Abklingen" sind Gold wert

Selbst wenn der Suchroboter Fahrpläne suchte, die nicht vorgaben, aufzuwärmen oder abzuklingen (wie ein chaotischer „Smooth Non-Monotonic"-Fahrplan), fand er trotzdem fast immer:

Am Anfang: Langsam hochfahren (Warmup).
Am Ende: Sanft abklingen (Decay).
Vergleich: Es ist wie beim Autofahren. Man startet nicht mit Vollgas auf einer Eisstraße (Aufwärmen nötig) und bremst nicht abrupt vor der Ziellinie, sondern gleitet sanft ein (Abklingen nötig). Das scheint eine fundamentale Regel für KI zu sein, nicht nur ein Zufall.

C. Der Mathe-Schüler ist anders als der KI-Schüler

Das war die größte Überraschung!

Beim einfachen Mathe-Schüler (Lineare Regression) war der perfekte Plan: Kein Aufwärmen! Einfach sofort mit hoher Geschwindigkeit loslegen und dann ganz am Ende abrupt abbremsen.
Beim KI-Schüler (Bilder, Sprache) war das Aufwärmen aber essenziell.
Lektion: Man kann nicht einfach von einfachen mathematischen Modellen auf komplexe KI-Modelle schließen. Was für den einen funktioniert, kann den anderen ruinieren.

D. Der „Gewichts-Abbau" (Weight Decay) verändert den Fahrplan

Ein weiterer Hyperparameter, der „Gewichts-Abbau" (Weight Decay), wirkt wie ein Schwerkraft-Modulator.

Wenn man viel „Gewichts-Abbau" nutzt, muss der Fahrplan länger auf hohem Niveau bleiben, bevor er abklingt.
Wenn man wenig nutzt, kann man früher abklingen.
Vergleich: Wenn Sie einen schweren Rucksack tragen (hoher Weight Decay), müssen Sie länger zügig marschieren, bevor Sie sich ausruhen dürfen. Wenn Sie leicht sind, können Sie früher langsamer werden.

4. Das Fazit für die Praxis

Die Forscher sagen im Grunde:

Hören Sie auf, stur nur „Cosinus-Kurven" zu benutzen. Es gibt bessere, flexiblere Formen, die ein paar Prozent besser abschneiden.
Aber: Bevor Sie sich um die Form der Kurve kümmern, stellen Sie sicher, dass Ihre Basis-Lernrate (die maximale Geschwindigkeit) stimmt. Das bringt den größten Gewinn.
Aufwärmen und Abklingen sind keine optionalen Extras mehr, sondern fundamentale Notwendigkeiten für komplexe KI-Modelle.

Zusammenfassend: Die perfekte Lernrate ist wie ein gut getimtes Musikstück. Es braucht einen sanften Einstieg, eine kraftvolle Mitte und ein kontrolliertes Ende. Aber egal wie schön die Melodie ist – wenn das Instrument (die Basis-Lernrate) falsch gestimmt ist, klingt alles schrecklich.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „What do near-optimal learning rate schedules look like?" von Naganuma et al. (2026) auf Deutsch:

1. Problemstellung

Ein grundlegendes, bisher unbeantwortetes Problem beim Training neuronaler Netze ist die Frage nach der optimalen Form (dem „Shape") eines Lernraten-Schedules für eine gegebene Aufgabe. Obwohl die Wahl des Schedules entscheidend für den Trainingserfolg ist, gibt es jenseits des allgemeinen Konsenses über einen initialen „Warmup" (Anstieg der Lernrate) und einen späteren „Decay" (Abfall der Lernrate) keine Einigkeit darüber, welche spezifische Funktion die Lernrate über die Zeit annehmen sollte.

In der Praxis tun Forscher oft so, als ob die Lernrate eine feste Funktion wäre (z. B. linear, kosinusförmig oder inverse Quadratwurzel) und optimieren nur wenige Parameter wie die Dauer des Warmups oder den Startpunkt des Decays. Es fehlt jedoch an systematischem Wissen darüber, wie die optimale Schedule-Form von der spezifischen Arbeitslast (Workload) abhängt und ob gängige Familien von Schedules tatsächlich optimal sind.

2. Methodik

Die Autoren entwickelten ein Suchverfahren, um die besten Schedule-Formen innerhalb parametrisierter Familien zu finden. Ein zentrales Merkmal ihrer Methode ist die Entkopplung der Schedule-Form von der Basis-Lernrate (Base Learning Rate), da Letztere sonst Vergleiche zwischen verschiedenen Formen dominieren würde.

Parametrisierte Schedule-Familien:
Das Paper definiert und untersucht mehrere Familien von Lernraten-Schedules (Tabelle 1 im Paper):

Konstant (con): Warmup gefolgt von konstanter Rate.
Kosinus (cos-std, cos-gen): Standard-Kosinus-Decay und eine generalisierte Version mit einem einstellbaren Exponenten.
Quadratwurzel (sqrt) & Generalized Rex: Monoton fallende Schedules.
Two-Point Spline (tps) & Two-Point Linear (tpl): Flexible Familien, die den Decay durch zwei Interpolationspunkte (Spline oder linear) definieren.
Smooth Non-Monotonic (snm): Die flexibelste Familie, die keine Monotonie erzwingt und Warmup/Decay nicht garantiert, sondern durch Spline-Interpolation mit variablen Kontrollpunkten und einem Peak an beliebiger Position definiert wird.

Suchverfahren:

Suche: Zufällige Suche (Random Search) über die Parameter der Schedule-Familien. Für jede Konfiguration wird die Basis-Lernrate über ein logarithmisches Gitter (16 Werte) optimiert.
Bewertung: Die Qualität eines Schedules wird durch den Median der minimalen Trainingsverluste über mehrere Zufallssamen (Seeds) gemessen, um Robustheit gegenüber Initialisierungen zu gewährleisten.
Evaluation: Die vielversprechendsten Schedules werden mit einer höheren Anzahl an Seeds (bis zu 100) neu evaluiert, um die Rangfolge zu verfeinern.

Workloads:
Die Methode wurde auf drei unterschiedlichen Aufgaben getestet:

Lineare Regression: Ein synthetisches Problem mit MSE-Verlust, für das ein theoretisches Optimum berechnet werden kann (Ground Truth).
Bildklassifizierung: Ein kleines CNN auf CIFAR-10.
Sprachmodellierung: Ein kleiner Transformer (8 Mio. Parameter) auf WikiText-103.

Alle Experimente wurden im „optimierungslimitierten Regime" durchgeführt (begrenzte Anzahl an Schritten), um Unterschiede zwischen den Schedules deutlicher zu machen, als es bei vollständig konvergierten Modellen der Fall wäre.

3. Wichtige Beiträge

Ground Truth für lineare Regression: Das Paper liefert die erste bekannte optimale Schedule für lineare Regression mittels SGD und nutzt diese als Benchmark für die Suchmethode.
Nahezu optimale Schedules für Deep Learning: Es wurden nahezu optimale Schedules für CNNs und Transformer auf den genannten Workloads gefunden.
Validierung der Suche: Es wird nachgewiesen, dass die Suchmethode für die meisten Familien (außer der sehr komplexen „Smooth Non-Monotonic") ausreichend gut ist, um nahe an das Optimum heranzukommen.
Einfluss von Hyperparametern: Die Arbeit zeigt den starken Einfluss von Optimierer-Hyperparametern (insbesondere Weight Decay) auf die optimale Schedule-Form.

4. Ergebnisse

A. Lineare Regression (Ground Truth):

Das theoretisch optimale Schedule hat keinen Warmup und besteht aus einer langen Phase mit hoher, flacher Lernrate, gefolgt von einem scharfen Decay am Ende.
Die Suchmethode findet Schedules, die qualitativ ähnlich sind (wenig Warmup, scharfer Decay), aber nicht exakt mit dem theoretischen Optimum übereinstimmen.
Die Basis-Lernrate ist der wichtigste Faktor für den Erfolg.

B. Deep Learning Workloads (CIFAR-10 & WikiText-103):

Warmup und Decay sind essenziell: Im Gegensatz zur linearen Regression profitieren Deep-Learning-Modelle stark von einem signifikanten Warmup (10–30% der Trainingszeit) und einem allmählichen Decay.
Robustheit: Selbst die „Smooth Non-Monotonic"-Familie, die keine Warmup/Decay-Struktur erzwingt, „entdeckt" durch die Suche automatisch Schedules mit Warmup und monotonem Decay. Dies deutet darauf hin, dass diese Phasen fundamentale Eigenschaften guter Schedules für nicht-konvexe Probleme sind.
Flexibilität bringt Vorteile: Flexiblere Familien (z. B. Two-Point Spline, Generalized Cosine) erzielen signifikant bessere Ergebnisse als Standard-Kosinus-Schedules.
- CIFAR-10: Flexible Familien reduzierten den Trainingsfehler auf 0,063–0,064 gegenüber 0,092 bei Standard-Kosinus.
- WikiText-103: Ähnliche Verbesserungen bei der Perplexität (26,6–26,7 vs. 27,2).
Basis-Lernrate vs. Form: Die Basis-Lernrate ist der dominierende Faktor für die Leistung. Sobald Warmup und Decay vorhanden sind, ist die Feinabstimmung der Basis-Lernrate wichtiger als die Wahl der spezifischen Schedule-Familie.

C. Einfluss von Hyperparametern:

Weight Decay ( $\lambda_{WD}$ ): Dies hat den stärksten Einfluss auf die Schedule-Form. Ein höheres Weight Decay führt zu Schedules, die die Lernrate länger hoch halten und den Decay erst sehr spät beginnen lassen.
$\beta_1, \beta_2$ (AdamW): Diese Parameter haben einen geringeren, aber messbaren Einfluss. Höheres $\beta_1$ tendiert zu späterem Decay, während $\beta_2$ weniger Einfluss zeigt.
Trainingshorizont: Bei längeren Trainingszeiten neigen die optimalen Schedules zu einem sanfteren Decay.

5. Bedeutung und Fazit

Das Paper liefert die umfassendsten Ergebnisse zu nahe-optimalen Lernraten-Schedules für Deep Learning bis dato.

Praktische Implikationen: Es bestätigt, dass Warmup und monotoner Decay fundamentale Bestandteile erfolgreicher Schedules sind. Es zeigt jedoch auch, dass gängige Standard-Schedules (wie reiner Kosinus) nicht optimal sind und dass flexible Familien (wie Spline-basierte Ansätze) kleine, aber signifikante Verbesserungen bieten können.
Unterschied zu konvexer Optimierung: Die Ergebnisse unterstreichen, dass Prinzipien aus der linearen Regression (kein Warmup, scharfer Decay) nicht direkt auf nicht-konvexe Deep-Learning-Probleme übertragbar sind.
Suchstrategie: Die Arbeit betont, dass bei der Suche nach optimalen Schedules die Basis-Lernrate separat und sorgfältig optimiert werden muss. Zudem wird gezeigt, dass für sehr flexible Familien (wie SNM) einfache Random Search oft nicht ausreicht und bessere Suchstrategien (z. B. Bayesian Optimization) notwendig wären.

Zusammenfassend bietet das Paper einen klaren Weg, um die „Black Box" der Lernraten-Schedule-Gestaltung zu durchdringen, und liefert empirische Belege dafür, dass die Form des Schedules stark von der spezifischen Aufgabe und den verwendeten Optimierer-Parametern abhängt.