When to restart? Exploring escalating restarts on convergence

Each language version is independently generated for its own context, not a direct translation.

Hoe een slimme "herstart" je AI helpt om de beste oplossing te vinden

Stel je voor dat je een berg beklimt in een dikke mist. Je doel is om het laagste punt in de vallei te vinden (de beste oplossing voor je kunstmatige intelligentie). Maar er is een probleem: de berg is vol met kleine kuilen en gaten.

Het probleem: De "valkuil" van de standaardmethode
Normaal gesproken lopen je algoritmen (de optimizers) als een wandelaar die steeds langzamer wordt naarmate hij dichter bij de bodem komt. Hij loopt voorzichtig, stapje voor stapje, tot hij in een klein kuilje stopt. Hij denkt: "Aha, dit is de bodem!" en stopt.

Maar vaak is dit kuilje niet het diepste punt van de hele vallei. Het is slechts een lokaal laag punt. Omdat de wandelaar steeds langzamer loopt, heeft hij niet meer genoeg energie om over de rand van het kuilje te springen om naar een dieper, beter punt te gaan. Hij zit vast.

De oplossing: SGD-ER (De "Escalating Restarts")
De auteurs van dit paper hebben een slimme truc bedacht, genaamd SGD-ER. In plaats van gewoon langzamer te lopen, doen ze iets heel anders als ze merken dat de wandelaar vastzit:

Detectie van stilstand: Het systeem kijkt constant: "Blijft de prestatie hetzelfde? Lopen we al 50 stappen zonder vooruitgang?" Als het antwoord ja is, weet het: "We zitten vast in een kuil."
De grote sprong (Restart): In plaats van verder te lopen, geven ze de wandelaar een enorme duw. Ze verhogen de "leerkracht" (de stapgrootte) drastisch.
Escalatie (Steeds harder duwen): Dit is het slimme deel. Als de wandelaar weer vastzit in een nieuw kuil, geven ze hem niet dezelfde duw, maar een nog grotere. Elke keer dat ze herstarten, wordt de duw sterker.

Een creatieve analogie: De zoektocht naar de beste koffie
Stel je voor dat je op zoek bent naar de perfecte koffie in een stad vol cafés.

Standaard methode: Je loopt rustig van café naar café. Als je in een café zit waar de koffie goed is, maar je merkt dat je al een tijdje niet verbetert, ga je zitten en drink je op. Je vindt misschien een goede koffie, maar niet de beste in de stad.
SGD-ER methode: Je loopt ook rustig. Maar zodra je merkt dat je al een uur in hetzelfde café zit zonder een betere koffie te vinden, doe je iets gek: je rent plotseling naar een heel ander deel van de stad (de "restart").
- De eerste keer ren je snel.
- Als je daar weer vastloopt, ren je sneller en spring je over straten heen (de "escalating" stap).
- Door steeds harder te rennen en verder te springen, kun je over de heuvels en muren springen die je normaal gesproken niet zou kunnen overwinnen. Zo vind je uiteindelijk het café met de allerbeste koffie, diep in een andere wijk waar je normaal nooit zou komen.

Wat levert dit op?
De paper toont aan dat deze methode werkt op verschillende moeilijke taken (zoals het herkennen van dieren op foto's).

Betere resultaten: De AI wordt slimmer en maakt minder fouten (tot 4,5% beter dan de oude methoden).
Niet vastlopen: De AI blijft zoeken en vindt de "vlakkere, veiligere" plekken in het landschap, in plaats van vast te komen zitten in scherpe, onstabiele kuilen.
Slimme timing: Het systeem weet zelf wanneer het moet stoppen met rennen. Zodra het merkt dat het echt de beste plek heeft gevonden, stopt het met het grotere rennen en landt het zachtjes.

Kort samengevat:
In plaats van te wachten tot je vastloopt en dan hopeloos te blijven zitten, of te blijven rennen met dezelfde snelheid, geeft SGD-ER je een opwaartse impuls precies op het moment dat je vastzit. Door elke keer een grotere impuls te geven, spring je uit de kleine kuilen en vind je de echte, diepe overwinning. Het is een manier om de AI te leren dat "vastzitten" eigenlijk een teken is om harder te gaan, niet om te stoppen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Wanneer herstarten? Het verkennen van escalerende herstarts op convergentie

Auteurs: Ayush K. Varshney, Šarūnas Girdzijauskas, Konstantinos Vandikas, Aneta Vulgarakis Feljan (Ericsson Research, KTH, RISE)
Publicatie: ICLR 2026 (voorgesteld)

1. Het Probleem

Het trainen van diepe neurale netwerken (DNN's) is sterk afhankelijk van het optimaliseren van de leerfrequentie (learning rate - LR). Bestaande schedulers, zoals Cosine Annealing, Cyclical Learning Rates (CLR) en Warm Restarts, hebben bewezen effectief te zijn, maar vertonen een fundamentele beperking:

Starre timing: Deze methoden vertrouwen op vooraf gedefinieerde of periodieke triggers om de leerfrequentie te verhogen of te herstarten. Ze zijn "agnostisch" ten opzichte van de daadwerkelijke trainingsdynamiek.
Suboptimale lokale minima: Als een model vastloopt in een scherp lokaal minimum of een zadelpunt (saddle point), kunnen periodieke herstarts inefficiënt zijn of leiden tot instabiel trainen, omdat ze niet rekening houden met het moment waarop het model daadwerkelijk gestagneerd is.
Gebrek aan adaptiviteit: Er is geen mechanisme dat specifiek reageert op convergentie of stagnatie in de validatieverlies, wat essentieel is om de loss-landschap (loss landscape) effectief te verkennen.

2. Methodologie: SGD-ER

De auteurs stellen Stochastic Gradient Descent with Escalating Restarts (SGD-ER) voor. Dit is een strategie die de leerfrequentie adaptief verhoogt op het moment dat convergentie (stagnatie) wordt gedetecteerd.

Kernprincipes:

Convergentiedetectie: In plaats van een vast tijdschema, monitort SGD-ER de trainingsvoortgang. Als de validatieverlies gedurende een vooraf gedefinieerde "patience" (geduld)-periode (bijv. 50 epochs) niet significant daalt, wordt dit gezien als stagnatie.
Escalerende Herstarts: Bij detectie van stagnatie wordt de optimizer herstart, maar niet met de oorspronkelijke leerfrequentie. De leerfrequentie wordt lineair verhoogd:
$\eta_k = (k + 1) \cdot \eta_0$
Waarbij $k$ het aantal herstarts is en $\eta_0$ de initiële leerfrequentie.
Doel: Door de stapgrootte te vergroten, kan de optimizer uit scherpe lokale minima ontsnappen en vlakkere gebieden van het loss-landschap verkennen, wat vaak leidt tot betere generalisatie.
Stopconditie: Het trainen gaat door tot er geen verdere verbetering meer wordt waargenomen na een herstart, of tot een maximum aantal epochs is bereikt.

Theoretische Onderbouwing:
Het paper presenteert een stelling (Theorem 1 & 2) die bewijst dat bij een $L$ -gladde functie met een strikt zadelpunt, het lineair escaleren van de leerfrequentie de tijd ( $T_k$ ) die nodig is om uit de omgeving van het zadelpunt te ontsnappen, monotoon doet afnemen naarmate het aantal herstarts ( $k$ ) toeneemt. Dit garandeert dat de optimizer uiteindelijk uit lokale minima ontsnapt.

3. Belangrijkste Bijdragen

Adaptieve Herstart-strategie: De introductie van een methode die herstarts triggert op basis van daadwerkelijke convergentie (stagnatie) in plaats van een vast schema.
Lineaire Escalatie: Een simpel maar effectief mechanisme waarbij de leerfrequentie lineair toeneemt bij elke herstart, wat zorgt voor gecontroleerde exploratie.
Uitgebreide Evaluatie: De methode is getest op drie standaard datasets (CIFAR-10, CIFAR-100, TinyImageNet) met diverse architecturen (ResNet-18/34/50, VGG-16, DenseNet-101).
Theoretisch Bewijs: Een wiskundige analyse die aantoont dat escalatie de kans op ontsnapping uit zadelpunten vergroot.

4. Resultaten

De experimenten tonen consistente verbeteringen ten opzichte van state-of-the-art schedulers (zoals SGD met exponentiële/lineaire verval, CLR, Cosine Annealing, en Warmup-Stable-Decay).

Verbeterde Testnauwkeurigheid: SGD-ER verbetert de testnauwkeurigheid met 0,5% tot 4,5% vergeleken met bestaande methoden.
- Voorbeeld (CIFAR-100, ResNet-18): SGD-ER bereikte 74,30% nauwkeurigheid, terwijl de beste baseline (WSDS) op 72,39% uitkwam.
Betere Generalisatie: Hoewel sommige baselines (zoals CLR) een lagere trainingsverlies bereiken, vertonen ze vaak hogere validatie- en testverliezen (overfitting). SGD-ER bereikt de laagste test- en validatieverliezen, wat wijst op superieure generalisatie.
Robuustheid: De prestaties zijn consistent over verschillende datasets en architecturen. Zelfs bij langdurige training (2000 epochs) blijft SGD-ER presteren, terwijl andere methoden vaak al eerder convergeren en stagneren.
Vroege Stop: De methode kan effectief worden gebruikt om training te stoppen zodra geen verdere verbetering meer mogelijk is, wat rekenkracht bespaart.

5. Betekenis en Conclusie

SGD-ER biedt een lichtgewicht maar krachtige oplossing voor het optimalisatieprobleem in deep learning. De kernboodschap is dat herstarts adaptief moeten zijn en gekoppeld moeten worden aan de daadwerkelijke voortgang van het model, in plaats van aan een klok.

Praktische Impact: Het biedt een eenvoudige manier om bestaande SGD-trainingspipelines te verbeteren zonder complexe hyperparameter-tuning of ingewikkelde schedulers.
Toekomstperspectief: De auteurs merken op dat er tijdelijke dalingen in nauwkeurigheid kunnen optreden direct na een herstart (door de plotselinge verhoging van de LR), maar dat het model zich snel herstelt en uiteindelijk betere optima bereikt. Toekomstig werk richt zich op het gladstrijken van deze overgangen en het aanpassen van drempelwaarden voor herstarts.

Samenvattend demonstreert dit paper dat het dynamisch escaleren van de leerfrequentie bij stagnatie een effectieve strategie is om de convergentie te versnellen, lokale minima te vermijden en de uiteindelijke generalisatie van neurale netwerken te verbeteren.

When to restart? Exploring escalating restarts on convergence

Titel: Wanneer herstarten? Het verkennen van escalerende herstarts op convergentie

1. Het Probleem

2. Methodologie: SGD-ER

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank