Revisiting Sharpness-Aware Minimization: A More Faithful and Effective Implementation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een berg beklimt, maar dan niet om de top te vinden, maar om de rustigste, breedste vallei te vinden. In de wereld van kunstmatige intelligentie (AI) is dit een heel belangrijk doel. Als een AI-model in een smalle, scherpe piek terechtkomt, werkt het misschien perfect op de oefenexamens, maar faalt het volledig als het een nieuw, onbekend probleem ziet. Wil je dat je AI slim en flexibel blijft? Dan moet je hem in een brede, vlakke vallei laten wonen.

Deze paper introduceert een nieuwe methode genaamd XSAM om precies dat te bereiken. Laten we kijken hoe het werkt, zonder ingewikkelde wiskunde.

1. Het oude probleem: De "Gokke" methode (SAM)

Er bestond al een populaire techniek genaamd SAM (Sharpness-Aware Minimization). De werking daarvan kun je vergelijken met een blinde bergbeklimmer:

De strategie: De klimmer staat ergens op de berg. Hij neemt een grote stap in de richting waar het stijgt (de "ascent"), om te kijken hoe steil de berg daar is.
De gok: Vervolgens kijkt hij naar die nieuwe plek en zegt: "Oké, daar is het hoogste punt. Ik ga nu terug naar mijn startpunt en loop in de tegenovergestelde richting van die nieuwe plek."
Het probleem: De auteurs van deze paper ontdekten dat deze methode eigenlijk een beetje op gokken leek. De klimmer kijkt naar een punt dat hij heeft bereikt, maar die richting is niet altijd perfect. Het is alsof je naar een ver weg gelegen heuvel kijkt en denkt: "Die kant op is het gevaarlijkst," terwijl de echte gevaarlijke rand misschien net iets anders ligt.
Het gevolg: Als je te veel stappen maakt om die "verre heuvel" te vinden, raak je de weg kwijt. De richting die je kiest wordt steeds onnauwkeuriger.

2. Het nieuwe idee: XSAM (De "Verkenner")

De auteurs zeggen: "Waarom gokken we op een richting die we niet helemaal begrijpen? Laten we het echt meten."

Ze introduceren XSAM (eXplicit Sharpness-Aware Minimization). In plaats van blindelings te vertrouwen op de richting van de laatste stap, doet XSAM het volgende:

De Verkenner: Stel je voor dat je op een heuveltop staat. In plaats van één grote stap te zetten en te raden, stuur je een kleine drone (of een verkenner) uit in verschillende richtingen langs de rand van je veiligheidsgebied.
Het zoeken: De drone kijkt: "Aha! In die ene specifieke richting, net iets naar links en omhoog, is het echt het hoogste en gevaarlijkste punt."
De actie: Nu weet je precies waar het gevaar zit. Je loopt niet zomaar de tegenovergestelde kant op; je loopt precies de weg die je veilig houdt, ver weg van die gevaarlijke rand.

3. Waarom is dit zo slim?

De paper legt uit dat de oude methode (SAM) vaak een beetje "ruw" was. Het was alsof je probeerde een doelwit te raken met een blinddoek op, terwijl je een paar seconden geleden naar een andere kant keek.

XSAM lost dit op door:

Duidelijkheid: Het zoekt actief naar de echte "piek" van het gevaar, in plaats van te gokken.
Flexibiliteit: Het past zich aan. Als het landschap verandert (wat tijdens het trainen van AI gebeurt), verplaatst de verkenner zich mee.
Efficiëntie: Je zou denken dat het sturen van een drone veel tijd kost, maar de auteurs hebben een slimme truc bedacht. Ze hoeven de drone niet elke seconde te sturen. Omdat de bergvorm niet elke seconde drastisch verandert, kunnen ze de drone maar één keer per "dag" (epoch) sturen. De rest van de dag gebruiken ze dezelfde route. Dit kost bijna geen extra tijd!

4. Het resultaat

In hun experimenten hebben ze getoond dat XSAM overal beter werkt dan de oude methode:

Of je nu een klein model op een simpele dataset hebt, of een gigantisch model dat complexe taal vertaalt.
Of je nu één stap zet of tien stappen.
XSAM vindt altijd de flattere, veiligere valleien.

Kort samengevat:
De oude methode (SAM) was als een blinde man die probeert een muur te vermijden door te gissen. De nieuwe methode (XSAM) is als diezelfde man, maar dan met een wandelstok die hij even uitsteekt om de muur echt te voelen, zodat hij precies weet waar hij moet lopen. Het resultaat? Een AI die niet alleen slim is op zijn oefeningen, maar ook echt slim en betrouwbaar in de echte wereld.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Revisiting Sharpness-Aware Minimization: A More Faithful and Effective Implementation" (XSAM), geschreven in het Nederlands.

Titel: Revisiting Sharpness-Aware Minimization: A More Faithful and Effective Implementation

Auteurs: Jianlong Chen en Zhiming Zhou (Shanghai University of Finance and Economics)
Publicatie: ICLR 2026

1. Het Probleem

Sharpness-Aware Minimization (SAM) is een populaire optimalisatietechniek die de generalisatie van machine learning-modellen verbetert door het maximaliseren van de trainingsfout binnen een vooraf gedefinieerde omgeving rondom de parameters te minimaliseren. Dit bevordert het vinden van "vlakkere" minima in de loss-landschap, wat geassocieerd wordt met betere generalisatie.

De huidige praktische implementatie van SAM kent echter fundamentele beperkingen en gebrek aan inzicht:

Benaderingsfout: De klassieke SAM benadering voert één of enkele stappen van gradiëntascentie uit om een geschat maximum te vinden, en past vervolgens de gradiënt van dat verplaatste punt toe op de huidige parameters.
Gebrek aan inzicht: Hoewel dit wiskundig wordt gerechtvaardigd door de Jacobiaan te negeren, ontbreekt een intuïtief begrip van waarom het toepassen van een niet-lokale gradiënt (van een verplaatst punt) beter werkt dan de lokale gradiënt.
Onnauwkeurigheid en Instabiliteit: De auteurs tonen aan dat de benadering door de gradiënt van het ascentiepunt vaak onnauwkeurig is en instabiel gedurende de training.
Multi-stap degradatie: Bij het uitbreiden van SAM naar meerdere ascentiestappen (multi-step SAM) verslechtert de kwaliteit van de benadering vaak. De gradiënt van het uiteindelijke punt ( $g_k$ ) wijkt te sterk af van de richting naar het werkelijke maximum wanneer deze direct op het startpunt wordt toegepast, wat leidt tot inferieure prestaties vergeleken met single-step SAM.

2. Methodologie en Kerninzichten

Nieuwe Interpretatie van SAM

De auteurs bieden een nieuw, intuïtief inzicht in waarom SAM werkt:

De gradiënt op het single-step ascentiepunt ( $g_1$ ), wanneer toegepast op het huidige punt ( $\theta_0$ ), biedt een betere benadering van de richting naar het lokale maximum dan de lokale gradiënt ( $g_0$ ).
Dit komt omdat $g_1$ informatie bevat over hoe het gradiëntveld evolueert in de omgeving, waardoor de richting naar het maximum directer wordt geïdentificeerd.
Echter, deze benadering is niet perfect; de richting is vaak nog steeds onnauwkeurig en de kwaliteit varieert sterk.

XSAM: eXplicit Sharpness-Aware Minimization

Om de onnauwkeurigheid en het gebrek aan adaptiviteit op te lossen, stellen de auteurs XSAM voor. In plaats van te vertrouwen op een statische benadering, schat XSAM de richting naar het maximum expliciet en dynamisch tijdens de training.

De Algorithmische Stappen van XSAM:

Ascentie: Voer $k$ stappen van gradiëntascentie uit om een punt $\vartheta_k$ te bereiken.
Zoekruimte Definitie: Construeer een 2D-hypervlak dat wordt opgespannen door twee vectoren:
- $v_0$ : De richting van het huidige punt naar het ascentiepunt ( $\vartheta_k - \vartheta_0$ ).
- $v_1$ : De genormaliseerde gradiënt op het ascentiepunt ( $g_k$ ).
- Voordeel: Dit vlak bevat zowel het punt met de hoogste bekende loss als de informatie van de gradiënt, zonder de fout van het direct toepassen van $g_k$ op $\vartheta_0$ .
Expliciete Zoektocht: Gebruik sferische lineaire interpolatie (slerp) tussen $v_0$ en $v_1$ om nieuwe richtingen te genereren:
$v(\alpha) = \frac{\sin((1-\alpha)\psi)}{\sin(\psi)}v_0 + \frac{\sin(\alpha\psi)}{\sin(\psi)}v_1$
waarbij $\psi$ de hoek tussen de vectoren is en $\alpha$ een interpolatiefactor.
Optimalisatie van Richting: Zoek de optimale $\alpha^*$ die de loss maximaliseert op een straal $\rho_m$ binnen dit vlak:
$\alpha^* = \arg \max_{\alpha} L(\vartheta_0 + \rho_m \cdot v(\alpha))$
Update: Update de parameters in de richting van $-v(\alpha^*)$ .

Efficiëntie:
Omdat de optimale $\alpha^*$ tijdens de training langzaam evolueert, wordt deze niet bij elke iteratie bijgewerkt, maar slechts eenmaal per epoch. Dit resulteert in een verwaarloosbare rekenkundige overhead (ongeveer 2,5% extra ten opzichte van SAM), terwijl de nauwkeurigheid aanzienlijk verbetert.

3. Belangrijkste Bijdragen

Nieuw Inzicht: Een intuïtieve en theoretisch onderbouwde verklaring waarom de gradiënt van het ascentiepunt een betere richting naar het maximum biedt dan de lokale gradiënt, maar ook waarom deze benadering onvolmaakt is.
Analyse van Multi-step SAM: Het aantonen dat de prestaties van multi-step SAM afnemen naarmate het aantal stappen toeneemt, omdat de gradiëntrichting te veel afwijkt van de ideale richting.
XSAM Algorithm: Een nieuwe, uniforme methode die zowel voor single-step als multi-step settings werkt. XSAM lost het probleem van onnauwkeurigheid op door de richting expliciet te schatten binnen een gefundeerde zoekruimte.
Efficiëntie: Een implementatie die slechts een verwaarloosbare extra rekentijd kost door het zeldzaam bijwerken van de interpolatiefactor.

4. Resultaten

Uitgebreide experimenten tonen consistent superioriteit van XSAM ten opzichte van bestaande methoden (SGD, SAM, ASAM, LSAM, MSAM, WSAM) over diverse modellen (VGG, ResNet, DenseNet, ViT, Transformer), datasets (CIFAR-10/100, Tiny-ImageNet, ImageNet, IWSLT2014) en settings.

Single-step Setting: XSAM overtreft SAM op alle geteste datasets en architecturen. Bijvoorbeeld, op CIFAR-100 met ResNet-18 steeg de nauwkeurigheid van 80.93% (SAM) naar 81.24% (XSAM).
Multi-step Setting: Terwijl de prestaties van standaard multi-step SAM (en varianten zoals MSAM/LSAM) vaak dalen bij het verhogen van het aantal stappen ( $k$ ), verbetert XSAM consistent of blijft stabiel. XSAM haalt de beste resultaten voor $k=1, 2, 4$ .
Robuustheid: XSAM toont betere prestaties op gecorrumpeerde datasets (CIFAR-C) en bij het trainen van grotere modellen (ResNet-50 op ImageNet).
Vlakke Minima: Analyse van het Hessian-spectrum en visualisatie van het loss-landschap bevestigen dat XSAM convergeert naar vlakkere minima dan SAM en SGD, wat de verbeterde generalisatie verklaart.

5. Betekenis en Impact

Dit paper is significant omdat het de fundamentele mechanismen van Sharpness-Aware Minimization opnieuw bekijkt en een meer "trouw" (faithful) implementatie biedt.

Het lost het paradoxale probleem op van het toepassen van niet-lokale gradiënten door deze expliciet te corrigeren.
Het maakt multi-step SAM effectief, wat eerder als problematisch werd beschouwd.
Het biedt een praktische, goedkope oplossing die direct kan worden geïntegreerd in bestaande training pipelines zonder significante kosten.
Het stelt een nieuwe standaard voor hoe optimalisatie-algoritmen die gericht zijn op generalisatie ontworpen en geanalyseerd moeten worden, verschuivend van heuristische benaderingen naar expliciete, dynamische schattingen van de loss-landschap topologie.

Kortom, XSAM vertegenwoordigt een evolutionaire stap in de optimalisatie van diepe neurale netwerken, waarbij de theorie van "vlakke minima" wordt vertaald naar een robuustere en efficiëntere praktijk.

Revisiting Sharpness-Aware Minimization: A More Faithful and Effective Implementation

1. Het oude probleem: De "Gokke" methode (SAM)

2. Het nieuwe idee: XSAM (De "Verkenner")

3. Waarom is dit zo slim?

4. Het resultaat

Titel: Revisiting Sharpness-Aware Minimization: A More Faithful and Effective Implementation

1. Het Probleem

2. Methodologie en Kerninzichten

Nieuwe Interpretatie van SAM

XSAM: eXplicit Sharpness-Aware Minimization

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers