Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstenaar bent die een schilderij moet maken van een berglandschap. Je hebt twee manieren om je penseel te bewegen:

De "Gewone" Manier (GD - Gradient Descent): Je kijkt alleen naar de steilste helling en loopt direct naar beneden. Je volgt de duidelijkste weg. Als je een berg hebt met één grote, duidelijke piek en een paar kleine heuveltjes, zul je direct naar die grote piek rennen. Je negeert de kleine heuveltjes volledig.
De "Slimme" Manier (SAM - Sharpness-Aware Minimization): Deze methode is een beetje paranoïde. Voordat je een stap zet, zegt hij: "Stel dat ik een beetje schuif of dat de grond een beetje trilt, ben ik dan nog steeds veilig?" Hij probeert een plek te vinden die niet alleen laag is, maar ook vlak en stabiel. Dit zorgt er vaak voor dat het model beter presteert op nieuwe data.

Deze paper, getiteld "Minor First, Major Last" (Kleintjes eerst, groten later), ontdekt iets verrassends over hoe deze "Slimme Manier" (SAM) werkt, vooral als je dieper in de kunst (dieper in het neurale netwerk) kijkt.

Hier is de uitleg in simpele taal:

1. De Verwachting vs. De Realiteit

In de wereld van AI denken we vaak: "Hoe dieper het netwerk, hoe slimmer het wordt." Maar de auteurs ontdekten dat dieper gaan (van 1 laag naar 2 lagen) de "Slimme Manier" (SAM) een heel vreemd gedrag laat vertonen dat de "Gewone Manier" (GD) nooit doet.

Bij een simpele lijn (1 laag): Zowel de Gewone als de Slimme manier rennen naar dezelfde grote piek. Geen verrassing.
Bij een dieper netwerk (2 lagen): Hier gebeurt het raadsel. De Slimme manier (SAM) begint soms met het kleinste, onbelangrijkste detail van het schilderij, en pas later schuift hij over naar de grote, belangrijke piek.

2. De Analogie: De "Versterker" voor Kleine Geluiden

Stel je voor dat je een geluidsmixer hebt met knoppen voor verschillende geluiden:

Knop 1: Een heel zacht, zacht fluitje (een "minor feature" of klein detail).
Knop 5: Een luidruchtige trompet (een "major feature" of belangrijk detail).

Wat doet GD?
GD luistert direct naar de trompet. Hij draait de knop 5 direct hard op en negeert het fluitje. Het is logisch en rechttoe-rechtaan.

Wat doet SAM?
SAM doet iets heel vreemds.

In het begin: Door de manier waarop SAM "schudt" om de stabiliteit te testen, wordt het fluitje (het kleine detail) eerst harder versterkt dan de trompet. Het lijkt alsof SAM eerst gefascineerd is door de ruis op de achtergrond.
Later: Na verloop van tijd, of als je de "kracht" van de start (de initialisatie) verhoogt, schakelt SAM over. Dan begint hij eindelijk de trompet hard te draaien en negeert hij het fluitje weer.

Dit noemen ze "Sequential Feature Amplification" (Sequentiële Versterking van Kenmerken). Het is alsof SAM eerst door de kleine straten van een stad loopt om de sfeer te proeven, voordat hij eindelijk naar het grote plein gaat.

3. Waarom gebeurt dit? (De "Norm" van de Kracht)

De reden hiervoor zit in de wiskundige formule die SAM gebruikt. SAM kijkt naar de "scherpte" van de helling.

Bij kleine details is de helling vaak heel steil in verhouding tot de grootte van het detail.
De formule van SAM "normaliseert" deze helling. Hierdoor krijgen de kleine, zwakke signalen in het begin een enorme boost. Ze worden tijdelijk belangrijker dan de grote signalen.
Pas als het model groeit en de grote signalen sterker worden, neemt de "boost" voor de kleine signalen af, en wint de grote piek het weer.

4. Waarom is dit belangrijk?

Tot nu toe keken wetenschappers vooral naar het uiteindelijke resultaat (na oneindig veel tijd). Ze dachten: "Oh, SAM komt uiteindelijk toch op dezelfde plek uit als GD, dus het maakt niet uit."

Deze paper zegt: "Wacht even! Het pad is net zo belangrijk als de bestemming."

Als je alleen naar het eindresultaat kijkt, mis je het hele verhaal.
In de echte wereld (tijdens het trainen van een AI) heb je niet "oneindig veel tijd". Je stopt vaak na een paar uur of dagen.
Omdat SAM eerst naar de kleine details kijkt, kan het gedrag van je AI in de praktijk heel anders zijn dan wat de theorie voorspelt. Het kan bijvoorbeeld zorgen dat je model eerst leert op de achtergrond van een foto te letten, en pas later op het hoofd van de persoon.

Samenvatting in één zin

Deze paper toont aan dat de slimme trainingsmethode SAM, in diepe netwerken, eerst geobsedeerd raakt door de kleine, onbelangrijke details van de data voordat hij eindelijk naar de grote, belangrijke patronen gaat, en dat dit gedrag volledig afhankelijk is van hoe je het model start en hoe diep het netwerk is.

De les: Soms moet je eerst door de kleine straten lopen (de "minor" features) voordat je het grote plein (de "major" features) kunt bereiken, en dat is precies wat deze slimme AI-methode doet.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Sharpness-Aware Minimization (SAM) is een populaire optimalisatietechniek die bekend staat om het verbeteren van de generalisatie van diepe neurale netwerken door parameters te zoeken die een lage verlieswaarde hebben in een kleine omgeving (een "vlakke" minimum). Hoewel de empirische successen van SAM uitgebreid zijn gedocumenteerd, blijft de theoretische onderbouwing van zijn impliciete bias (de voorkeur die het algoritme heeft voor bepaalde oplossingen zonder expliciete regularisatie) onvolledig, vooral in de context van lineaire modellen met logistiek verlies.

Bestaande theorieën tonen aan dat voor lineaire modellen (diepte $L=1$ ) SAM convergeert naar dezelfde oplossing als Gradient Descent (GD): de $\ell_2$ max-margin classifier. Echter, het is onduidelijk hoe de diepte van het netwerk en de keuze van de perturbatienorm ( $\ell_2$ vs. $\ell_\infty$ ) de dynamiek veranderen. Het paper onderzoekt of SAM in diepere netwerken ( $L \ge 2$ ) nog steeds dezelfde implicit bias vertoont als GD, of dat er nieuwe, diepte-afhankelijke fenomenen optreden.

Methodologie

De auteurs analyseren de impliciete bias van SAM op L-laag lineaire diagonale netwerken getraind op lineair scheidbare binair classificatieproblemen met logistiek verlies. Ze bestuderen twee varianten:

$\ell_\infty$ -SAM: Perturbatie in de $\ell_\infty$ -norm.
$\ell_2$ -SAM: Perturbatie in de $\ell_2$ -norm (de meest gebruikte variant in de praktijk).

Om de analyse wiskundig hanteerbaar te maken, gebruiken ze de volgende aanpak:

Continuous-time Flows: Ze modelleren de discrete updates als continue stromen (ODE's), specifiek de "rescaled SAM flows". Dit elimineert de afgeleide van de verliesfunctie en maakt het mogelijk om de ruimtelijke trajecten van de parameters te analyseren.
Theoretische Analyse: Ze analyseren de evolutie van de lineaire coëfficiënten $\beta(t)$ voor verschillende dieptes ( $L=1$ en $L=2$ ) en initialisaties.
Experimentele Validatie: Ze valideren hun theorie met synthetische data (enkele en meerdere datapunten) en real-world datasets (MNIST, SVHN, CIFAR-10) op zowel lineaire netwerken als CNN's, waarbij ze Grad-CAM gebruiken om te visualiseren welke beeldpixels het model benadrukt.

Kernbijdragen en Resultaten

1. Diepte 1 ( $L=1$ ): Geen verandering in Bias

Voor lineaire modellen ( $L=1$ ) bevestigen de auteurs dat zowel $\ell_\infty$ - als $\ell_2$ -SAM convergeren naar dezelfde richting als Gradient Descent: de $\ell_2$ max-margin classifier. In dit geval verandert SAM de impliciete bias niet ten opzichte van GD.

2. Diepte 2+ met $\ell_\infty$ -SAM: Gevoeligheid voor Initialisatie

Voor diepere netwerken ( $L \ge 2$ ) vertoont $\ell_\infty$ -SAM een drastisch ander gedrag dan GD:

De convergentierichting is extreem gevoelig voor de initialisatie en de perturbatiestraal $\rho$ .
Afhankelijk van de initialisatie kan de oplossing convergeren naar een standaardbasisvector die overeenkomt met een minor feature (een minder belangrijke coördinaat), of zelfs naar nul.
In tegenstelling tot GD, dat altijd naar de dominante feature convergeert, kan $\ell_\infty$ -SAM dus "verkeerde" features selecteren als de initialisatie niet goed gekozen is.

3. Diepte 2 met $\ell_2$ -SAM: Sequentiële Feature Amplificatie (De Kernbevinding)

De meest significante ontdekking betreft $\ell_2$ -SAM in 2-laagse netwerken. Hoewel de asymptotische limiet (wanneer $t \to \infty$ ) overeenkomt met de $\ell_1$ max-margin oplossing (net als bij GD), vertoont de finite-time dynamiek een uniek fenomeen dat de auteurs "Sequential Feature Amplification" noemen:

Het Fenomeen: Tijdens de training vertrouwt de predictor eerst op minor features (coördinaten met kleine signalen) en verschuift hij geleidelijk naar major features (coördinaten met grote signalen) naarmate de training vordert of de initialisatie groter wordt.
Mechanisme: Dit wordt veroorzaakt door de normalisatiefactor in de $\ell_2$ -perturbatie. In de vroege fasen van training (of bij kleine initialisatie) wordt de groeivoet van major features onderdrukt, terwijl minor features relatief worden versterkt.
Regimes: De auteurs identificeren drie regimes gebaseerd op de schaal van de initialisatie ( $\alpha$ $α$ ):
1. Regime 1 (Kleine $\alpha$ ): De trajecten collapse naar nul; het verlies verdwijnt niet.
2. Regime 2 (Intermediaire $\alpha$ ): Hier treedt sequentiële amplificatie op. Het model begint met minor features, wat leidt tot een plateau in de loss-curve (vertraging in convergentie), voordat het overschakelt naar major features en de loss snel daalt.
3. Regime 3 (Grote $\alpha$ ): Het model convergeert direct naar de major features, gedraagt zich dus meer als GD.

4. Experimentele Bevestiging

Synthetische Data: Heatmaps tonen duidelijk dat de dominante feature-index ( $j^\dagger$ ) in $\ell_2$ -SAM sequentieel verandert van kleine naar grote indices naarmate tijd of initialisatie toeneemt. GD toont dit gedrag niet.
Real-world Data (MNIST, SVHN, CIFAR-10): Met Grad-CAM visualisaties wordt aangetoond dat SAM-trained CNN's in het intermediaire regime meer aandacht besteden aan achtergrondpixels (minor features, vaak donker of minder intens) dan GD, die zich direct focust op de dominante objecten (major features).

Significantie en Implicaties

Onvolledigheid van Asymptotische Analyse: Het paper demonstreert dat een analyse die alleen kijkt naar de limiet $t \to \infty$ misleidend kan zijn. De finite-time dynamiek van SAM is cruciaal voor het begrijpen van hoe het algoritme convergeert en welke features het eerst leert.
Diepte als Ontwerpfactor: Het toont aan dat diepte niet alleen de expressiviteit van het netwerk beïnvloedt, maar fundamenteel de optimalisatiedynamiek van SAM verandert, zelfs in lineaire modellen.
Praktische Impact: Het fenomeen van "minor-first" amplificatie verklaart waarom SAM soms langzamer convergeert in het begin (plateau in loss) maar uiteindelijk tot betere generalisatie kan leiden door een bredere exploratie van de feature-ruimte. Het suggereert ook dat de keuze van initialisatie en perturbatiestraal kritiek is om te voorkomen dat het model vastloopt in suboptimale regimes of onnodig lang minor features leert.
Theoretische Lekkernij: Het biedt een concrete wiskundige verklaring voor het gedrag van SAM in diepe netwerken, waarbij de interactie tussen perturbatie, diepte en initialisatie leidt tot een complexer, maar rijker, dynamisch gedrag dan bij standaard Gradient Descent.

Samenvattend stelt dit paper dat SAM in diepere netwerken een unieke "minor-first, major-last" bias vertoont, wat een fundamenteel verschil is met GD en een nieuwe kijk vereist op hoe we de training en generalisatie van moderne deep learning-modellen analyseren.

Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

1. De Verwachting vs. De Realiteit

2. De Analogie: De "Versterker" voor Kleine Geluiden

3. Waarom gebeurt dit? (De "Norm" van de Kracht)

4. Waarom is dit belangrijk?

Samenvatting in één zin

Probleemstelling

Methodologie

Kernbijdragen en Resultaten

1. Diepte 1 (L=1L=1L=1): Geen verandering in Bias

2. Diepte 2+ met ℓ∞\ell_\inftyℓ∞​-SAM: Gevoeligheid voor Initialisatie

3. Diepte 2 met ℓ2\ell_2ℓ2​-SAM: Sequentiële Feature Amplificatie (De Kernbevinding)

4. Experimentele Bevestiging

Significantie en Implicaties

Meer zoals dit

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions

1. Diepte 1 ( $L=1$ ): Geen verandering in Bias

2. Diepte 2+ met $\ell_\infty$ -SAM: Gevoeligheid voor Initialisatie

3. Diepte 2 met $\ell_2$ -SAM: Sequentiële Feature Amplificatie (De Kernbevinding)