Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Architekt, der versucht, ein Haus (ein KI-Modell) zu bauen, das nicht nur stabil ist, sondern auch gut aussieht und sich leicht renovieren lässt. In der Welt des maschinellen Lernens gibt es zwei Hauptmethoden, um dieses Haus zu bauen: den Gradient Descent (GD) und die Sharpness-Aware Minimization (SAM).

Diese neue Forschungsarbeit von Chaewon Moon und Kollegen untersucht genau, wie sich diese beiden Methoden verhalten, wenn das Haus tiefer wird (also mehr Etagen hat). Das Ergebnis ist überraschend: SAM verhält sich in tiefen Gebäuden ganz anders als GD, und zwar auf eine Weise, die man erst sieht, während man baut, nicht erst am Ende.

Hier ist die Erklärung in einfachen Worten mit ein paar bildhaften Vergleichen:

1. Der Grundstein: Was ist das Problem?

Stell dir vor, du hast eine Liste von Hinweisen, die dir sagen, wie du ein Rätsel lösen sollst. Manche Hinweise sind laut und deutlich (die „wichtigen" Merkmale), andere sind ganz leise und fast unhörbar (die „unwichtigen" Merkmale).

GD (Der klassische Baumeister): GD ist wie ein sehr direkter Baumeister. Er hört sofort auf das lauteste Signal. Wenn ein Hinweis laut ist, baut er sofort darauf auf. Er ignoriert die leisen Hinweise fast komplett. Am Ende steht ein Haus, das perfekt auf die lautesten Hinweise ausgerichtet ist.
SAM (Der vorsichtige Baumeister): SAM ist ein Baumeister, der nicht nur auf das aktuelle Signal hört, sondern auch schaut: „Was passiert, wenn ich mich ein bisschen wackelig auf meinem Fundament bewege?" Er sucht nach einem Fundament, das auch dann noch stabil steht, wenn man es ein wenig stößt. Das macht das Haus oft robuster und besser für die Zukunft.

2. Die Überraschung: Tiefe verändert alles

Die Forscher haben herausgefunden, dass sich SAM und GD völlig unterschiedlich verhalten, je nachdem, wie viele Etagen (Schichten) das neuronale Netzwerk hat.

Ein Stockwerk (Flache Netze): Hier sind sich SAM und GD sehr ähnlich. Beide hören auf die lautesten Hinweise und bauen das Haus gleich auf. Kein Problem.
Zwei Stockwerke oder mehr (Tiefe Netze): Hier passiert das Magische (oder Verwirrende).
- GD bleibt gleich: Er hört immer noch sofort auf das lauteste Signal.
- SAM wird jedoch zu einem Entdecker.

3. Das Phänomen: „Sequenzielle Verstärkung" (Sequential Feature Amplification)

Das ist der Kern der Entdeckung. Stell dir vor, du hast ein Mikrofon, das leise und laute Stimmen aufnimmt.

Wie GD arbeitet: GD dreht das Mikrofon sofort auf die lauteste Stimme und ignoriert den Rest.
Wie SAM arbeitet: SAM ist wie ein neugieriger Detektiv.
1. Zuerst (Der Anfang): SAM hört sich zuerst die leisen, unwichtigen Stimmen an. Warum? Weil die Mathematik von SAM (ein spezieller Normalisierungsfaktor) dazu führt, dass diese leisen Signale am Anfang des Trainings „aufgeblasen" werden. Es ist, als würde SAM sagen: „Vielleicht versteckt sich in diesem leisen Flüstern ja etwas Wichtiges, das wir übersehen!"
2. Dann (Der Wechsel): Im Laufe der Zeit, oder wenn das Haus (das Netzwerk) größer wird, schaltet SAM um. Es merkt: „Okay, die leisen Stimmen waren interessant, aber die lauten Stimmen sind eigentlich die wichtigsten." Und dann fokussiert es sich endlich auf die Hauptsignale.

Die Metapher:
Stell dir vor, du suchst nach dem besten Weg durch einen dichten Wald.

GD läuft sofort geradeaus auf den breitesten, offensichtlichsten Pfad.
SAM läuft erst eine Weile durch das hohe Gras am Rand des Pfades (die „minor features"), sammelt dort vielleicht Blumen oder findet kleine Abkürzungen, und dann läuft er erst auf den breiten Hauptpfad.

4. Warum ist das wichtig?

Bisher dachten viele Forscher: „Es ist egal, wie SAM anfängt, am Ende kommt er ja auf den gleichen Weg wie GD."
Diese Arbeit zeigt: Das ist falsch!

Wenn man nur auf das Endergebnis schaut, sieht man vielleicht, dass beide am gleichen Ziel ankommen. Aber der Weg ist entscheidend.

SAM lernt in der Anfangsphase Dinge über die leisen Details, die GD nie lernt.
Das erklärt, warum SAM oft bessere KI-Modelle baut: Es hat durch diese „Umwege" eine bessere Vorstellung von der Landschaft gewonnen.

5. Ein praktisches Beispiel (Das Foto)

Die Forscher haben das an echten Fotos getestet (z. B. Bilder von Zahlen auf MNIST).

GD schaut sich beim Erkennen einer Zahl nur die hellen, weißen Striche der Zahl an.
SAM schaut sich am Anfang auch den schwarzen Hintergrund an. Es lernt, dass der Hintergrund auch Informationen trägt. Erst später konzentriert es sich auf die Zahl selbst.

Fazit

Diese Studie sagt uns: Tiefe macht SAM klüger, aber auch launischer.
Wenn du ein tiefes neuronales Netz mit SAM trainierst, musst du wissen, dass es am Anfang vielleicht „falsche" Dinge (die leisen Signale) betont. Aber genau dieser Prozess, erst die kleinen Details zu verstärken und dann zu den großen überzugehen, ist der Geheimtipp, warum SAM so gut funktioniert.

Es ist wie beim Lernen einer Sprache: Ein Schüler (GD) lernt sofort die wichtigsten Wörter. Ein anderer Schüler (SAM) lernt erst die kleinen Grammatikregeln und die leisen Nuancen, bevor er die großen Sätze bildet. Am Ende sprechen beide fließend, aber der SAM-Schüler versteht die Sprache vielleicht tiefer.

Each language version is independently generated for its own context, not a direct translation.

Titel: MINOR FIRST, MAJOR LAST: A DEPTH-INDUCED IMPLICIT BIAS OF SHARPNESS-AWARE MINIMIZATION
Veröffentlicht bei: ICLR 2026

1. Problemstellung

Das Paper untersucht den impliziten Bias (die Tendenz eines Optimierungsalgorithmus, bestimmte Lösungen zu bevorzugen) von Sharpness-Aware Minimization (SAM) beim Training von linearen diagonalen Netzwerken mit $L$ Schichten auf linear separierbaren Binärklassifizierungsproblemen (unter Verwendung der logistischen Verlustfunktion).

Während Gradient Descent (GD) für lineare Modelle ( $L=1$ ) bekanntermaßen zum $\ell_2$ -Max-Margin-Klassifikator konvergiert, ist das Verhalten von SAM in tieferen Netzwerken ( $L \ge 2$ ) weniger verstanden. Die Autoren stellen die Hypothese auf, dass die Netzwerktiefe in Kombination mit der SAM-Optimierung zu einem qualitativ anderen impliziten Bias führt als bei GD, insbesondere in Bezug darauf, wie das Modell auf "Hauptmerkmale" (starke Features) versus "Nebenmerkmale" (schwache Features) der Daten reagiert.

2. Methodik

Die Analyse stützt sich auf folgende methodische Ansätze:

Modell: Lineare diagonale Netzwerke der Tiefe $L$ , definiert durch $\beta(\theta) = \bigodot_{\ell=1}^L w^{(\ell)}$ .
Daten: Ein vereinfachtes, aber aufschlussreiches Szenario mit einem einzigen Datenpunkt $\{( \mu, +1 )\}$ , wobei $\mu$ ein Vektor mit streng monoton steigenden Komponenten ist ($0 < \mu_1 < \dots < \mu_d$). Dies isoliert den Effekt der Tiefe von komplexen Datenkonfigurationen.
Algorithmen: Vergleich von Gradient Descent (GD) mit zwei SAM-Varianten:
- $\ell_\infty$ -SAM (Perturbation im $\ell_\infty$ -Norm-Bereich).
- $\ell_2$ -SAM (Perturbation im $\ell_2$ -Norm-Bereich, die in der Praxis häufiger verwendet wird).
Analyse: Die Autoren nutzen kontinuierliche Zeit-Flows (Rescaled Flows), um die diskreten Updates zu approximieren und eine analytische Behandlung der Trajektorien zu ermöglichen. Sie untersuchen sowohl das asymptotische Verhalten ( $t \to \infty$ ) als auch das pre-asymptotische Verhalten (endliche Trainingszeit).

3. Hauptbeiträge und Ergebnisse

A. Tiefe $L=1$ (Lineare Modelle)

Ergebnis: Sowohl $\ell_\infty$ - als auch $\ell_2$ -SAM konvergieren in Richtung des $\ell_2$ -Max-Margin-Klassifikators.
Bedeutung: In flachen Netzwerken ändert SAM den impliziten Bias von GD nicht; beide verhalten sich asymptotisch identisch.

B. Tiefe $L \ge 2$ mit $\ell_\infty$ -SAM

Ergebnis: Das Verhalten ändert sich drastisch. Die Konvergenzrichtung hängt kritisch von der Initialisierung ab.
- Je nach Verhältnis der Initialisierung $\alpha_j$ zum Perturbationsradius $\rho$ kann die Lösung gegen 0 konvergieren, gegen einen endlichen Punkt oder gegen eine Standardbasisvektor-Richtung $e_j$ .
- Im Gegensatz zu GD, das immer die dominante Koordinate (das Hauptmerkmal) wählt, kann $\ell_\infty$ -SAM bei bestimmten Initialisierungen Nebenmerkmale bevorzugen oder sogar divergieren.
Mechanismus: Die Koordinaten entwickeln sich unabhängig voneinander. Die Dynamik wird durch die relative Größe der Initialisierung im Verhältnis zu $\rho$ bestimmt.

C. Tiefe $L=2$ mit $\ell_2$ -SAM (Der Kernbeitrag)

Dies ist der wichtigste und überraschendste Teil der Arbeit:

Asymptotischer Bias: Theoretisch konvergiert $\ell_2$ -SAM bei $L=2$ (unter der Annahme, dass der Verlust gegen 0 geht) in die $\ell_1$ -Max-Margin-Richtung, was dem Bias von GD entspricht.
Phänomen der sequenziellen Feature-Verstärkung (Sequential Feature Amplification):
- Die endliche Zeit-Dynamik weicht stark vom asymptotischen Limit ab.
- Beobachtung: Zu Beginn des Trainings (oder bei kleiner Initialisierung) konzentriert sich der Prädiktor zunächst auf Nebenmerkmale (kleine $\mu_j$ ). Erst im Laufe der Zeit (oder bei größerer Initialisierung) verschiebt sich die Dominanz schrittweise zu den Hauptmerkmalen.
- Ursache: Der Normalisierungsfaktor in der $\ell_2$ -Perturbation ( $\frac{\nabla L}{\|\nabla L\|_2}$ ) führt dazu, dass die Gradienten für kleine Features relativ stärker skaliert werden als für große Features, solange die Norm des Parameters klein ist. Dies verstärkt die Nebenmerkmale früh im Training.
Regime-Analyse: Die Autoren identifizieren drei Regime basierend auf der Initialisierungsskala $\alpha$ $α$ :
- Regime 1 (Kleines $\alpha$ ): Der Prädiktor kollabiert gegen 0; keine Features werden gelernt.
- Regime 2 (Mittleres $\alpha$ ): Hier tritt die sequenzielle Verstärkung auf. Das Modell lernt erst schwache, dann mittlere und schließlich starke Features. Dies führt zu einem charakteristischen "Plateau" in der Verlustkurve, bevor der Verlust schnell abfällt.
- Regime 3 (Großes $\alpha$ ): Das Modell konvergiert sofort in Richtung des Hauptmerkmals (ähnlich wie GD).

4. Experimentelle Validierung

Die theoretischen Erkenntnisse wurden durch synthetische und reale Experimente untermauert:

Synthetische Daten: Bestätigen die Regime-Übergänge und die sequenzielle Verstärkung bei verschiedenen $\mu$ -Vektoren und Netzwerktiefen ( $L \ge 2$ ).
Reale Daten (MNIST, SVHN, CIFAR-10):
- Die Autoren verwendeten Grad-CAM, um zu visualisieren, welche Bildbereiche das Modell betont.
- Ergebnis: GD konzentriert sich auf die dominanten, hellen Pixel (Hauptmerkmale). $\ell_2$ -SAM (bei mittlerer Initialisierung) betont hingegen stärker die dunklen Hintergrundbereiche oder schwächere Merkmale (Nebenmerkmale).
- Dies bestätigt, dass der beobachtete Bias nicht nur ein Artefakt des vereinfachten linearen Modells ist, sondern auch in nichtlinearen CNNs auftritt.

5. Bedeutung und Fazit

Das Paper liefert einen wichtigen theoretischen Einblick in die Funktionsweise von SAM:

Grenzen der asymptotischen Analyse: Die Arbeit zeigt, dass eine reine Analyse des Grenzwerts $t \to \infty$ unzureichend ist, um das tatsächliche Trainingsverhalten von SAM zu verstehen. Der endliche Zeit-Bias (finite-time bias) ist entscheidend und kann zu völlig anderen Lösungen führen als GD.
Tiefe als Faktor: Die Netzwerktiefe induziert einen neuen Bias-Mechanismus in SAM, der es ermöglicht, dass das Modell zunächst auf "schwierige" oder schwache Merkmale fokussiert, bevor es zu den offensichtlichen Hauptmerkmalen übergeht.
Praktische Implikation: Dies erklärt möglicherweise, warum SAM oft zu besseren Generalisierungsergebnissen führt: Durch die frühe Verstärkung von Nebenmerkmalen könnte das Modell robuster gegenüber Rauschen oder subtileren Mustern in den Daten werden, die von GD ignoriert würden.

Zusammenfassend demonstriert das Paper, dass SAM nicht nur "flachere Minima" sucht, sondern durch die Interaktion von Tiefe, Perturbationsgeometrie und Initialisierung einen komplexen, zeitabhängigen Lernpfad beschreitet, der das Lernen von "Minor First, Major Last" (zuerst Nebenmerkmale, dann Hauptmerkmale) erzwingt.

Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

1. Der Grundstein: Was ist das Problem?

2. Die Überraschung: Tiefe verändert alles

3. Das Phänomen: „Sequenzielle Verstärkung" (Sequential Feature Amplification)

4. Warum ist das wichtig?

5. Ein praktisches Beispiel (Das Foto)

Fazit

1. Problemstellung

2. Methodik

3. Hauptbeiträge und Ergebnisse

A. Tiefe L=1L=1L=1 (Lineare Modelle)

B. Tiefe L≥2L \ge 2L≥2 mit ℓ∞\ell_\inftyℓ∞​-SAM

C. Tiefe L=2L=2L=2 mit ℓ2\ell_2ℓ2​-SAM (Der Kernbeitrag)

4. Experimentelle Validierung

5. Bedeutung und Fazit

Mehr davon

Exploring AI in Fashion: A Review of Aesthetics, Personalization, Virtual Try-On, and Forecasting

Rule Extraction in Machine Learning: Chat Incremental Pattern Constructor

Inverse classification with logistic and softmax classifiers: efficient optimization

BarcodeBERT: Transformers for Biodiversity Analysis

On Minimal Depth in Neural Networks

A. Tiefe $L=1$ (Lineare Modelle)

B. Tiefe $L \ge 2$ mit $\ell_\infty$ -SAM

C. Tiefe $L=2$ mit $\ell_2$ -SAM (Der Kernbeitrag)