Revisiting Sharpness-Aware Minimization: A More Faithful and Effective Implementation

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschungspapier „Revisiting Sharpness-Aware Minimization" (XSAM), erzählt wie eine Geschichte mit Bildern aus dem Alltag.

Das große Problem: Der Wanderer im Nebel

Stell dir vor, du bist ein Wanderer, der einen Berg hinunterlaufen muss, um den tiefsten Punkt im Tal (den „Sieg" oder die beste Lösung für ein KI-Modell) zu finden.

Der normale Weg (SGD): Die meisten Wanderer schauen nur direkt unter ihre Füße. Sie sehen, wo es bergab geht, und machen einen Schritt in diese Richtung. Das funktioniert oft, aber sie landen leicht in kleinen Mulden oder Tälern, die nicht die tiefsten sind. Diese kleinen Täler sind „scharf" (sharp). Wenn sich das Wetter (die Daten) ein wenig ändert, rutschen sie schnell wieder raus.
Der scharfsichtige Weg (SAM): Die Forscher haben eine Methode namens SAM entwickelt. Der Wanderer schaut nicht nur unter die Füße, sondern versucht, das ganze Tal um sich herum zu verstehen. Er fragt sich: „Wo ist der höchste Punkt in meiner unmittelbaren Umgebung?" Und dann versucht er, genau dorthin zu gehen, um ihn zu vermeiden. Das Ziel ist es, in ein breites, flaches Tal zu kommen, das auch bei schlechtem Wetter stabil bleibt. Das funktioniert super!

Das Rätsel: Warum funktioniert der alte Trick?

Das Problem mit dem alten SAM-Trick war ein kleines Geheimnis. Um den höchsten Punkt im Tal zu finden, macht der Wanderer einen kleinen Schritt bergauf (in die falsche Richtung), schaut sich dort um und nutzt dann die Information von diesem neuen Ort, um seinen nächsten Schritt bergab zu planen.

Die Wissenschaftler fragten sich: „Warum funktioniert das? Schließlich schaut er sich ja an einer Stelle um, die er gar nicht erreichen will. Das ist wie ein Kompass, der an einem falschen Ort abgelesen wird."

Die Autoren dieses Papiers haben das Rätsel gelöst:
Sie haben entdeckt, dass dieser „falsche Ort" (der Punkt, an dem man bergauf geschaut hat) tatsächlich eine bessere Landkarte für die Richtung des höchsten Punktes liefert als der Blick von unten. Es ist, als würde man auf einen Hügel steigen, um zu sehen, wo der Gipfel liegt, und dann wissen, dass man von unten aus in die entgegengesetzte Richtung laufen muss.

ABER: Dieser Trick hat zwei Schwächen:

Er ist oft ungenau: Der Blick vom kleinen Hügel ist manchmal trügerisch. Man denkt, der Gipfel ist dort, aber er ist eigentlich woanders.
Je weiter man läuft, desto schlechter wird es: Wenn man versucht, mehrere Schritte bergauf zu gehen, um den Gipfel zu finden, verliert man oft den Bezug zum Startpunkt. Der Kompass zeigt dann in die falsche Richtung.

Die Lösung: XSAM (Der neue Navigator)

Die Autoren haben eine neue Methode namens XSAM erfunden. Sie lösen die Probleme des alten Tricks auf eine clevere Art:

Statt blind darauf zu vertrauen, dass der Blick vom kleinen Hügel perfekt ist, macht XSAM etwas anderes:
Es ist wie ein Schnüffler, der aktiv die Umgebung abtastet.

Der Suchraum: Anstatt den ganzen Berg zu scannen (was zu lange dauern würde), schaut XSAM nur in eine sehr spezifische, zweidimensionale Ebene. Stell dir vor, du hast zwei Stöcke:
- Stock A: Zeigt in die Richtung, in die du gerade bergauf gelaufen bist.
- Stock B: Zeigt in die Richtung, in die der Wind (der Gradient) an deinem neuen Ort weht.
  XSAM sucht nur in der Ebene, die von diesen beiden Stöcken aufgespannt wird.
Der aktive Test: In dieser Ebene testet XSAM ein paar verschiedene Richtungen (wie ein Koch, der probiert, ob mehr Salz oder mehr Pfeffer besser schmeckt). Es sucht aktiv nach der Richtung, in der die Verluste (die „Höhe") am höchsten sind.
Die Anpassung: Sobald die beste Richtung gefunden ist, läuft der Wanderer genau in die entgegengesetzte Richtung davon.

Der Clou: XSAM muss nicht bei jedem einzelnen Schritt neu suchen. Es stellt fest, dass sich die beste Suchrichtung nur sehr langsam ändert. Also reicht es, den Kompass einmal pro „Tag" (pro Trainings-Epoche) neu zu justieren. Das kostet fast keine zusätzliche Zeit.

Warum ist das besser?

Genauer: XSAM sucht aktiv nach dem höchsten Punkt, statt sich auf eine grobe Schätzung zu verlassen.
Stabiler: Auch wenn man viele Schritte bergauf macht (Multi-Step), bleibt XSAM präzise, weil es die Richtung neu berechnet, anstatt nur den letzten Blick zu nutzen.
Schnell: Da es nur selten neu suchen muss, ist es fast genauso schnell wie das alte SAM, aber viel effektiver.

Das Fazit in einem Satz

Während das alte SAM wie ein Wanderer war, der auf eine grobe Skizze vertraute, ist XSAM wie ein Wanderer mit einem modernen GPS, das aktiv die beste Route zum sichersten, flachsten Tal berechnet – und das alles, ohne langsamer zu werden.

In den Tests hat sich gezeigt, dass XSAM auf fast allen Aufgaben (Bilder erkennen, Texte übersetzen) besser funktioniert als alle bisherigen Methoden. Es ist der neue Goldstandard, um KI-Modelle robuster und intelligenter zu machen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Revisiting Sharpness-Aware Minimization: A More Faithful and Effective Implementation" auf Deutsch.

Titel: Revisiting Sharpness-Aware Minimization: A More Faithful and Effective Implementation (XSAM)

Autoren: Jianlong Chen, Zhiming Zhou (Shanghai University of Finance and Economics)
Veröffentlicht bei: ICLR 2026

1. Problemstellung

Sharpness-Aware Minimization (SAM) ist ein etablierter Optimierungsansatz, der die Generalisierungsfähigkeit von neuronalen Netzen verbessert, indem er nicht nur den Trainingsverlust minimiert, sondern auch die „Schärfe" (Sharpness) des Minimums reduziert. Das Ziel ist es, Parameter zu finden, bei denen der maximale Trainingsverlust in einer vordefinierten Umgebung (Radius $\rho$ ) minimal ist.

Das Paper identifiziert jedoch fundamentale Mängel in der praktischen Implementierung von SAM:

Approximationsfehler: Die klassische SAM-Implementierung approximiert die Suche nach dem Maximum in der Umgebung durch einen oder wenige Gradienten-Ascent-Schritte. Anschließend wird der Gradient am erreichten Punkt ( $\vartheta_k$ ) verwendet, um die aktuellen Parameter ( $\theta$ ) zu aktualisieren.
Fehlendes intuitives Verständnis: Obwohl dies als Näherung unter Vernachlässigung der Jacobi-Matrix gerechtfertigt wird, fehlt ein direktes Verständnis, warum die Anwendung eines „nicht-lokalen" Gradienten (berechnet an einem verschobenen Ort) auf die aktuellen Parameter so effektiv ist.
Ineffizienz bei Multi-Step: Die Qualität dieser Approximation verschlechtert sich oft, wenn die Anzahl der Ascent-Schritte ( $k > 1$ ) erhöht wird. Der Gradient am mehrstufigen Ascent-Punkt ( $g_k$ ) zeigt, wenn auf den Ursprung angewendet, oft nicht mehr in Richtung des tatsächlichen Maximums in der lokalen Umgebung.
Instabilität: Die Approximation durch den Gradienten am Ascent-Punkt ist oft ungenau und variiert stark während des Trainings, da sich die lokale Verlustlandschaft dynamisch ändert.

2. Methodik und Neue Interpretation

Die Autoren führen eine neue, intuitive Interpretation des SAM-Mechanismus ein und leiten daraus die Methode XSAM (eXplicit Sharpness-Aware Minimization) ab.

Neue Interpretation von SAM

Durch Visualisierungen der lokalen Verlustoberfläche zeigen die Autoren:

Der Gradient am einstufigen Ascent-Punkt ( $g_1$ ), angewendet auf den aktuellen Parameter ( $\vartheta_0$ ), liefert eine bessere Approximation der Richtung zum Maximum in der lokalen Umgebung als der lokale Gradient ( $g_0$ ).
Dies ermöglicht einen direkteren „Fluchtweg" aus dem Maximum der lokalen Umgebung, was die Generalisierung verbessert.
Theoretische Bestätigung: Unter einer zweiten Ordnung-Näherung (Taylor-Entwicklung) wird bewiesen, dass für ausreichend große Distanzen der Verlust entlang der Richtung von $g_1$ höher ist als entlang von $g_0$ .
Limitierung: Diese Approximation ist jedoch oft ungenau und instabil. Bei Multi-Step-Szenarien ( $k > 1$ ) kann die Richtung von $g_k$ stark von der idealen Richtung abweichen, was die Leistung von Multi-Step-SAM erklärt.

Der XSAM-Ansatz

Um diese Limitierungen zu überwinden, schlägt XSAM vor, die Richtung zum Maximum explizit zu schätzen, anstatt sich auf die Approximation durch den Ascent-Gradienten zu verlassen.

Suchraum-Einschränkung: Anstatt die gesamte hochdimensionale Umgebung zu durchsuchen (was rechnerisch unmöglich ist), wird die Suche auf eine zweidimensionale Hyperebene beschränkt.
- Diese Ebene wird aufgespannt durch:
  - $v_0$ : Die Richtung vom aktuellen Parameter zum Ascent-Punkt ( $\vartheta_k - \vartheta_0$ ).
  - $v_1$ : Die Richtung des Gradienten am Ascent-Punkt ( $g_k$ ).
- Diese Definition stellt sicher, dass der Punkt mit dem höchsten bekannten Verlust (in Richtung von $g_k$ ) innerhalb der Hyperebene liegt.
Explizite Suche (Probing):
- Innerhalb dieser Hyperebene werden neue Richtungen durch sphärische lineare Interpolation (Slerp) zwischen $v_0$ und $v_1$ generiert: $v(\alpha)$ .
- Ein Interpolationsfaktor $\alpha^*$ wird dynamisch bestimmt, der den Verlust $L(\vartheta_0 + \rho_m \cdot v(\alpha))$ maximiert.
- Dies geschieht durch Sampling von $\alpha$ -Werten und Vorwärtsdurchläufen.
Dynamische Aktualisierung:
- Da sich die optimale Richtung während des Trainings langsam ändert, wird $\alpha^*$ nicht bei jedem Schritt neu berechnet, sondern nur epochenweise aktualisiert.
- Dies hält den rechnerischen Overhead vernachlässigbar gering (ca. 2,5 % zusätzlich zu SAM).
Update-Regel:
- Die Parameter werden entlang der negativen Richtung des geschätzten Maximums aktualisiert: $\theta_{t+1} = \theta_t - \eta_t \cdot v(\alpha^*) \cdot \|g_k\|$ .

3. Hauptbeiträge

Neue Interpretation: Das Paper liefert eine intuitive und theoretisch fundierte Erklärung, warum SAM funktioniert: Der Gradient am Ascent-Punkt approximiert die Richtung zum lokalen Maximum besser als der lokale Gradient, ist aber oft ungenau.
Analyse von Limitierungen: Es wird gezeigt, dass die Approximationsqualität von SAM ungenau ist, instabil variiert und bei Multi-Step-Verfahren ( $k>1$ ) degradieren kann.
Entwicklung von XSAM: Einführung einer Methode, die die Richtung zum Maximum explizit und dynamisch schätzt, indem sie einen principled Suchraum (2D-Hyperebene) nutzt.
Effizienz: XSAM bietet eine einheitliche Formulierung für Single-Step und Multi-Step und fügt nur einen vernachlässigbaren rechnerischen Aufwand hinzu.

4. Ergebnisse

Extensive Experimente auf verschiedenen Modellen (VGG, ResNet, DenseNet, ViT, Transformer), Datensätzen (CIFAR-10/100, Tiny-ImageNet, ImageNet, IWSLT) und Szenarien belegen die Überlegenheit von XSAM:

Single-Step Setting: XSAM übertrifft SAM und SGD konsistent in der Testgenauigkeit über alle Architekturen hinweg.
Multi-Step Setting: Während die Leistung von SAM mit steigender Anzahl der Ascent-Schritte ( $k$ ) oft sinkt, profitiert XSAM von mehr Schritten und erreicht die besten Ergebnisse.
Robustheit: XSAM zeigt eine hohe Robustheit gegenüber verschiedenen Hyperparametern (wie $\rho$ und $\rho_m$ ) und übertrifft auch andere SAM-Varianten (wie ASAM, WSAM, LSAM, MSAM).
Flachheit der Minima: Analysen des Hessian-Spektrums und Visualisierungen der Verlustlandschaft zeigen, dass XSAM zu flacheren Minima konvergiert als SAM und SGD.
Rechenzeit: Die Trainingszeit von XSAM ist nahezu identisch mit der von SAM (siehe Tabelle 1 im Paper), was die Effizienz der epochenweisen Aktualisierung von $\alpha^*$ unterstreicht.

5. Bedeutung und Fazit

Dieses Paper adressiert eine fundamentale Lücke im Verständnis von Sharpness-Aware Minimization. Es widerlegt das Missverständnis, dass die Anwendung des Gradienten am Ascent-Punkt automatisch das Maximum minimiert, und zeigt stattdessen, dass es eine bessere Richtungsapproximation darstellt.

Die vorgeschlagene Methode XSAM löst die inhärenten Ungenauigkeiten der klassischen SAM-Approximation durch eine explizite, dynamische Schätzung der Suchrichtung. Dies führt zu einer treueren (faithful) und effektiveren Implementierung des Konzepts der Schärfe-minimierung. XSAM stellt einen neuen State-of-the-Art dar, der sowohl theoretisch fundiert als auch praktisch effizient ist und sich nahtlos in bestehende Trainingspipelines integrieren lässt, ohne signifikante Kosten zu verursachen. Der Code ist öffentlich verfügbar, was die Reproduzierbarkeit und weitere Forschung fördert.