FedNSAM:Consistency of Local and Global Flatness for Federated Learning

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Ein chaotisches Orchester

Stellen Sie sich Federated Learning wie ein riesiges Orchester vor, bei dem jeder Musiker (ein Client) in einem anderen Raum sitzt und sein eigenes Instrument spielt. Sie können sich nicht unterhalten, sondern nur ab und zu ihre Noten (die Updates) an den Dirigenten (den Server) schicken.

Das Ziel ist es, dass alle zusammen ein perfektes Stück spielen (ein gutes globales Modell).

Das Problem, das die Forscher entdeckt haben, ist folgendes:
In der klassischen Methode (FedSAM) versuchen die Musiker, ihre eigenen lokalen Partituren so glatt und fehlerfrei wie möglich zu spielen. Sie suchen nach dem "flachsten" Punkt in ihrer eigenen Musik (einem Minimum, das robust ist).

Aber hier liegt der Haken: Wenn die Musiker völlig unterschiedliche Musikstile haben (hohe Daten-Heterogenität), führt das zu einem Chaos.

Der Geiger sucht nach einem flachen Punkt in einer Walzer-Welt.
Der Schlagzeuger sucht nach einem flachen Punkt in einer Rock-Welt.
Wenn der Dirigent ihre Noten zusammenmischt, landen sie alle an einem steilen, instabilen Punkt. Das Ergebnis ist ein lautes, verzerrtes Geräusch (ein schlechtes globales Modell), obwohl jeder Einzelne dachte, er habe perfekt gespielt.

Die Forscher nennen dies die "Flachheits-Distanz": Die Distanz zwischen dem, was der einzelne Musiker als "guten Ort" sieht, und dem, was für das ganze Orchester gut ist. Je unterschiedlicher die Musiker sind, desto weiter liegen diese "guten Orte" auseinander.

Die Lösung: FedNSAM – Der Dirigent mit dem Nesterov-Momentum

Die Autoren schlagen eine neue Methode vor, die sie FedNSAM nennen. Um das zu verstehen, nutzen wir eine Analogie mit einem Wanderer im Nebel.

Stellen Sie sich vor, jeder Musiker ist ein Wanderer, der im Nebel (dem Datenraum) den tiefsten Punkt eines Tals finden muss.

Die alte Methode (FedSAM): Jeder Wanderer schaut nur direkt vor seine Füße, macht einen kleinen Schritt in die Richtung, die lokal am flachsten aussieht, und hofft, dass das für alle passt. Das funktioniert gut, wenn alle Wanderer im selben Tal sind. Aber wenn sie in verschiedenen Tälern sind, verirren sie sich.
Die neue Methode (FedNSAM): Hier kommt der Nesterov-Momentum-Effekt ins Spiel. Stellen Sie sich vor, jeder Wanderer hat einen weitsichtigen Assistenten (den globalen Impuls). Bevor der Wanderer einen Schritt macht, schaut er nicht nur direkt vor sich, sondern schaut einen Schritt voraus in die Richtung, in die sich das gesamte Orchester bewegt.

Wie funktioniert das konkret?

Der Blick nach vorne: Bevor ein Client (Musiker) seine lokalen Daten bearbeitet, nutzt er die "globale Momentum"-Information des Servers. Das ist wie ein Kompass, der sagt: "Hey, das ganze Orchester bewegt sich in diese Richtung!"
Die Korrektur: Der Client passt seine lokale Suche an diesen globalen Kompass an. Er sucht nicht mehr nur nach dem flachsten Punkt seines kleinen Raumes, sondern nach einem Punkt, der auch in die Richtung des globalen Zentrums zeigt.
Die Harmonie: Durch diese "Vorhersage" (Extrapolation) werden die einzelnen "flachen Regionen" der Clients näher aneinander herangezogen. Es ist, als würde der Dirigent die Musiker so positionieren, dass sie alle im selben Tal stehen, auch wenn sie aus verschiedenen Ländern kommen.

Warum ist das besser?

Schnelleres Lernen: Weil die Wanderer nicht mehr in die falschen Täler laufen, finden sie das Ziel viel schneller. Die Experimente zeigen, dass FedNSAM weniger Runden braucht, um ein gutes Ergebnis zu erzielen.
Robusteres Ergebnis: Das Endergebnis ist "flacher" und stabiler. Das bedeutet, das Modell funktioniert auch dann gut, wenn es auf neuen, unbekannten Daten getestet wird (bessere Generalisierung).
Effizienz: Es ist rechnerisch nicht viel aufwendiger als die alten Methoden, aber es bringt einen riesigen Vorteil bei heterogenen Daten (z. B. wenn ein Smartphone viele Bilder von Katzen hat und ein anderes nur von Hunden).

Zusammenfassung in einem Satz

FedNSAM ist wie ein smarter Dirigent, der seinen Musikern nicht nur sagt, wie sie ihre eigenen Noten spielen sollen, sondern ihnen hilft, ihre lokalen Schritte so zu koordinieren, dass sie alle gemeinsam in die richtige Richtung wandern und nicht in verschiedenen, isolierten Tälern stecken bleiben.

Das Ergebnis: Ein besseres, schnelleres und stabileres KI-Modell, das auch dann funktioniert, wenn die Daten der Teilnehmer sehr unterschiedlich sind.

Each language version is independently generated for its own context, not a direct translation.

Titel: Konsistenz von lokaler und globaler Flachheit im Federated Learning

Autoren: Junkang Liu, Fanhua Shang, Yuxuan Tian, Hongying Liu, Yuanyuan Liu (Tianjin University, Xidian University, Peng Cheng Laboratory)
Veröffentlicht: MM '25 (ACM International Conference on Multimedia)

1. Problemstellung

Im Federated Learning (FL) führt die Kombination aus Multi-Step-Local-Updates und Daten-Heterogenität (Non-IID-Daten) häufig dazu, dass das globale Modell in scharfe (sharp) lokale Minima konvergiert. Scharfe Minima sind bekannt dafür, eine schlechte Generalisierungsfähigkeit zu besitzen.

Um dieses Problem zu lösen, wurde der Sharpness-Aware Minimization (SAM) Ansatz in lokale Trainingsprozesse integriert (z. B. FedSAM). SAM versucht, flache Minima zu finden, indem es die Empfindlichkeit des Verlusts gegenüber kleinen Störungen (Perturbationen) minimiert.

Das Kernproblem:
Die Autoren identifizieren eine fundamentale Diskrepanz: In hoch heterogenen Umgebungen garantiert die Flachheit der lokalen Verlustlandschaften auf den Client-Daten nicht die Flachheit des aggregierten globalen Modells.

Bei geringer Heterogenität überlappen sich die flachen Regionen der Clients, sodass das globale Modell in einer gemeinsamen flachen Region landet.
Bei hoher Heterogenität divergieren die Update-Richtungen der Clients stark. Ihre flachen Regionen sind disjunkt (nicht überlappend). Das aggregierte globale Modell fällt daher oft in eine scharfe Region, die von keinem Client lokal gefunden wurde.

Bisherige Methoden wie FedSAM finden zwar lokal flache Minima, scheitern aber daran, diese Konsistenz auf globaler Ebene zu gewährleisten.

2. Methodik: FedNSAM

Die Autoren schlagen einen neuen Algorithmus vor, FedNSAM (Federated Nesterov Sharpness-Aware Minimization), der dieses Problem durch die Harmonisierung lokaler und globaler Flachheit löst.

A. Konzept der „Flatness Distance" (Flachheitsdistanz)

Um das Phänomen zu quantifizieren, definieren die Autoren die Flatness Distance ( $\Delta_{\mathcal{D}}$ ). Dies ist ein Maß für die Diskrepanz zwischen den flachen Regionen der lokalen Modelle und dem globalen Modell.

Eine hohe Heterogenität führt zu einer großen Flatness Distance.
Eine große Distanz bedeutet, dass das globale Modell nicht in den flachen Regionen der Clients liegt, was zu schlechter Generalisierung führt.

B. Algorithmus-Design (FedNSAM)

FedNSAM integriert globale Nesterov-Momentum-Informationen in den lokalen SAM-Prozess, um die Konsistenz zu erzwingen.

Globale Schätzung der Perturbation:
Da Clients keinen Zugriff auf den globalen Gradienten haben, wird dieser durch ein globales Nesterov-Momentum ( $m_t$ ) approximiert. Dieses Momentum wird als exponentieller gleitender Durchschnitt der Modell-Updates ( $\Delta_t$ ) der Clients berechnet.
$m_t = \lambda m_{t-1} + \Delta_t$
Lokale Aktualisierung mit Nesterov-Extrapolation:
Anstatt nur den lokalen Gradienten zu nutzen, verwenden die Clients das globale Momentum $m_t$ für zwei Zwecke:
- Richtung der Perturbation: Die Störung $\delta$ für die SAM-Suche wird entlang der Richtung von $m_t$ berechnet (anstatt nur des lokalen Gradienten). Dies aligniert die Suche nach flachen Minima mit der globalen Dynamik.
- Extrapolation (Nesterov-Step): Vor der Berechnung des Perturbationspunkts wird eine Nesterov-Extrapolation durchgeführt: $\theta_{i, k+1/4} = \theta_{i, k} + \lambda m_t$ .
Ablauf:
- Der Server sendet das globale Modell und das Momentum $m_t$ an die Clients.
- Clients führen lokale Updates durch, wobei sie $m_t$ nutzen, um die Perturbation-Richtung zu steuern und den Startpunkt für die Extrapolation zu setzen.
- Clients senden ihre Updates zurück, der Server aktualisiert das globale Momentum und das Modell.

3. Schlüsselbeiträge

Theoretische Definition: Einführung des Konzepts der Flatness Distance, um die Inkonsistenz lokaler Minima unter Daten-Heterogenität zu charakterisieren. Es wird gezeigt, dass eine höhere Heterogenität die Flatness Distance erhöht und die globale Flachheit verschlechtert.
Neuer Algorithmus (FedNSAM): Entwicklung eines SAM-basierten FL-Algorithmus, der Nesterov-Momentum nutzt, um die lokalen flachen Regionen auszurichten. Dies ermöglicht es dem globalen Modell, innerhalb dieser Regionen zu verbleiben.
Konvergenzanalyse: Theoretischer Beweis einer engeren Konvergenzschranke als bei FedSAM. Die Konvergenzrate beträgt $\mathcal{O}(\frac{\sqrt{LF}}{\sqrt{TKS}(1-\lambda)})$ , was besser ist als die von FedSAM. Zudem wird gezeigt, dass die obere Schranke der Flatness Distance für FedNSAM strikt niedriger ist als für FedSAM.
Umfassende Experimente: Validierung auf CNNs (LeNet, VGG, ResNet) und Transformer-Modellen (ViT, Swin) über verschiedene Datensätze (CIFAR-10/100, Tiny ImageNet).

4. Ergebnisse

Die Experimente wurden unter verschiedenen Bedingungen (unterschiedliche Heterogenitätsgrade, Teilnahmequoten, Modellarchitekturen) durchgeführt:

Genauigkeit: FedNSAM übertrifft bestehende Methoden (FedAvg, FedSAM, MoFedSAM, FedGAMMA, FedLESAM) signifikant.
- Beispiel: Auf CIFAR-100 mit ResNet-18 und hoher Heterogenität (Dirichlet-0.1) erreicht FedNSAM 58,53% Genauigkeit, während FedSAM nur 40,18% erreicht.
- Bei niedriger Heterogenität (Dirichlet-0.6) liegt FedNSAM bei 66,04% gegenüber 47,83% bei FedSAM.
Konvergenzgeschwindigkeit: FedNSAM erreicht die Zielgenauigkeit mit deutlich weniger Kommunikationsrunden (z. B. 3-fache Beschleunigung gegenüber FedSAM).
Robustheit: Der Algorithmus zeigt hohe Stabilität auch bei sehr niedrigen Teilnahmequoten (bis zu 2%) und extrem heterogenen Daten.
Transformer-Modelle: Auch bei großen Modellen (Swin-Transformer, ViT) auf Tiny ImageNet erzielt FedNSAM die beste Genauigkeit (z. B. 71,23% mit ViT-Base) bei deutlich weniger Runden.
Visualisierung: Die Verlustlandschaften (Loss Landscapes) zeigen, dass FedNSAM im Gegensatz zu FedSAM globale flache Minima findet, während FedSAM in scharfen Minima stecken bleibt.

5. Bedeutung und Fazit

Das Paper adressiert eine kritische Lücke im aktuellen Verständnis von Sharpness-Aware Minimization im Federated Learning. Es zeigt auf, dass das bloße Minimieren der lokalen Schärfe nicht ausreicht, wenn die Daten heterogen sind.

Innovation: Die Erkenntnis, dass die Konsistenz der Flachheit zwischen Clients und Server entscheidend ist, und die Lösung durch die Nutzung von globalem Nesterov-Momentum als Leitlinie für lokale Perturbationen.
Praktischer Nutzen: FedNSAM bietet eine effiziente und robuste Methode, um die Generalisierungsfähigkeit von FL-Modellen in realen, heterogenen Szenarien (z. B. Gesundheitswesen, Finanzdaten) drastisch zu verbessern, ohne dabei die Privatsphäre zu gefährden oder den Kommunikationsaufwand signifikant zu erhöhen.
Theoretischer Fortschritt: Die Herleitung engerer Konvergenzschranken und die formale Analyse der Flatness Distance liefern neue theoretische Einsichten für die Optimierung in verteilten Systemen.

Zusammenfassend stellt FedNSAM einen bedeutenden Schritt dar, um die Lücke zwischen lokaler Optimierung und globaler Leistung im Federated Learning zu schließen.

FedNSAM:Consistency of Local and Global Flatness for Federated Learning

Das Problem: Ein chaotisches Orchester

Die Lösung: FedNSAM – Der Dirigent mit dem Nesterov-Momentum

Warum ist das besser?

Zusammenfassung in einem Satz

Titel: Konsistenz von lokaler und globaler Flachheit im Federated Learning

1. Problemstellung

2. Methodik: FedNSAM

A. Konzept der „Flatness Distance" (Flachheitsdistanz)

B. Algorithmus-Design (FedNSAM)

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks