Stabilized Fine-Tuning with LoRA in Federated Learning: Mitigating the Side Effect of Client Size and Rank via the Scaling Factor

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen, extrem klugen Roboter (ein Large Language Model oder LLM), der schon alles über die Welt weiß. Aber um ihn für eine spezielle Aufgabe zu nutzen – sagen wir, um Mathematik-Hausaufgaben zu lösen oder medizinische Texte zu verstehen – musst du ihn ein wenig „umprogrammieren". Das nennt man Feinabstimmung (Fine-Tuning).

Das Problem: Dieser Roboter ist so riesig, dass man ihn nicht einfach auf einen einzelnen Computer laden und umprogrammieren kann. Es wäre wie der Versuch, einen ganzen Elefanten in einen Mini-Flugzeug zu stopfen.

Hier kommt die Lösung LoRA ins Spiel. Statt den ganzen Elefanten zu bewegen, bauen wir ihm nur kleine, leichte Zusatzteile an (wie eine neue Brille oder ein neues Werkzeug). Das ist effizient und schnell.

Das Problem: Der „Federated Learning"-Kochtopf

Jetzt wird es noch komplizierter. Viele Institutionen (Krankenhäuser, Schulen, Firmen) wollen diesen Roboter gemeinsam verbessern, aber sie dürfen ihre sensiblen Daten (Patientenakten, Schülerleistungen) nicht austauschen. Das ist wie ein Kochwettbewerb, bei dem jeder in seiner eigenen Küche kocht und nur das fertige Gericht zum Zentrum schickt, ohne die Rezepte preiszugeben. Das nennt man Federated Learning.

In diesem Szenario passiert ein seltsames Phänomen, das die Autoren des Papers entdeckt haben:

Stell dir vor, jeder Teilnehmer (Client) baut seine kleinen Zusatzteile (LoRA) nach einem bestimmten Rezept. Wenn nur ein Teilnehmer mitmacht, funktioniert das gut. Aber wenn viele Teilnehmer (N) gleichzeitig ihre Teile zum Zentrum schicken, um sie zu mischen (aggregieren), passiert etwas Schlimmes:

Die „Kraft" der neuen Teile wird durch das Mischen verwässert. Je mehr Teilnehmer es gibt und je komplexer die Zusatzteile sind (hoher Rang/r), desto mehr verlieren sie an Kraft. Am Ende sind die neuen Teile so schwach, dass der Roboter gar nichts mehr lernt. Man nennt das Gradienten-Kollaps (Gradient Collapse). Es ist, als würde man 100 Leute bitten, gemeinsam einen schweren Stein zu schieben, aber jeder drückt nur so schwach, dass sich der Stein gar nicht bewegt.

Bisherige Lösungen (wie rsLoRA) haben versucht, die Kraft der einzelnen Teilnehmer zu regulieren, aber sie haben vergessen, dass im „Kochtopf" viele Leute gleichzeitig drin sind. Sie haben das Rezept für einen einzelnen Koch genommen und es einfach auf den ganzen Topf angewendet – das funktioniert nicht.

Die Lösung: SFed-LoRA (Der neue Skalierungs-Faktor)

Die Autoren, Jiayu Huang und sein Team, haben eine neue Methode namens SFed-LoRA entwickelt.

Stell dir vor, du bist der Chefkoch, der die Rezepte aller Teilnehmer mischt. Du merkst: „Aha! Wenn ich 20 Leute habe, muss ich jedem Teilnehmer eine etwas stärkere Portion Zutaten geben, damit das Ergebnis am Ende genauso kräftig schmeckt wie bei nur 5 Leuten."

Ihre Formel ist im Grunde eine magische Waage:

N = Wie viele Teilnehmer sind im Spiel? (Je mehr, desto mehr muss man kompensieren).
r = Wie komplex sind die Zusatzteile? (Je komplexer, desto vorsichtiger muss man sein).

Die neue Formel sagt: „Wenn du mehr Teilnehmer hast, erhöhe die Stärke der Anpassung genau so, dass die Mischung am Ende stabil bleibt."

Sie nennen diesen neuen Faktor γz (Gamma-z). Er ist wie ein automatischer Regler, der sicherstellt, dass egal ob 5 oder 50 Leute mitmachen, die neuen Zusatzteile immer genau die richtige Kraft haben.

Was bringt das? (Die Ergebnisse)

In ihren Experimenten haben sie gezeigt, dass ihre Methode Wunder wirkt:

Kein Kollaps mehr: Selbst wenn sie sehr komplexe Zusatzteile (hoher Rang) verwenden, bricht das System nicht zusammen. Der Roboter lernt weiter, auch wenn viele Leute beteiligt sind.
Schnelleres Lernen: Während andere Methoden bei vielen Teilnehmern stagnieren (wie ein Auto, das im Sand feststeckt), fährt SFed-LoRA stabil und schnell voran.
Universell einsetzbar: Es funktioniert bei verschiedenen Aufgaben (Mathe, Textverständnis), verschiedenen Robotern (LLaMA, RoBERTa) und auch dann, wenn die Daten der Teilnehmer sehr unterschiedlich sind (nicht alle haben das gleiche Essen im Kühlschrank).

Zusammenfassung in einem Satz

SFed-LoRA ist wie ein intelligenter Regler für einen riesigen, dezentralen Kochwettbewerb: Er sorgt dafür, dass die Rezepte aller Teilnehmer perfekt aufeinander abgestimmt sind, damit am Ende ein starkes, stabiles Gericht entsteht – egal, wie viele Köche dabei sind oder wie komplex das Menü ist.

Damit können wir jetzt große, intelligente Modelle sicher und effizient gemeinsam trainieren, ohne dass die Daten die Privatsphäre der Teilnehmer verlassen oder die Leistung einbricht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Sprachmodelle (LLMs) erfordern oft eine Feinabstimmung (Fine-Tuning) für spezifische Aufgaben. Da eine vollständige Feinabstimmung zu ressourcenintensiv ist, wird häufig Low-Rank Adaptation (LoRA) eingesetzt, die nur zwei niedrigrangige Matrizen ( $A$ und $B$ ) optimiert. In Federated Learning (FL) Szenarien, bei denen Daten dezentral und privat bleiben, wird LoRA jedoch instabil, wenn hohe Rangwerte ( $r$ ) oder viele Clients ( $N$ ) verwendet werden.

Das Paper identifiziert zwei Hauptprobleme:

Gradienten-Kollaps bei hohem Rang: Herkömmliche Skalierungsfaktoren (z. B. $\gamma = \alpha/r$ ) dämpfen Updates bei hohen Rängen zu stark, was zu einem Zusammenbruch der Lernfähigkeit führt.
Statistische Varianz durch Aggregation: In FL werden Updates von $N$ Clients aggregiert. Dieser Prozess führt zu einer statistischen Varianz, die mit der Anzahl der Clients skaliert. Bestehende Methoden wie Rank-Stabilized LoRA (rsLoRA), die den Skalierungsfaktor auf $\alpha/\sqrt{r}$ anpassen, ignorieren diesen Aggregationseffekt. Dies führt dazu, dass die Stabilität bei verteiltem Training verloren geht, insbesondere wenn $N$ groß ist.

2. Methodik: SFed-LoRA

Die Autoren schlagen SFed-LoRA (Stabilized Federated LoRA) vor, ein Framework, das die Interaktion zwischen dem Adapter-Rang ( $r$ ) und der Anzahl der Clients ( $N$ ) theoretisch charakterisiert und korrigiert.

Theoretische Herleitung: Basierend auf der Analyse von Lern-Dynamiken im unendlich-breiten Limit (infinite-width limit) wird gezeigt, dass der herkömmliche Skalierungsfaktor in FL nicht ausreicht. Um die Varianzakkumulation durch die Aggregation von $N$ Clients auszugleichen und gleichzeitig den Rang-Effekt zu kompensieren, wird ein neuer optimaler Skalierungsfaktor $\gamma_z$ abgeleitet:
$\gamma_z = \alpha \sqrt{\frac{N}{r}}$
Hierbei ist $\alpha$ ein Hyperparameter, $N$ die Anzahl der Clients und $r$ der Rang der Adapter.
Architektur und Aggregationsstrategie: Das Framework baut auf FedSA-LoRA auf. Dabei werden nur die Matrizen $A$ (Down-Projektion) aggregiert, während die Matrizen $B$ (Up-Projektion) lokal bei den Clients bleiben. Dies vermeidet algebraische Inkonsistenzen, die entstehen würden, wenn das Mittel der Produkte nicht dem Produkt der Mittel entspricht ( $\frac{1}{N}\sum B_i A_i \neq (\frac{1}{N}\sum B_i)(\frac{1}{N}\sum A_i)$ ).
Stabilitätsdefinition: Ein Adapter wird als $(N, r)$ -federiert-stabilisiert definiert, wenn er sowohl in der Vorwärts- als auch in der Rückwärtsrichtung (Backpropagation) konsistente Momenten-Skalierungen beibehält, unabhängig von Änderungen in $N$ oder $r$ . Der Faktor $\gamma_z$ garantiert diese Stabilität.

3. Hauptbeiträge

Theoretische Ableitung: Ein Beweis, dass $\gamma_z = \alpha \sqrt{N/r}$ der optimale Skalierungsfaktor ist, um Rang-Stabilität und konsistente Gradientennormen im federierten LoRA-Feinabstimmung sicherzustellen.
Entwicklung von SFed-LoRA: Ein neues Framework, das die negativen Effekte der federierten Aggregation mildert und es ermöglicht, hohe Ränge für effizientes und stabiles Training zu nutzen, ohne die Modellarchitektur zu ändern oder die Inferenz-Latenz zu erhöhen.
Umfassende Validierung: Experimenteller Nachweis, dass SFed-LoRA Gradienten-Kollaps verhindert und im Vergleich zu State-of-the-Art-Baselines (Standard-LoRA, rsLoRA, RoLoRA) eine deutlich höhere Stabilität und schnellere Konvergenz bietet.

4. Experimentelle Ergebnisse

Die Autoren führten Experimente mit Modellen wie LLaMA 2-7B und RoBERTa-large auf Datensätzen wie Alpaca, GSM8K (Mathematik) und GLUE (NLU) durch.

Stabilität bei variierenden Rängen: Bei hohen Rängen (z. B. $r=512$ ) zeigten Baselines (FedSA-LoRA, RoLoRA) einen Konvergenz-Stagnation oder Gradienten-Kollaps. SFed-LoRA hingegen zeigte konsistente Gradientennormen und schnellste Konvergenz über alle Ränge hinweg.
Skalierbarkeit mit Client-Anzahl ( $N$ ): Bei Erhöhung der Client-Anzahl von 5 auf 20 verschlechterte sich die Leistung der Baselines drastisch (Anstieg der Perplexität von ~~7 auf ~15). SFed-LoRA blieb invariant gegenüber der Client-Größe und konvergierte schnell auf einen niedrigen Perplexitätswert (~~3.0).
Generalisierung: Die Methode war robust gegenüber verschiedenen Aufgaben (Mathematik vs. NLU), Modellarchitekturen (Decoder-only vs. Encoder-only), Optimierern (SGD vs. AdamW) und Datenverteilungen (IID vs. non-IID).
Leistungsgewinn: Auf dem GLUE-Benchmark (MNLI-m) übertraf SFed-LoRA bei Rang 512 die Standard-Methode um 6,47 Prozentpunkte (87,72 % vs. 81,25 %).

5. Bedeutung und Fazit

Dieses Paper schließt eine kritische Lücke in der Forschung zu Federated Learning mit LLMs. Es zeigt auf, dass die Skalierungsfaktoren in LoRA nicht nur vom Rang, sondern auch von der Anzahl der teilnehmenden Clients abhängen müssen.

Praktische Relevanz: SFed-LoRA ermöglicht den Einsatz von hohen Rängen in verteilten Umgebungen, was die Ausdruckskraft (Expressivity) der Modelle erhöht, ohne die Privatsphäre zu gefährden oder die Inferenzkosten zu steigern.
Theoretischer Fortschritt: Die Arbeit liefert eine rigorose theoretische Grundlage für die Stabilität von PEFT-Methoden in dezentralen Szenarien und widerlegt die Annahme, dass Standalone-Lösungen (wie rsLoRA) direkt auf FL übertragbar sind.

Zusammenfassend bietet SFed-LoRA eine robuste Lösung für die skalierbare und stabile Feinabstimmung großer Sprachmodelle in datenschutzsensiblen, verteilten Umgebungen.

Stabilized Fine-Tuning with LoRA in Federated Learning: Mitigating the Side Effect of Client Size and Rank via the Scaling Factor

Das Problem: Der „Federated Learning"-Kochtopf

Die Lösung: SFed-LoRA (Der neue Skalierungs-Faktor)

Was bringt das? (Die Ergebnisse)

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: SFed-LoRA

3. Hauptbeiträge

4. Experimentelle Ergebnisse

5. Bedeutung und Fazit

Mehr davon

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions