FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep vrienden hebt die allemaal een enorme, slimme robot (een "Groot Taalmodel") willen leren om specifieke taken beter te doen, zoals het schrijven van e-mails of het samenvatten van nieuws. Het probleem is dat deze robot zo groot is dat niemand hem volledig op zijn eigen computer kan hebben. Bovendien wil niemand zijn privé-gegevens (zoals zijn eigen e-mails of notities) delen met de anderen.

Hier komt Federated Learning (Verbonden Leren) om de hoek kijken. In plaats van dat iedereen zijn gegevens stuurt, leren de robots lokaal en sturen ze alleen de leerstof (de updates) naar een centrale meester.

Maar er zit een addertje onder het gras in de huidige methoden. Hieronder leg ik uit wat het probleem is en hoe dit nieuwe papier, FLoRG, het oplost, met behulp van een paar creatieve vergelijkingen.

Het Probleem: De "Dubbele Puzzel" en de "Verdwaalde Kompas"

Huidige methoden (zoals LoRA) gebruiken twee losse puzzelstukken (laten we ze A en B noemen) om de robot aan te passen.

De Aggregatie-fout: Als de meester de stukken A van iedereen en de stukken B van iedereen apart bij elkaar doet, krijg je een rommelig resultaat. Het is alsof je probeert een taart te maken door de bloem van de ene bakker en de suiker van de andere te mengen, zonder te kijken of ze bij elkaar passen. De echte taart zou gemaakt moeten zijn door de combinatie van bloem en suiker van elke bakker apart te mengen, en dat dan pas te combineren. Dit leidt tot een "verkeerde taart" (aggregatiefout).
De Decompositie-drift: Om dit op te lossen, proberen sommige methoden eerst de taart te maken (A x B) en die dan weer te snijden in twee nieuwe stukken. Maar hier zit een probleem: een taart kan op oneindig veel manieren in tweeën worden gesneden! Als de meester elke ronde een andere manier kiest om de taart te snijden, beginnen de stukken A en B steeds meer van elkaar af te wijken. De robot raakt de weg kwijt (dit noemen ze "drift"). Het is alsof je elke dag je kompas een beetje anders instelt; na een week weet je niet meer waar het noorden is.

De Oplossing: FLoRG (De "Eén Kaart" Methode)

De auteurs van dit papier, Chuiyang Meng en zijn team, hebben een slimme nieuwe manier bedacht, genaamd FLoRG.

1. In plaats van twee stukken, maar één "Gram-kaart"

In plaats van twee losse puzzelstukken (A en B) te sturen, sturen de vrienden nu slechts één slimme kaart.

De Analogie: Stel je voor dat A en B twee handen zijn die een bal vasthouden. In plaats van te zeggen "Hier is mijn linkerhand" en "Hier is mijn rechterhand", zeggen ze: "Hier is de kracht en de vorm van de greep die we samen maken."
Ze sturen de Gram-matrix op. Dit is een wiskundige manier om te beschrijven hoe de twee handen samenwerken, zonder de handen zelf te onthullen.
Het voordeel: Omdat de meester nu alleen deze "greep-kaart" ontvangt en optelt, is er geen fout meer in het mengen. Het is alsof je de totale kracht van alle handen optelt in plaats van de handen zelf te verwarren. Dit bespaart ook enorm veel ruimte (communicatie), omdat je maar één kaart stuurt in plaats van twee.

2. De "Procrustes-uitlijning": Het Kompas corrigeren

Nadat de meester de kaarten van iedereen heeft opgeteld, moet hij ze weer omzetten in de twee handen (A en B) voor de volgende ronde. Zoals we zagen, kan hij dit op verschillende manieren doen, wat leidt tot die "verdwaling".

FLoRG lost dit op met een techniek genaamd Procrustes-uitlijning.

De Analogie: Stel je voor dat de meester een nieuwe versie van de handen heeft gemaakt (de "nieuwe handschoenen"). Maar hij wil niet dat de robot verward raakt. Dus kijkt hij naar de oude handschoenen van de vorige ronde. Hij draait en schuift de nieuwe handschoenen precies zo, dat ze zo goed mogelijk op de oude passen, zonder de "greepkracht" (de Gram-matrix) te veranderen.
Het resultaat: De robot blijft op koers. De richting van de updates blijft stabiel, zelfs als de wiskundige manier waarop de handen worden berekend, verandert. Het is alsof je elke dag je kompas opnieuw kalibreert op basis van de vorige dag, zodat je altijd precies in dezelfde richting blijft lopen.

Waarom is dit geweldig?

De resultaten in het papier zijn indrukwekkend:

Beter leren: De robot leert sneller en maakt minder fouten dan bij andere methoden.
Super snel en licht: Omdat ze maar één kaart sturen in plaats van twee, en omdat de berekeningen slimmer zijn, is de hoeveelheid data die over het internet moet tot wel 2000 keer minder dan bij de beste andere methoden.
Stabiel: Zelfs als de data van de vrienden heel verschillend is (sommigen hebben veel e-mails, anderen weinig), werkt het systeem perfect.

Samenvatting in één zin

FLoRG is een slimme manier om een groep robots samen te laten leren zonder hun privé-gegevens te delen, door in plaats van twee losse puzzelstukken te sturen, maar één "samenwerkingskaart" te sturen en elke ronde de richting van de robot zorgvuldig te corrigeren zodat hij niet de weg kwijtraakt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote Taalmodellen (LLMs) vereisen vaak fijnafstemming (fine-tuning) voor specifieke taken. Low-Rank Adaptation (LoRA) is een populaire methode hiervoor die de rekencost en geheugengebruik verlaagt door twee lage-rang matrices ( $A$ en $B$ ) te gebruiken in plaats van het volledige model te updaten. Wanneer LoRA wordt gecombineerd met Federated Learning (FL) om privacy te waarborgen en samenwerking tussen clients mogelijk te maken, ontstaan er echter twee fundamentele uitdagingen bij de bestaande methoden:

Aggregatiefout (Aggregation Error): In conventionele federale LoRA-methoden worden de matrices $A$ en $B$ van elke client afzonderlijk naar de server gestuurd en daar apart gemiddeld. De werkelijke update zou echter het gemiddelde van de producten ( $\frac{1}{N}\sum B_n A_n$ ) moeten zijn, terwijl de methode het product van de gemiddelden ( $(\frac{1}{N}\sum B_n)(\frac{1}{N}\sum A_n)$ ) berekent. Deze mismatch introduceert een systematische fout die cumuleert en de prestaties verslechtert.
Decompositiedrift (Decomposition Drift): Om de aggregatiefout te voorkomen, kunnen sommige methoden het product $B_n A_n$ aggregeren en vervolgens een matrixdecompositie (zoals SVD) uitvoeren om weer twee matrices te krijgen. Het probleem hierbij is dat matrixdecompositie niet uniek is. Verschillende geldige decomposities kunnen leiden tot verschillende richtingen in de parameterruimte, wat resulteert in een "drift" van de updates tussen rondes en instabiel leren.

Methodologie: FLoRG

De auteurs stellen FLoRG (Federated Low-Rank Gram-matrix Aggregation) voor, een nieuw framework dat de bovenstaande problemen aanpakt door de parametrisatie van LoRA te herdenken.

1. Enkele Lage-Rang Gram-matrix:
In plaats van twee matrices ( $A$ en $B$ ) te gebruiken, reparametriseren de auteurs de LoRA-module met één enkele lage-rang matrix $A_t$ . De update-matrix $\Delta W$ wordt gedefinieerd als:
$\Delta W_t = L (A_t)^\top A_t R$
Hierbij zijn $L$ en $R$ vaste, gedeelde semi-orthogonale basis-matrices die de dimensies aanpassen.

Voordeel: Clients updaten alleen $A_t$ . De server aggregatie gebeurt op de Gram-matrix $Q = A^\top A$ . Omdat de aggregatie van Gram-matrices lineair is ( $\sum A_n^\top A_n$ ), wordt de aggregatiefout volledig geëlimineerd. Dit vereist ook het verzenden van slechts één matrix in plaats van twee, wat de communicatie-overhead halveert.

2. Procrustes-uitlijning (Procrustes Alignment):
Na het aggregeren van de Gram-matrices op de server, moet de server de matrix $Q_{t+1}$ weer decomponeren om de matrix $A_{t+1}$ voor de volgende ronde te verkrijgen. Vanwege de niet-uniekheid van decompositie en mogelijke rangverschillen, introduceert FLoRG een Procrustes-uitlijning:

De server lost een optimalisatieprobleem op om de nieuwe matrix $A_{t+1}$ zo dicht mogelijk bij de vorige matrix $A_t$ te houden (gemeten in Frobenius-norm), terwijl de Gram-matrix $Q_{t+1}$ behouden blijft.
Dit minimaliseert de drift in de parameterruimte en stabiliseert de gradiënten over de rondes heen.

3. Theoretische Convergentie:
De auteurs analyseren de convergentie van FLoRG onder niet-convexe verliesfuncties. Ze bewijzen dat het toepassen van Procrustes-uitlijning leidt tot een strakkere convergentiebound, omdat de term die de drift beschrijft tot nul wordt gereduceerd.

Belangrijkste Bijdragen

FLoRG Framework: Een nieuw federale fijnafstemmingsframework dat gebruikmaakt van een enkele lage-rang matrix en Gram-matrix aggregatie, waardoor de aggregatiefout van traditionele LoRA wordt geëlimineerd.
Procrustes-uitlijning: Een innovatieve methode om de decompositiedrift te minimaliseren door de decomponerde matrix uit te lijnen met de vorige ronde, zonder de Gram-matrix te veranderen.
Theoretisch Bewijs: Een formele analyse van de convergentiesnelheid die aantoont dat Procrustes-uitlijning de convergentiebound verbetert.
Efficiëntie: Significant lagere communicatie-overhead door het verzenden van één matrix in plaats van twee.

Experimentele Resultaten

De auteurs hebben FLoRG getest op diverse benchmarks (GLUE-datasets zoals MRPC, QQP, MNLI, QNLI, WNLI, RTE en SQuAD) met verschillende basismodellen (OPT-125M, RoBERTa-large, Llama-3.2-3B).

Prestaties: FLoRG overtrof vijf state-of-the-art baselines (zoals FedIT, FeDeRA, FFA-LoRA) consistent in testnauwkeurigheid. Bijvoorbeeld, op het MNLI-dataset met OPT-125M verbeterde FLoRG de nauwkeurigheid met 1,52% ten opzichte van de sterkste baseline.
Communicatie-overhead: FLoRG reduceerde de hoeveelheid overgedragen parameters met tot wel 2041x ten opzichte van sommige baselines om dezelfde doelnaauwkeurigheid te bereiken.
Ablatie-studies:
- Het verwijderen van Procrustes-uitlijning resulteerde in een aanzienlijke daling van de prestaties, wat het belang van deze stap bevestigt.
- FLoRG bleef robuust onder verschillende rangen ( $r$ ), mate van data-heterogeniteit (non-IID) en client-beschikbaarheid.
- De voorgestelde semi-orthogonale initialisatie voor matrices $L$ en $R$ presteerde beter dan Kaiming- of SVD-initialisatie.

Betekenis en Impact

Dit paper biedt een significante doorbraak in het veld van federatief leren voor grote taalmodellen. Het lost een fundamenteel theoretisch en praktisch probleem op (de bias in aggregatie en drift in decompositie) dat eerder werd genegeerd of suboptimaal werd opgelost.

De belangrijkste implicaties zijn:

Privacy en Efficiëntie: Het maakt efficiëntere en nauwkeurigere samenwerking mogelijk tussen organisaties zonder dat gevoelige data gedeeld hoeft te worden.
Schaalbaarheid: Door de communicatie-overhead drastisch te verlagen, wordt federale fijnafstemming van LLMs veel praktischer voor omgevingen met beperkte bandbreedte.
Stabiliteit: De introductie van Procrustes-uitlijning biedt een nieuwe richting voor het stabiliseren van matrix-decompositie in iteratieve leerprocessen, wat relevant kan zijn voor andere gebieden binnen het machine learning.

Samenvattend presenteert FLoRG een elegante oplossing die wiskundige consistentie (via Gram-matrices) combineert met stabilisatie (via Procrustes-uitlijning) om de staat der kunst in federale LLM-fijnafstemming te verbeteren.

FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment

Het Probleem: De "Dubbele Puzzel" en de "Verdwaalde Kompas"

De Oplossing: FLoRG (De "Eén Kaart" Methode)

1. In plaats van twee stukken, maar één "Gram-kaart"

2. De "Procrustes-uitlijning": Het Kompas corrigeren

Waarom is dit geweldig?

Samenvatting in één zin

Probleemstelling

Methodologie: FLoRG

Belangrijkste Bijdragen

Experimentele Resultaten

Betekenis en Impact

Meer zoals dit

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach