ELSA: Efficient LLM-Centric Split Aggregation for Privacy-Aware Hierarchical Federated Learning over the Network Edge

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, superintelligente robot wilt trainen om taal te begrijpen (zoals een moderne chatbot). Deze robot is zo groot dat hij niet op één computer past; hij is te zwaar voor de telefoon van een gebruiker en te zwaar voor één server in de cloud.

De auteurs van dit paper, ELSA, hebben een slimme oplossing bedacht om deze robot samen te laten trainen door duizenden mensen op hun eigen telefoons, zonder dat ze hun privé-gegevens hoeven te delen.

Hier is hoe het werkt, vertaald in alledaagse taal:

1. Het Probleem: De "Te Zware" Robot

Normaal gesproken zouden alle telefoons hun eigen stukje van de robot leren en dat naar één centrale meester sturen. Maar dat werkt niet goed:

Te zwaar: De robot is te groot om volledig op een telefoon te draaien.
Te traag: Als iedereen tegelijk naar één meester stuurt, ontstaat er een enorme file (net als op een snelweg).
Verschillende niveaus: Sommige mensen hebben slechte telefoons of een slechte internetverbinding, terwijl anderen topapparatuur hebben.
Privacy: Niemand wil dat zijn telefoon zijn geheime chats of foto's naar een centrale server stuurt.

2. De Oplossing: ELSA (De Slimme Teamleider)

ELSA is een nieuwe manier om dit teamwerk te organiseren. Het combineert twee slimme ideeën: Split Learning (splitsen) en Federated Learning (samenwerken).

Stel je voor dat de robot een boek is met 12 hoofdstukken. In plaats van dat iedereen het hele boek leest, doet ELSA het volgende:

A. Het Splitsen van het Werk (De "Sandwich")

ELSA snijdt het boek in drie delen:

De voorpagina (Client): De telefoon leest de eerste paar hoofdstukken. Dit is licht werk voor de telefoon.
Het middenstuk (Edge Server): De telefoon stuurt alleen de samenvatting van wat hij heeft gelezen naar een lokale server (bijvoorbeeld in een wijkcentrum of een mobiel zendstation). Deze server is krachtiger en leest het middelste deel van het boek.
De achterkant (Client): De server stuurt de samenvatting terug naar de telefoon. De telefoon leest de laatste hoofdstukken en schrijft de conclusie.

Waarom is dit slim? De telefoon hoeft niet het hele zware boek te dragen. Alleen de "samenvattingen" (de tussenresultaten) gaan over het netwerk.

B. De Slimme Groepsindeling (De "Boekclub")

Niet iedereen leest hetzelfde. Sommigen lezen nieuws, anderen poëzie. Als je ze allemaal in één groep stopt, wordt de robot verward.

ELSA kijkt naar gedrag: In plaats van te kijken naar wat mensen zeggen (hun data), kijkt ELSA naar hoe hun telefoon reageert op een testvraag.
De "Geheime Test": Iedereen krijgt dezelfde simpele testvraag. Als twee telefoons op precies dezelfde manier reageren, horen ze bij dezelfde "boekclub".
Vertrouwen: Als een telefoon gekke antwoorden geeft (misschien omdat hij gehackt is of slechte data heeft), wordt hij niet in de groep opgenomen. Zo blijft de groep sterk en betrouwbaar.

C. De Geheime Code (Privacy & Compressie)

Zelfs de "samenvattingen" die de telefoon naar de server stuurt, kunnen te veel onthullen. ELSA gebruikt twee trucs:

Verdunnen (Compressie): Stel je voor dat je een boek samenvat op een postkaart in plaats van een heel dossier. Dit bespaart enorm veel ruimte en tijd.
Verdraaien (Privacy): Voordat de postkaart wordt verstuurd, wordt hij door een geheim apparaatje gedraaid en vervormd. De server kan er nog steeds iets nuttigs van leren, maar als een hacker de postkaart zou stelen, zou hij er niets van begrijpen. Het is alsof je een brief in een taal schrijft die alleen jij en je vriend kennen, maar dan wiskundig.

3. Het Resultaat: Een Snellere, Betere Robot

Door dit slimme systeem te gebruiken:

Snelheid: Het trainen gaat veel sneller omdat er geen files ontstaan op het internet.
Privacy: Je telefoon verlaat je nooit met je echte data. Alleen de "vervormde samenvattingen" gaan eruit.
Betrouwbaarheid: Zelfs als mensen slechte telefoons hebben of een slechte verbinding, past ELSA zich aan. De slimme telefoons doen meer werk, de minder sterke telefoons doen minder, maar iedereen helpt mee.

Samenvatting in één zin

ELSA is als een slimme teamleider die een gigantisch puzzelstuk (de AI) in kleine, lichte stukjes snijdt, deze verdeelt over een netwerk van lokale helpers, en zorgt dat iedereen samenwerkt zonder dat iemand zijn eigen geheimen hoeft te onthullen.

Het maakt het mogelijk om superkrachtige AI's te bouwen op onze telefoons, terwijl we veilig blijven en snel internet houden.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

Het trainen en fijnstemmen (fine-tuning) van Grote Taalmodellen (LLMs) aan de rand van het netwerk (Edge Computing) staat voor fundamentele uitdagingen:

Beperkte Resources: Edge-apparaten hebben vaak onvoldoende rekenkracht, geheugen en energie om volledige LLMs lokaal te trainen.
Data Heterogeniteit: Data op edge-apparaten is vaak niet-i.i.d. (niet-onafhankelijk en niet-identiek verdeeld) en sterk scheef, wat leidt tot lokale modelbias en slechte prestaties.
Privacyrisico's: Het uitwisselen van modelupdates of tussenliggende representaties kan gevoelige informatie lekken (bijv. via model-inversie-aanvallen).
Communicatiekosten: Het direct communiceren van alle apparaten met een centrale server (traditionele Federated Learning) veroorzaakt congestie en hoge latentie, vooral bij grote modellen.

Bestaande oplossingen zoals Hiërarchische Federated Learning (HFL) of Split Learning (SL) lossen deze problemen vaak slechts gedeeltelijk op. Er ontbreekt een geïntegreerd raamwerk dat SL en HFL combineert om specifiek de complexiteit van LLMs, data-heterogeniteit en privacy gelijktijdig aan te pakken.

2. Methodologie: Het ELSA-raamwerk

ELSA (Efficient LLM-centric Split Aggregation) is een nieuw raamwerk dat Split Learning (SL) en Hiërarchische Federated Learning (HFL) combineert voor gedistribueerd LLM-fijnstemmen. Het systeem bestaat uit drie lagen: Clients (Edge-apparaten), Edge-servers en een Cloud-server.

De kernmethodologie omvat drie innovatieve componenten:

A. Gedragsbewuste Hiërarchische Clustering (Client Clustering)

Om data-heterogeniteit en onbetrouwbare clients aan te pakken, introduceert ELSA een taalonafhankelijke, gedragsbewuste clustermethode:

Semantische Vingerafdrukken: In plaats van te vertrouwen op labelverdelingen (wat niet werkt bij diverse LLM-taken), gebruiken clients een publieke "probe-set" (open benchmarks). Ze extraheren de semantische representaties (bijv. [CLS]-token embeddings) van deze inputs.
Symmetrische KL-divergentie: De verschillen tussen clients worden gemeten via de symmetrische Kullback-Leibler (KL) divergentie tussen hun semantische verdelingen.
Vertrouwensscores: Clients krijgen een score op basis van voorspellingsconsistentie om vergiftigde of ruisrijke data te filteren.
Toewijzing: Clients worden gegroepeerd op basis van semantische gelijkenis en communicatie-latentie naar specifieke Edge-servers, wat zorgt voor stabielere aggregatie.

B. Dynamische Modelverdeling (Tripartite Splitting)

Het LLM-model wordt dynamisch opgedeeld in drie segmenten om een balans te vinden tussen lokale berekening en privacy:

Deel 1 (Client): Inleidende lagen (Embedding + eerste Transformer-blokken).
Deel 2 (Edge-server): Middenste Transformer-blokken (rekenintensief).
Deel 3 (Client): Laatste lagen + Output-head (Task-specific).

Privacyvoordeel: Omdat de output-laag (en dus de ground-truth labels) lokaal blijft, worden labels nooit gedeeld.
Dynamische Aanpassing: Het aantal lagen dat lokaal wordt getraind ( $p_n$ ) versus het aantal dat wordt uitbesteed ( $q_n$ ), wordt dynamisch bepaald op basis van de rekenkracht en bandbreedte van de client. Dit voorkomt "over-personalisatie" (waarbij een lokaal model te sterk aan niet-i.i.d. data hecht) en zorgt voor efficiëntie.

C. Veilige en Efficiënte Communicatie (SS-OP + Sketching)

Om communicatiekosten te verlagen en privacy te beschermen tijdens het uitwisselen van tussenliggende activaties (activations):

Semantische Subruimte Orthogonale Perturbatie (SS-OP): Clients passen een willekeurige orthogonale transformatie toe op hun activaties binnen de belangrijkste semantische subruimte. Dit maakt het voor een aanvaller onmogelijk om de originele data te reconstrueren zonder de sleutel, terwijl de gradiënten tijdens backpropagation exact kunnen worden hersteld.
Computational Sketches: De geperturbeerde activaties worden gecomprimeerd met behulp van hash-gebaseerde "sketches" (Count-Min Sketch variant), wat de datagrootte drastisch verkleint zonder de semantische integriteit volledig te verliezen.

3. Belangrijkste Bijdragen

Integratie van SL en HFL voor LLMs: ELSA is het eerste raamwerk dat SL en HFL systematisch combineert voor LLM-fijnstemming, waarbij de cloud alleen dient voor aggregatie van adapters (LoRA) en niet voor volledige modelupdates.
Gedragsbewuste Clustering: Een nieuwe methode om clients te groeperen op basis van hun semantische interpretatie van inputs (via KL-divergentie) in plaats van labels, wat robuustheid biedt tegen data-heterogeniteit en vergiftiging.
Dynamische Verdeling: Een strategie die de modelverdeling aanpast aan de hardware-capaciteit van de client, wat leidt tot een optimale balans tussen lokale last en globale convergentie.
Privacy-bevragende Compressie: Een unieke combinatie van SS-OP en sketches die zowel communicatiekosten verlaagt als privacy garandeert tegen reconstructie-aanvallen.

4. Resultaten en Evaluatie

Het paper presenteert uitgebreide experimenten op acht diverse NLP-datasets (o.a. Trec, AG News, SQuAD, RTE) met een BERT-base model.

Prestaties: ELSA overtreft state-of-the-art baselines (zoals FedProx, FedAvg, RoFed) consistent in nauwkeurigheid, convergentie en robuustheid. Bijvoorbeeld, op de RTE-taak bereikte ELSA 80.93% nauwkeurigheid tegenover 79.21% voor FedAvg.
Communicatie-efficiëntie: Door compressie en verdeling reduceert ELSA de totale communicatietijd met 69% tot 73% ten opzichte van ongecomprimeerde modellen, en blijft het superieur aan andere FL-methoden.
Privacy: In tegenstelling tot directe transmissie (waarbij token-recovery 53% bedraagt) en alleen Gaussian Noise, reduceert ELSA de token-recovery nauwkeurigheid tot nagenoeg 0% (bijv. 0.08% bij $\rho=4.2$ ) en de cosine-similariteit tot bijna 0, wat aantoont dat data-effectief wordt gedesensibiliseerd.
Robuustheid: De dynamische verdelingsstrategie verlaagt de "task failure rate" (clients die time-out krijgen) tot 1.2%, vergeleken met tot 41.7% bij statische verdelingsstrategieën in heterogene netwerken.

5. Significatie en Conclusie

ELSA biedt een schaalbare, privacy-bewuste oplossing voor het fine-tunen van LLMs in resource-beperkte edge-omgevingen. Het raamwerk lost het dilemma op tussen de enorme grootte van LLMs en de beperkte capaciteit van edge-apparaten door:

Semantische alignering van clients te gebruiken in plaats van statische labels.
Adaptieve verdeling van rekenlast te implementeren.
Geavanceerde cryptografische compressie toe te passen om privacy te waarborgen.

De studie bewijst dat het mogelijk is om hoogwaardige, gedistribueerde LLM-training uit te voeren zonder dat de privacy van de gebruiker of de stabiliteit van het netwerk wordt opgeofferd. Toekomstig werk richt zich op het uitbreiden naar ultra-grote modellen (zoals LLaMA/GPT) en verdere dynamische optimalisatie van splitsing en compressie in real-time.