Who to Trust? Aggregating Client Predictions in Federated Distillation

Each language version is independently generated for its own context, not a direct translation.

Het Probleem: Een Verwarde Groepsdiscussie

Stel je voor dat je een grote groep mensen (de clients) hebt die allemaal een raadsel moeten oplossen. Ze mogen echter hun eigen notitieboekjes (hun privédata) niet aan elkaar laten zien. Ze hebben ook allemaal een ander type notitieboekje: sommigen gebruiken een dik woordenboek, anderen een dunne schets, en weer anderen een digitale app.

Om het raadsel op te lossen, hebben ze een server (de leraar) nodig. In plaats van hun hele notitieboekjes te sturen (wat te groot en te duur is), sturen ze alleen hun antwoorden op een reeks voorbeeldvragen die iedereen kent (het publieke dataset).

Het probleem:
Sommige mensen in de groep hebben bepaalde soorten vragen nooit eerder gezien. Als ze een vraag krijgen over "vissen" terwijl ze alleen maar over "auto's" hebben geoefend, gokken ze radeloos.
In de oude methode (standaard Federated Learning) deed de leraar alsof het antwoord van de gokker even waardevol was als het antwoord van de expert. Het resultaat? De leraar kreeg een rommelig, onbetrouwbaar gemiddelde antwoord en leerde de rest van de groep verkeerde dingen.

De Oplossing: "Wie is de Expert?" (UWA en sUWA)

De auteurs van dit papier zeggen: "Wacht even, we moeten niet iedereen even zwaar laten wegen. We moeten kijken wie er echt weet waar hij het over heeft."

Ze introduceren twee slimme methoden, UWA en sUWA, die werken als een vertrouwensmeter.

1. De Dichtheids-Check (De "Vreemde Vrijheid" Test)

Elke deelnemer heeft een klein testje gedaan met vragen die ze al kenden (de kalibratie-set). Hieruit hebben ze een idee gekregen van hoe hun eigen antwoorden eruitzien als ze zeker zijn.

De Analogie: Stel je voor dat je een chef-kok bent. Je weet hoe een perfecte soep ruikt (je dichtheidsmodel). Als je een nieuwe soep proeft en deze ruikt heel anders dan alles wat je ooit hebt gemaakt, denk je: "Ik heb dit nog nooit gezien, ik gok maar wat."
Hoe het werkt: Als een deelnemer een vraag krijgt die ze niet kennen, zullen hun antwoorden eruitzien als "vreemde soep". De server merkt dit op: "Ah, deze persoon is aan het gokken." De server geeft hun antwoord dan een lage weging (ze tellen minder mee).
Als de antwoorden wel lijken op wat ze normaal doen, zegt de server: "Deze persoon is een expert op dit gebied," en geeft hun antwoord een hoge weging.

2. De Temperatuur-Regelaar (sUWA)

Soms is de "vertrouwensmeter" te streng. In het begin van het proces kunnen mensen nog wat onzeker zijn en hun eigen "soep" nog niet goed kunnen beschrijven. Als we te streng zijn, luisteren we misschien helemaal niet naar iemand die eigenlijk wel goed zit, maar net een beetje afwijkt.

De auteurs voegen een temperatuur toe (een knopje, genaamd tau).

Te koud (lage temperatuur): We luisteren alleen naar de allerzekerste mensen. (Gevaar: we missen goede adviezen van mensen die net iets minder zeker klinken).
Te heet (hoge temperatuur): We luisteren naar iedereen, alsof het een standaard gemiddelde is.
De perfecte temperatuur (sUWA): De auteurs hebben gevonden dat een zachte temperatuur (0.25) het beste werkt. Het zorgt ervoor dat we de gokkers negeren, maar niet te streng zijn met de mensen die net een beetje twijfelen. Het is alsof je zegt: "Luister naar de experts, maar geef de beginners ook een kleine kans."

Wat levert dit op?

De auteurs hebben dit getest op foto's (zoals auto's en dieren) en tekst (zoals vragen op Yahoo Answers).

Bij grote verschillen (Hoge heterogeniteit): Als elke deelnemer maar heel weinig weet (bijvoorbeeld alleen maar auto's of alleen maar dieren), is de oude methode (standaard gemiddelde) slecht. De nieuwe methode (sUWA) werkt fantastisch. Het filtert de gokkers eruit en bouwt een sterk model op.
Bij kleine verschillen: Als iedereen ongeveer evenveel weet, werkt de nieuwe methode net zo goed als de oude. Er is geen nadeel.

De Grootte van de Besparing

Een ander groot voordeel is communicatie.

Oude methode: Mensen sturen hun hele "brein" (het model) naar de server. Dit is als een vrachtwagen vol boeken.
Nieuwe methode: Mensen sturen alleen hun antwoorden op de voorbeeldvragen. Dit is als een klein postkaartje.
Resultaat: Ze besparen tot wel 86 keer meer data! Het is alsof je in plaats van een hele bibliotheek te sturen, alleen een samenvatting van 1 pagina verstuurt.

Conclusie in één zin

In plaats van blindelings naar iedereen te luisteren, kijken deze slimme algoritmes eerst of iemand echt weet waar hij het over heeft, en wegen ze de antwoorden daarop af. Zo leren ze sneller, beter en met veel minder data-overdracht, zelfs als iedereen een heel verschillende achtergrond heeft.

Each language version is independently generated for its own context, not a direct translation.

Titel: Wie te vertrouwen? Het aggregeren van client-predicties in Federated Distillation

1. Het Probleem

Federated Learning (FL) staat clients toe om modellen gezamenlijk te trainen zonder hun privédata te delen. Een variant hiervan, Federated Distillation (FD), vermindert de communicatiekosten en ondersteunt heterogene modelarchitecturen door in plaats van modelparameters of gradiënten, alleen de voorspellingen (logits of waarschijnlijkheden) op een gedeelde, ongelabelde publieke dataset uit te wisselen.

De kernuitdaging die in dit artikel wordt aangepakt, is data-heterogeniteit, specifiek label-shift (class mismatch). In dit scenario ziet elke client slechts een subset van de globale klassen tijdens het trainen, terwijl de publieke dataset voorbeelden bevat van alle klassen.

Het probleem: Wanneer een client een voorbeeld uit de publieke dataset moet voorspellen dat behoort tot een klasse die niet in zijn lokale trainingsdata zit, genereert hij een "out-of-distribution" (OoD) voorspelling. Deze voorspellingen zijn vaak misleidend.
De beperking van bestaande methoden: Standaard FD-methoden gebruiken een eenvoudige, gelijkwaardige gemiddelde (uniform averaging) van alle client-voorspellingen. Dit behandelt onbetrouwbare OoD-voorspellingen van een client die de klasse niet kent, als even waardevol als betrouwbare voorspellingen van een client die de klasse wel kent. Dit verpest het "leraarssignaal" (teacher signal) en verslechtert de kennisoverdracht.

2. Methodologie

De auteurs analyseren het trainingsproces theoretisch en stellen twee nieuwe, onzekerheidsbewuste aggregatiemethoden voor: UWA en sUWA.

Theoretische Analyse:

De auteurs tonen aan dat het aggregeren van client-voorspellingen convergeert naar een omgeving van het optimum. De grootte van deze omgeving wordt bepaald door de kwaliteit van de aggregatie.
Ze ontleden de Mean Squared Error (MSE) van het leraarsignaal in een bias-term en een variatie-term.
- Eenvoudig gemiddelde (AVG) minimaliseert de variatie maar behoudt een hoge bias omdat het systematisch onbetrouwbare clients niet straft.
- Een data-afhankelijke weging kan de bias verlagen door onbetrouwbare clients minder gewicht te geven, zelfs als dit de variatie iets verhoogt.

De voorgestelde methoden:

UWA (Uncertainty-Weighted Averaging):
- Elke client fit een Gaussian Mixture Model (GMM) op de logits van zijn lokale trainingsdata (gescheiden in een trainings- en kalibratiedeel).
- Voor elk voorbeeld in de publieke dataset berekent de client de log-likelihood onder zijn GMM. Een hoge log-likelihood betekent dat het voorbeeld lijkt op de data die de client heeft gezien (betrouwbaar). Een lage log-likelihood duidt op een OoD-voorwerp (onbetrouwbaar).
- De aggregatiegewichten worden bepaald door een softmax-functie over deze log-likelihoods. Clients met lage betrouwbaarheid voor een specifiek voorbeeld krijgen een laag gewicht.
sUWA (Smoothed UWA):
- In de praktijk bleek UWA soms te extreem te zijn: in vroege trainingsfasen kunnen lokale modellen overfitten, wat leidt tot onbetrouwbare dichtheidsschattingen en te geconcentreerde gewichten (één client domineert).
- sUWA introduceert een temperatuurparameter ( $\tau$ ) die de log-likelihoods "verwarmt" (verkleint) voordat de softmax wordt toegepast.
- Dit gladt de gewichtsverdeling, voorkomt dat één client de aggregatie volledig overneemt, en balanceert het compromis tussen bias en variatie. In de experimenten werd $\tau = 0.25$ gebruikt.

Trainingscyclus:
Het proces verloopt in twee fasen per ronde:

Fase 1: Clients trainen lokaal op hun privédata en genereren voorspellingen voor de publieke dataset. Ze sturen ook hun GMM-parameters (of de voorspellingen zelf) naar de server.
Fase 2: De server aggregeert de voorspellingen tot zachte labels (soft targets) met behulp van UWA of sUWA. Deze zachte labels worden teruggestuurd naar de clients om hun modellen te verfijnen op de publieke dataset.

3. Belangrijkste Bijdragen

Theoretisch Kader: Een rigoureuze analyse van de convergentie van Federated Distillation onder heterogeniteit, waarbij wordt aangetoond dat de aggregatiekwaliteit direct de convergentie-omgeving beïnvloedt.
Nieuwe Algoritmen: Introductie van UWA en sUWA, methoden die client-onzekerheid gebruiken om onbetrouwbare voorspellingen te down-weighten zonder extra communicatiekosten (behalve de kleine overhead van de GMM-parameters).
Empirische Validatie: Uitgebreide experimenten op beeld- (CIFAR-10, CIFAR-100) en tekstclassificatie (Yahoo Answers) datasets die aantonen dat de methoden superieur zijn in heterogene scenario's.

4. Resultaten

De experimenten werden uitgevoerd met 20 clients en variërende niveaus van heterogeniteit (aantal klassen per client $k$ ).

Hoge Heterogeniteit (lage $k$ ): Wanneer clients slechts een klein deel van de klassen kennen (bijv. 20% van de klassen in CIFAR-10), presteren sUWA en UWA aanzienlijk beter dan standaard gemiddelde (AVG).
- Op CIFAR-10 met $k=2$ (2 klassen per client) bereikte sUWA bijna 40% nauwkeurigheid, terwijl AVG slechts rond de 22% bleef.
- Dit komt doordat sUWA de onbetrouwbare voorspellingen van clients die de specifieke klasse niet kennen, effectief filtert.
Lage Heterogeniteit (hoge $k$ ): Naarmate clients meer klassen zien, worden hun voorspellingen betrouwbaarder. In deze gevallen convergeren UWA en sUWA naar het gedrag van standaard AVG, wat aantoont dat de methoden geen prestatieverlies veroorzaken in homogene settings.
Communicatiekosten: De logit-gebaseerde methoden (AVG, UWA, sUWA) zijn extreem efficiënt.
- Op Yahoo Answers (BERT-tiny) was de datatransfer 86 keer lager dan bij de geavanceerde gradiënt-gebaseerde methode SCAFFOLD, terwijl de nauwkeurigheid vergelijkbaar of beter was bij hoge heterogeniteit.
- Op CIFAR-100 was de reductie 9 keer.
Stabiliteit: sUWA bleek robuuster dan UWA, vooral in vroege trainingsfasen, door de temperatuurparameter die overfitting van lokale dichtheidsschattingen corrigeert.

5. Significantie

Dit werk is significant omdat het een fundamenteel probleem in Federated Distillation oplost: hoe om te gaan met clients die "niet weten wat ze niet weten".

Robuustheid: Het biedt een praktische oplossing voor real-world scenario's waar data-heterogeniteit de norm is (bijv. medische data van verschillende ziekenhuizen met verschillende ziekteprofielen).
Efficiëntie: Het behoudt het grote voordeel van FD (lage communicatiekosten en ondersteuning van heterogene architecturen) terwijl het de prestaties verbetert die vaak lijden onder heterogeniteit.
Theoretische Onderbouwing: Het koppelt de empirische successen van onzekerheidsgebaseerde aggregatie aan een wiskundig convergentiebewijs, wat het vertrouwen in de methode vergroot voor toekomstige toepassingen.

Kortom, de auteurs tonen aan dat "vertrouwen" in Federated Distillation dynamisch moet worden bepaald op basis van de context van de data, en dat dit leidt tot aanzienlijk betere en efficiëntere gedistribueerde leermodellen.