Parallel Split Learning with Global Sampling

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een groep vrienden samen een enorme puzzel probeert op te lossen, maar ze zitten allemaal in verschillende huizen en kunnen niet naar elkaar toe komen. Dit is een beetje hoe Parallel Split Learning werkt in de wereld van kunstmatige intelligentie (AI).

In dit scenario:

De puzzelstukjes zijn de data (bijvoorbeeld foto's van katten en honden) die op de telefoons van de mensen liggen.
De hoofdpuzzel is het slimme computermodel dat ze gezamenlijk willen leren.
De server is de centrale plek waar de puzzelstukjes samenkomen om te worden gecontroleerd.

Het probleem met de huidige methode (PSL) is als volgt: Stel je hebt 100 vrienden. Als iedereen tegelijkertijd 10 puzzelstukjes stuurt, heeft de server ineens 1000 stukjes in één keer. Dat klinkt goed, maar het is alsof je een hele berg sneeuw in één keer in je oven gooit: het verbrandt je model (het leert slecht) en het kost veel tijd.

Daarnaast is het zo dat niet iedereen dezelfde soort puzzelstukjes heeft. De ene vriend heeft alleen foto's van katten, de andere alleen van honden. Als je ze zomaar mengt, krijg je een scheef beeld van wat er eigenlijk in de wereld zit.

De Oplossing: GPSL (De Slimme Verdeler)

De auteurs van dit paper hebben een nieuwe methode bedacht, genaamd GPSL. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Vaste Maaltijd" (Vaste Batchgrootte)

In de oude methode bepaalden de vrienden zelf hoeveel stukjes ze stuurden. Als er meer vrienden kwamen, werd de maaltijd (de data) steeds groter.
Bij GPSL zegt de chef-kok (de server): "Hé, we eten vandaag precies 100 stukjes. Dat is genoeg."
Het maakt niet uit of je 10 of 100 vrienden hebt; de totale maaltijd blijft 100 stukjes. Dit voorkomt dat de oven oververhit raakt.

2. De "Receptie met Loterij" (Globale Steekproef)

Hoe verdelen ze die 100 stukjes eerlijk over de vrienden?

Oude methode: Iedereen krijgt een vast aantal stukjes, afgerond. Als iemand 10% van de puzzel heeft, krijgt hij 10 stukjes. Maar als je 100 stukjes moet verdelen over 33 vrienden, moet je afronden. Soms krijgt iemand 3, soms 4. Die afronding zorgt voor onrechtvaardigheid en scheve verdelingen.
GPSL-methode: De server kijkt naar hoeveel stukjes iedereen nog over heeft. Vervolgens doet hij een loterij.
- Heeft vriend A nog veel stukjes? Dan heeft hij een grotere kans om een "trek" te winnen.
- Heeft vriend B nog maar weinig? Dan is zijn kans kleiner.
- De server roept: "Vriend A, jij mag 3 stukjes sturen. Vriend B, jij mag 2."
- Dit gebeurt zonder dat de server ooit de foto's zelf ziet. Hij weet alleen hoeveel er nog zijn.

3. Waarom is dit zo slim?

Stel je voor dat je een grote pot met rode en blauwe ballen hebt.

Als je per persoon een vaste hoeveelheid ballen pakt en afrondt, kan het zijn dat je per ongeluk 90% rode ballen en 10% blauwe ballen krijgt, terwijl de pot eigenlijk 50/50 was. Dat is de afrondingsfout.
Met de GPSL-loterij trek je ballen alsof je direct uit de grote pot pikt. De verdeling blijft perfect 50/50, precies zoals in de echte wereld.

De Resultaten in het Dagelijks Leven

De auteurs hebben dit getest met echte computers en foto's (zoals de bekende CIFAR-datasets). Hier is wat ze ontdekten:

Beter Leren: Omdat de verdeling eerlijker is, leert het AI-model veel sneller en beter. In de tests haalde GPSL bijna hetzelfde resultaat als als je alle data op één plek had verzameld (wat je normaal niet mag doen vanwege privacy). De oude methoden vielen tot wel 60% achter als de data erg scheef verdeeld was.
Sneller Afwerking: Omdat er minder "afrondingsproblemen" zijn, raken de vrienden hun puzzelstukjes niet te snel op in een onevenredige manier. Ze hoeven niet langer te wachten of extra rondjes te draaien. Het hele proces gaat sneller.
Schaalbaar: Of je nu 10 of 10.000 vrienden hebt, de methode werkt even goed. De server hoeft niet meer geheugen te gebruiken, omdat de "maaltijd" (de batchgrootte) altijd even groot blijft.

Conclusie

Kortom: GPSL is als een slimme, eerlijke verdelingsstrategie voor een groep die samen werkt zonder elkaar te zien. Het zorgt ervoor dat:

De totale hoeveelheid werk constant blijft (geen overbelasting).
Iedereen een eerlijk deel van de taak krijgt, gebaseerd op wat ze nog hebben, zonder dat er door afronding stukjes verloren gaan.
Het eindresultaat (de AI) veel slimmer wordt, vooral als de data van iedereen anders is.

Het is een "drop-in" oplossing: je kunt het gewoon gebruiken in bestaande systemen zonder alles opnieuw te bouwen, en het werkt wonderwel in een wereld vol kleine, beperkte apparaten (zoals je telefoon of slimme sensor).

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Parallel Split Learning with Global Sampling" (GPSL) in het Nederlands.

Titel: Parallel Split Learning met Globale Sampling (GPSL)

Auteurs: Mohammad Kohankhaki, Ahmad Ayad, Mahdi Barhoush, en Anke Schmeink (RWTH Aachen University)

1. Het Probleem

Parallel Split Learning (PSL) is een paradigma voor gedistribueerd deep learning dat bedoeld is om de latentie van sequentiële Split Learning te verminderen door meerdere clients parallel te laten werken. Het paper identificeert echter twee fundamentele, met elkaar verweven problemen die de prestaties van bestaande PSL-implementaties beperken, vooral in omgevingen met beperkte resources (zoals IoT) en niet-identiek en onafhankelijk verdeelde (non-IID) data:

Groeiende effectieve batchgrootte: In traditionele PSL wordt een vaste lokale batchgrootte per client gebruikt. Naarmate het aantal clients ( $K$ ) toeneemt, groeit de totale effectieve globale batchgrootte lineair ( $B_{eff} = K \times B_{lokaal}$ ). Dit leidt tot een te kleine gradiëntruis, wat de generalisatie van het model kan verslechteren en vaak een zorgvuldige herschikking van hyperparameters vereist.
Non-IID data en afrondingsbias: Clients hebben vaak datasets van verschillende grootte en verdeling. Bij het toewijzen van lokale batches op basis van een vaste globale batchgrootte, is afronding (rounding) noodzakelijk om gehele getallen te krijgen. Dit veroorzaakt een vertekening (bias) in de samenstelling van de globale batch ten opzichte van de werkelijke gepoolde data-verdeling. Bovendien versnelt deze afronding de uitputting van lokale datasets, wat het aantal trainingsstappen per epoch verhoogt en de totale trainingstijd verlengt.

2. Methodologie: GPSL

De auteurs stellen Parallel Split Learning with Global Sampling (GPSL) voor, een server-gestuurd schema dat de bovenstaande problemen oplost zonder de bestaande PSL-architectuur fundamenteel te veranderen.

Vaste globale batchgrootte: In plaats van lokale batches vast te stellen, stelt de server een vaste globale batchgrootte $B$ in.
Dynamische toewijzing: De server berekent voor elke trainingsstap $t$ een tijdschema van lokale batchgroottes $\{B_k^{(t)}\}$ voor elke client $k$ , zodanig dat $\sum B_k^{(t)} = B$ .
Globale Sampling Procedure (Algorithm 1):
- De server kent alleen de grootte van de datasets ( $D_k$ ) van elke client; er wordt geen ruwe data gedeeld.
- De server simuleert het trekken van $B$ monsters uit de gepoolde dataset (alle data van alle clients samen) zonder teruglegging.
- Dit gebeurt door client-indexen te selecteren met een kans evenredig aan het aantal nog niet-gebruikte monsters ( $R_k$ ) van die client.
- De server deelt het resultaat (het aantal monsters dat elke client moet leveren) uit.
Lokale uitvoering: Elke client trekt vervolgens lokaal het toegewezen aantal monsters uit zijn eigen dataset, zonder teruglegging.
Wiskundige onderbouwing: Omdat de server de toewijzing baseert op de resterende populatie, is het proces wiskundig equivalent aan uniform willekeurig trekken uit de totale gepoolde dataset. Dit garandeert dat de globale batch statistisch identiek is aan een centrale uniforme steekproef.

3. Belangrijkste Bijdragen

Nieuwe Sampling-mechanisme: Een server-gestuurd schema dat de effectieve batchgrootte koppelt aan een vaste globale grootte in plaats van het aantal clients. Dit elimineert de per-klassen afrondingsbias die inherent is aan lokale sampling-schema's.
Wiskundige garanties (Finite-Population): De auteurs leiden afleidingen af voor afwijkingen (deviation bounds) met behulp van Serfling's ongelijkheid met correctie voor eindige populaties.
- Dit bewijst dat GPSL een nul afrondingsbias heeft ten opzichte van lokale sampling.
- Het garandeert dat de globale batchverdeling in verwachting gelijk is aan de gepoolde verdeling, ongeacht de verdeling over de clients.
Praktische toepasbaarheid: GPSL is een "drop-in replacement" voor bestaande PSL-systemen. Het vereist slechts metadata (datasetgroottes), voegt verwaarloosbare overhead toe en schaalt goed naar grote aantallen clients.

4. Resultaten

De auteurs hebben GPSL uitgebreid getest op de CIFAR-10 en CIFAR-100 datasets met ResNet-18 en ResNet-34 modellen onder zowel IID als severe non-IID condities.

Nauwkeurigheid onder Non-IID:
- In severe non-IID scenario's (waarbij clients slechts een subset van klassen hebben) presteerde GPSL consistent op het niveau van centrale learning (CL) (bijv. ~84% nauwkeurigheid op CIFAR-10).
- Bestaande methoden zoals Fixed Local Sampling (FLS) en Fixed Proportional Sampling (FPLS) vertoonden een drastische daling in nauwkeurigheid (tot wel 60% lager in sommige gevallen) en instabiele convergentie.
Stabiliteit en Deviatie:
- GPSL hield de batch-deviatie (het verschil tussen de batch en de werkelijke verdeling) laag en stabiel, vergelijkbaar met centrale sampling.
- FLS en FPLS vertoonden grote schommelingen in deviatie, wat leidde tot onstabiele training.
Trainingstijd:
- GPSL verkortte de totale trainingstijd aanzienlijk. Omdat het de uitputting van lokale datasets (data depletion) voorkomt door een constante globale batchgrootte te handhaven, zijn er minder trainingsstappen nodig per epoch.
- Bij kleine batchgroottes en veel clients was het tijdsverschil het grootst, waarbij FLS/FPLS door inefficiënte stapgroottes veel langer duurden.
Robuustheid: De methode bleef stabiel bij variaties in het aantal clients ( $K$ ) en de globale batchgrootte ( $B$ ), terwijl andere methoden gevoelig waren voor deze parameters.

5. Betekenis en Conclusie

GPSL biedt een elegante oplossing voor de schaalbaarheids- en stabiliteitsproblemen van Parallel Split Learning in resource-beperkte omgevingen zoals het Internet of Things (IoT).

Decoupling: Het koppelt de effectieve batchgrootte los van het aantal deelnemende clients, wat essentieel is voor generalisatie bij grote client-populaties.
Privacy en Efficiency: Het behoudt de privacyvoordelen van Split Learning (geen ruwe data uitwisseling) en minimaliseert communicatie-overhead.
Toekomstperspectief: Hoewel de huidige evaluatie uitgaat van een statische, synchrone populatie, is GPSL compatibel met bestaande technieken voor asynchrone scheduling. Het paper suggereert dat GPSL een veelbelovende basis is voor toekomstige adaptieve strategieën in dynamische edge-computing omgevingen.

Kortom, GPSL maakt gedistribueerd diep leren op grote schaal met heterogene data mogelijk door de statistische eigenschappen van centrale training te benaderen, zonder de privacy of de schaalbaarheid te offeren.

Parallel Split Learning with Global Sampling

De Oplossing: GPSL (De Slimme Verdeler)

1. De "Vaste Maaltijd" (Vaste Batchgrootte)

2. De "Receptie met Loterij" (Globale Steekproef)

3. Waarom is dit zo slim?

De Resultaten in het Dagelijks Leven

Conclusie

Titel: Parallel Split Learning met Globale Sampling (GPSL)

1. Het Probleem

2. Methodologie: GPSL

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Homotopy type theory as a language for diagrams of ∞\infty∞-logoses

One is all you need: Second-order Unification without First-order Variables

Homotopy type theory as a language for diagrams of $\infty$ -logoses