Exploiting Label-Aware Channel Scoring for Adaptive Channel Pruning in Split Learning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorm complex puzzelstuk (een kunstmatige intelligentie) moet oplossen, maar je hebt geen sterke computer. Je hebt alleen een heleboel kleine, zwakke telefoons (zoals die van ons allemaal).

In de oude manier van werken (zoals bij "Federated Learning") zouden al die telefoons zelf het zware werk moeten doen: ze zouden elk een stukje van het brein van de AI moeten trainen. Dat is te zwaar voor hun batterij en processor.

Split Learning is een slimme oplossing: de telefoons doen alleen het eerste, simpele deel van het werk. Ze sturen dan een "tussentijds verslag" naar een supersterke server. De server doet het zware denkwerk en stuurt het antwoord terug.

Maar hier zit een probleem:
Die "tussentijdse verslagen" (in het paper "smashed data" genoemd) zijn vaak gigantisch groot. Als je duizenden telefoons hebt, wordt het versturen van al die data een enorme file op de snelweg. Het kost te veel tijd en energie.

De Oplossing: ACP-SL (De Slimme Verkleiner)

De auteurs van dit paper hebben een nieuwe methode bedacht, genaamd ACP-SL. Ze gebruiken twee slimme trucs om die file op te lossen zonder dat de AI dommer wordt.

1. De "Label-Aware" Scorebord (LCIS)

Stel je voor dat je een orkest hebt met honderden muzikanten (kanalen). Sommige muzikanten spelen de melodie (belangrijk), anderen spelen alleen wat achtergrondruis (niet belangrijk).

In de oude methoden werd iedereen even hard gedempt. Dat is zonde! De melodie verdwijnt dan ook.

De nieuwe methode heeft een slimme dirigent (de LCIS-module). Deze dirigent kijkt naar elke muzikant en vraagt: "Speel jij iets dat echt belangrijk is voor het liedje?"

Als een muzikant iets speelt dat heel goed past bij de rest van de groep (hoge gelijkenis binnen dezelfde categorie), krijgt hij een hoge score.
Als hij alleen maar ruis maakt of niet past, krijgt hij een lage score.

Deze dirigent kijkt niet alleen naar nu, maar onthoudt ook hoe de muzikant de afgelopen tijd heeft gespeeld. Zo voorkomt hij dat hij per ongeluk een goede muzikant wegstuurt omdat hij even een noot mistte.

2. De Dynamische Schaar (ACP)

Nu komt de tweede truc: de Adaptieve Schaar.

In plaats van voor iedereen hetzelfde percentage weg te knippen, past deze schaar zich aan:

Hoge score? De schaar knipt niets weg. Die belangrijke data mag gewoon door.
Lage score? De schaar knipt die data eruit. Die data was toch maar ruis, dus dat scheelt enorm veel ruimte.

Het is alsof je een grote koffer vol spullen moet inpakken om te verhuizen. In plaats van alles in te pakken, gooi je eerst de oude kranten en lege dozen weg (de onbelangrijke kanalen), maar je houdt de kostbare schilderijen en de familiealbums (de belangrijke kanalen) zorgvuldig veilig.

Waarom is dit zo goed?

Minder File: Omdat ze alleen de "slechte" data weggooien, is de file op de snelweg veel korter. De telefoons hoeven minder data te sturen.
Beter Resultaat: Omdat ze de "goede" data niet weggooien, wordt de AI uiteindelijk slimmer dan bij de oude methoden.
Sneller: Omdat er minder data heen en weer gaat, is het trainen van de AI sneller klaar.

Kort samengevat in een metafoor:
Stel je voor dat je een bericht moet sturen naar een vriend.

Oude methode: Je stuurt een brief van 100 pagina's, inclusief alle krabbels en fouten.
Nieuwe methode (ACP-SL): Je leest je brief eerst door met een slimme bril. Je ziet welke zinnen echt belangrijk zijn en welke alleen maar ruis zijn. Je knipt de ruis eruit en stuurt alleen de 20 belangrijkste zinnen. Je vriend begrijpt het bericht net zo goed, maar het kost je 80% minder tijd om het te versturen.

Dit paper laat zien dat je door slim te kiezen wat je weggooit, niet alleen sneller bent, maar ook een betere AI krijgt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Exploiting Label-Aware Channel Scoring for Adaptive Channel Pruning in Split Learning" in het Nederlands.

Probleemstelling

Split Learning (SL) is een veelbelovend paradigma dat de trainingslast van client-apparaten naar een server verplaatst, waardoor de privacy van de ruwe data wordt gewaarborgd en de rekenkracht op edge-apparaten wordt verlicht. In SL wisselen client en server echter "gesmashte data" (intermediere feature representaties) uit.

De uitdaging: Wanneer veel client-apparaten betrokken zijn, veroorzaakt de transmissie van deze gesmashte data aanzienlijke communicatie-overhead, wat een bottleneck vormt voor de schaalbaarheid van SL.
Beperkingen van bestaande oplossingen: Bestaande compressietechnieken (zoals binarisatie, auto-encoders of Top-k selectie) passen vaak een uniforme compressie toe op alle kanalen. Ze negeren echter dat niet alle kanalen even belangrijk zijn voor het trainingsproces. Sommige kanalen bevatten cruciale semantische informatie (label-gerelateerd), terwijl andere minder informatief zijn of ruis introduceren. Uniforme compressie kan leiden tot het onbedoeld verwijderen van belangrijke informatie of het behouden van onnodige data.

Methodologie: ACP-SL

De auteurs stellen een adaptief kanaal-uitdunnings-geassisteerd SL-schema voor, genaamd ACP-SL (Adaptive Channel Pruning-aided Split Learning). Dit schema bestaat uit twee kernmodules:

1. Label-Aware Channel Importance Scoring (LCIS)

De LCIS-module kwantificeert de belangrijkheid van elk kanaal op basis van de label-informatie. Het doel is om kanalen te onderscheiden die essentieel zijn voor het trainingsdoel van het model. De score wordt berekend in drie fasen:

Instantane Score: Bereken de intra-label gelijkenis (hoe sterk samples met hetzelfde label in een kanaal clusteren) en de inter-label gelijkenis (hoe sterk samples met verschillende labels gescheiden zijn). Een hoge intra-label en lage inter-label gelijkenis resulteert in een hoge belangrijkheidsscore.
Historische Score: Om de gevoeligheid voor ruis en uitschieters in de instantane score te verminderen, wordt een historische score berekend als het gemiddelde van de scores over de vorige iteraties.
Gecombineerde Score: De uiteindelijke score ( $S_{i,Comb}$ ) is een gewogen som van de instantane en historische scores. Het gewicht ( $\alpha_t$ ) neemt lineair af tijdens de training: in de beginfase wordt meer vertrouwen gesteld in de instantane score (voor snelle aanpassing), en later in de historische score (voor stabiliteit en robuustheid).

2. Adaptieve Kanaal-uitdunning (ACP)

Op basis van de LCIS-scores past de ACP-module dynamisch de uitdunningsratio aan per iteratie:

Adaptieve Mechanisme: De module berekent een schalingsfactor ( $W_t$ $W_{t}$ ) door de historische groepsscore te delen door de instantane groepsscore.
- Als de instantane score hoger is dan de historische (wat suggereert dat de data-variabiliteit toeneemt of kanalen minder stabiel zijn), wordt de uitdunningsratio verlaagd om belangrijke kanalen te behouden.
- Als de historische score dominant is, kan er meer worden uitgedund.
Beperkingen: De uitdunningsratio wordt begrensd binnen een interval $[P_{min}, P_{max}]$ om plotselinge fluctuaties te voorkomen.
Resultaat: Kanalen met een lage score worden uitgedund (verwijderd), waardoor de omvang van de te transmitten gesmashte data en de gradiënten wordt gereduceerd.

Belangrijkste Bijdragen

LCIS-module: Een nieuw mechanisme om kanaalbelangrijkheid te kwantificeren op basis van intra- en inter-label gelijkenis, in plaats van alleen op basis van magnitude of willekeurige selectie.
ACP-module: Een adaptieve uitdunningsstrategie die de compressie aanpast aan de dynamische belangrijkheid van kanalen tijdens de training, in plaats van een statische compressie toe te passen.
Prestatieverbetering: Het bewijs dat adaptieve compressie leidt tot betere testnauwkeurigheid en minder communicatie-overhead vergeleken met uniforme methoden.

Experimentele Resultaten

De methode is getest op de CIFAR-10 en Fashion-MNIST datasets onder zowel IID (Independent and Identically Distributed) als non-IID omstandigheden, met ResNet-18 als model.

Testnauwkeurigheid: ACP-SL presteert consistent beter dan benchmarks (Standard-SL, RandTopk-SL en Quantization-SL).
- Op CIFAR-10 (non-IID) behaalde ACP-SL een nauwkeurigheid van 71,43%, wat ongeveer 3,72% hoger is dan Quantization-SL.
- Op Fashion-MNIST (non-IID) werd een nauwkeurigheid van 85,09% bereikt, een verbetering van 7,24% ten opzichte van de benchmark.
Communicatie-overhead: ACP-SL bereikt een doelwitnauwkeurigheid in minder trainingsrondes.
- Om 65% nauwkeurigheid op CIFAR-10 (non-IID) te bereiken, waren slechts 46 rondes nodig, wat 12 rondes minder is dan Quantization-SL. Dit vertaalt zich direct naar minder data-overdracht.
Ablatiestudies:
- Vergelijking met willekeurige scores of scores gebaseerd op het aantal niet-nul elementen ( $\ell_0$ -norm) toonde aan dat de label-bewuste LCIS essentieel is voor de prestaties.
- Vergelijking met vaste of willekeurige uitdunningsratio's bevestigde dat de adaptieve ACP-module noodzakelijk is voor het behalen van hoge nauwkeurigheid.

Significantie

Dit onderzoek biedt een significante bijdrage aan het veld van Split Learning en Edge AI door:

Efficiëntie: Het oplossen van het communicatie-bottleneck-probleem zonder in te leveren op modelkwaliteit.
Slimme Compressie: Het introduceren van een "label-aware" aanpak die begrijpt dat niet alle data even waardevol is voor het leerproces. Dit voorkomt dat cruciale semantische informatie wordt weggegooid tijdens compressie.
Toepasbaarheid: De methode maakt SL schaalbaarder voor IoT-omgevingen met beperkte bandbreedte, wat essentieel is voor de toekomstige implementatie van privacy-bewuste, gedistribueerde deep learning systemen.

Exploiting Label-Aware Channel Scoring for Adaptive Channel Pruning in Split Learning

De Oplossing: ACP-SL (De Slimme Verkleiner)

1. De "Label-Aware" Scorebord (LCIS)

2. De Dynamische Schaar (ACP)

Waarom is dit zo goed?

Probleemstelling

Methodologie: ACP-SL

1. Label-Aware Channel Importance Scoring (LCIS)

2. Adaptieve Kanaal-uitdunning (ACP)

Belangrijkste Bijdragen

Experimentele Resultaten

Significantie

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem