Towards Privacy-Guaranteed Label Unlearning in Vertical Federated Learning: Few-Shot Forgetting without Disclosure

Each language version is independently generated for its own context, not a direct translation.

De "Vergeten" Machine: Hoe je gegevens veilig uit een gezamenlijke AI kunt laten verdwijnen

Stel je voor dat verschillende organisaties, zoals een ziekenhuis en een bank, samenwerken om een slimme AI te bouwen. Ze willen dit doen zonder hun geheimen (zoals patiëntgegevens of salarissen) met elkaar te delen. Dit noemen ze Verticale Federatief Leren. Het is alsof ze elk een stukje van een enorme puzzel hebben: de bank heeft de financiële gegevens, het ziekenhuis heeft de medische gegevens, en samen kunnen ze een beter plaatje maken.

Maar wat gebeurt er als iemand zegt: "Ik wil dat mijn gegevens uit deze AI worden verwijderd, alsof ik er nooit geweest ben"? Dit is het "Recht op Vergetelheid".

In dit paper presenteren de auteurs een nieuwe, slimme manier om dit te doen, zonder dat de hele AI opnieuw gebouwd hoeft te worden en zonder dat de andere partijen zien welke gegevens er precies worden verwijderd.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Grote Verwijdering" is te duur

Stel je voor dat je een enorme taart hebt gebakken met honderden ingrediënten. Als je één specifieke noot eruit wilt halen, zou je normaal gesproken de hele taart moeten slopen en opnieuw beginnen. Dat kost veel tijd en energie.

In de wereld van AI betekent dit dat als een patiënt wil dat zijn HIV-status uit het model wordt verwijderd, je de hele machine learning-modellen opnieuw zou moeten trainen. Dat is te langzaam en te duur.

2. De Oplossing: Een "Kleine Proefnoot" (Few-Shot)

De auteurs zeggen: "Wacht even, we hoeven niet de hele taart te slopen. We hebben maar een klein beetje hulp nodig."

Ze gebruiken een trucje met een kleine, openbare dataset (een paar voorbeelden die iedereen mag zien) in plaats van de hele database. Het is alsof je in plaats van de hele taart opnieuw te bakken, alleen een klein stukje proeft om te zien hoe je de smaak kunt corrigeren.

3. De Magische Truc: "Manifold Mixup" (Het Smaken-Mengsel)

Dit is het meest creatieve deel. Stel je voor dat je een schilderij hebt. Als je een specifieke kleur wilt verwijderen, kun je niet zomaar de verf wegvegen; je moet de hele compositie aanpassen.

De auteurs gebruiken een techniek die ze "Manifold Mixup" noemen.

Hoe het werkt: Ze nemen de kleine proefnootjes en "mixen" ze virtueel met elkaar. Ze creëren duizenden nieuwe, kunstmatige voorbeelden door bestaande stukken te combineren (zoals het mengen van rode en gele verf om oranje te maken).
Het effect: Hierdoor krijgen ze een heel rijk palet aan "kunstmatige" signalen. Het is alsof ze met één druppel inkt een hele oceaan van kleurveranderingen kunnen simuleren. Dit geeft de AI genoeg informatie om precies te weten welke richting ze op moet om de specifieke "noot" (de gevoelige label) te vergeten.

4. Het Vergeten Proces: De "Rijstkorrel" Methode

Nu de AI genoeg signalen heeft, gebeurt het eigenlijke vergeten in twee stappen:

Het Vergeten (Gradient Ascent): De AI wordt aangezet om de specifieke informatie te vergeten. Het is alsof je iemand vraagt om een liedje te zingen, maar dan juist de verkeerde toon te zingen om het originele liedje uit zijn hoofd te wissen. Omdat ze de "kunstmatige mix" gebruiken, gebeurt dit heel snel en efficiënt.
Het Herstellen (Recovery): Soms kan het vergeten proces de rest van de taart een beetje beschadigen (de AI wordt misschien iets minder goed in andere dingen). Daarom doen ze een laatste stap: ze gebruiken een heel klein beetje van de "goede" data om de AI weer even op te poetsen, zodat hij weer perfect werkt voor iedereen die niet is vergeten.

5. Waarom is dit veilig? (De Privacy-Bel)

Dit is het belangrijkste: Niemand ziet wat er verdwijnt.
In oude methoden moest de AI vaak zeggen: "Ik verwijder nu de gegevens van meneer Jansen." Hierdoor wisten de andere partijen (de passieve partijen) direct wie er verdween.

In deze nieuwe methode:

De AI gebruikt alleen de kleine, openbare "mix" van data.
De andere partijen zien alleen wiskundige signalen die eruitzien als ruis.
Ze kunnen niet achterhalen welke specifieke persoon of ziekte er is verwijderd. Het is alsof je een brief verbrandt in een vuurwerkshow; iedereen ziet het licht, maar niemand kan de tekst nog lezen.

Samenvatting in één zin

De auteurs hebben een manier bedacht om een AI snel en veilig een specifieke "geheime" informatie te laten vergeten, door te werken met een paar slimme, kunstmatige voorbeelden in plaats van de hele database opnieuw te bouwen, zodat niemand kan zien wie er precies is "vergeten".

Het is een beetje alsof je een spiegel laat vergeten dat je er stond, zonder dat de spiegel zelf kapot gaat of dat de buren weten dat jij er was.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het paper adresseert een kritieke maar onderbelichte uitdaging in Verticale Federatief Leren (VFL): het "vergeten" (unlearning) van specifieke labels.

Context: In VFL hebben verschillende partijen verschillende kenmerken (features) van dezelfde samples, waarbij één actieve partij de labels bezit en passieve partijen de features.
Uitdaging: Reguleringen zoals de GDPR en CCPA verlenen een "recht op vergetelheid". Bestaande methoden voor federatief unlearning richten zich voornamelijk op het verwijderen van hele clients (in horizontale FL) of passieve partijen (in VFL). Er is echter weinig aandacht voor het verwijderen van labels in VFL, wat cruciaal is in gevoelige domeinen zoals medische diagnostiek (bijv. het wissen van een HIV-status) of kredietrisico.
Specifieke beperkingen:
1. Privacy: Het verwijderen van labels mag geen informatie lekken over welke samples verwijderd worden naar de passieve partijen.
2. Efficiëntie: VFL vereist synchronisatie; alle partijen moeten wachten op de langzaamste. Volledige hertraining is te duur en traag.
3. Data-tekort: Vaak is er slechts een klein aantal samples beschikbaar om het "vergeten" proces te initiëren (few-shot setting).

Methodologie

De auteurs stellen een nieuw Few-Shot Label Unlearning Framework voor dat drie stappen combineert, zoals geïllustreerd in hun architectuur:

Verticale Manifold Mixup (Data Augmentatie):
- Om het probleem van een klein aantal labels (few-shot) op te lossen, gebruiken de auteurs een techniek genaamd Manifold Mixup.
- In plaats van ruwe features te mixen, worden embeddings (de interne representaties) van de passieve partijen geïnterpoleerd.
- De actieve partij genereert synthetische embeddings door embeddings van dezelfde passieve partij te mixen met een coëfficiënt $\lambda$ . Dit creëert een rijkere verdeling van data zonder dat de passieve partijen direct met elkaar hoeven te communiceren of hun ruwe data delen.
- Dit zorgt voor voldoende signalen voor de volgende stappen, zelfs met slechts enkele tientallen samples.
Gradient-Based Label Unlearning (Vergeten):
- Actieve Partij: Voert Gradient Ascent uit op de synthetische embeddings en de bijbehorende gemixte labels. Dit maximaliseert de fout voor de te vergeten labels, waardoor het model deze informatie "vergeet".
- Passieve Partijen: Ontvangen de gradiënten van de actieve partij en voeren een inverse gradiënt-update uit op hun lokale modellen. Hierdoor worden de representaties van de te vergeten samples lokaal gewijzigd zonder dat de passieve partijen de originele labels hoeven te zien.
- Theoretische garantie: De auteurs bewijzen dat de update-richting op basis van de gemixte public data positief gecorreleerd is met de richting die zou worden verkregen bij het gebruik van de volledige dataset.
Remained Accuracy Recovery (Herstel):
- Om te voorkomen dat het vergeten van labels de prestaties op de overige data (retained data) verslechtert, wordt een herstelfase ingevoerd.
- Er wordt Gradient Descent uitgevoerd op een klein aantal samples met de behouden labels. Dit verfijnt de embeddings en herstelt de nauwkeurigheid voor de niet-vergeten klassen.

Belangrijkste Bijdragen

Eerste VFL Label Unlearning: Dit is het eerste werk dat zich specifiek richt op het verwijderen van labels in een verticale federatieve setting, in plaats van alleen het verwijderen van hele clients of features.
Few-Shot Manifold Mixup: De introductie van een representatie-level mixup-mechanisme dat het mogelijk maakt om effectief te onthouden met een zeer klein aantal samples (tot 40 per label), wat de rekentijd drastisch verlaagt.
Process Privacy: De auteurs definiëren en evalueren "process privacy". Ze tonen aan dat hun methode de kans op het lekken van informatie over welke samples worden verwijderd (membership leakage) minimaliseert. In tegenstelling tot hertraining (100% lek) of bestaande methoden, reduceert hun methode dit lek tot zeer lage niveaus (bijv. 4-14%).
Efficiëntie: De methode is uiterst snel (seconden) en schaalbaar, omdat deze geen volledige hertraining vereist en lineair schaalt met het aantal passieve partijen.

Resultaten

De methode is uitgebreid getest op diverse datasets (MNIST, CIFAR-10/100, ModelNet, Brain Tumor MRI, COVID-19 Radiography, Yahoo Answers) en modellen (ResNet18, VGG16, MixText).

Behoud van Nut (Utility): De nauwkeurigheid op de behouden data ( $D_r$ ) blijft zeer hoog (vaak >98%), wat aanzienlijk beter is dan bestaande methoden zoals Fisher Forgetting of Amnesiac Unlearning die vaak grote prestatieverliezen veroorzaken.
Effectiviteit van Vergeten: De nauwkeurigheid op de te vergeten labels ( $y_u$ ) daalt naar bijna 0% (willekeurig gokken), wat aangeeft dat het model de informatie daadwerkelijk heeft verwijderd.
Aanvalssucces Rate (ASR): De methode bereikt een lage ASR (Attack Success Rate) voor lidmaatschapsinference-aanvallen, wat aangeeft dat het model niet kwetsbaar is voor het achterhalen van of specifieke data is getraind.
Snelheid: De runtime is 16x tot 1200x sneller dan concurrenten zoals Fine-Tuning of Fisher Forgetting.
Robuustheid: De prestaties blijven stabiel bij verschillende aantallen passieve partijen, bij het toepassen van privacy-mechanismen (zoals Differentiële Privacy) en bij het verwijderen van meerdere labels tegelijk.

Betekenis en Impact

Dit werk opent een nieuwe richting voor privacy-bevorderend machine learning in VFL. Het lost een fundamenteel probleem op: hoe je gevoelige labels kunt verwijderen uit een gedeeld model zonder de privacy van de overige data te schaden of de prestaties te verstoren.

Praktische Toepasbaarheid: Door de focus op "few-shot" en de hoge snelheid is de methode direct toepasbaar in real-world scenario's zoals bankwezen en gezondheidszorg, waar snel reageren op verzoeken om vergetelheid essentieel is.
Privacy-vooruitgang: Het introduceert het concept van "process privacy" in VFL, wat een nieuwe standaard zet voor hoe transparant en veilig unlearning-processen moeten zijn ten opzichte van de deelnemende partijen.
Efficiëntie: Het bewijst dat heruitvinden van mixup als een efficiënt mechanisme voor unlearning leidt tot een praktische oplossing die de balans vindt tussen privacy, nut en rekenefficiëntie.

Kortom, het paper presenteert een robuuste, snelle en privacy-garanderende oplossing voor label-unlearning in verticale federatieve systemen, die de huidige staat van de techniek aanzienlijk verbetert.

Towards Privacy-Guaranteed Label Unlearning in Vertical Federated Learning: Few-Shot Forgetting without Disclosure

1. Het Probleem: De "Grote Verwijdering" is te duur

2. De Oplossing: Een "Kleine Proefnoot" (Few-Shot)

3. De Magische Truc: "Manifold Mixup" (Het Smaken-Mengsel)

4. Het Vergeten Proces: De "Rijstkorrel" Methode

5. Waarom is dit veilig? (De Privacy-Bel)

Samenvatting in één zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Robust Multi-agent Communication via Multi-view Message Certification

DySCo: Dynamic Semantic Compression for Effective Long-term Time Series Forecasting

Sven: Singular Value Descent as a Computationally Efficient Natural Gradient Method

Forecasting Supply Chain Disruptions with Foresight Learning

UQ-SHRED: uncertainty quantification of shallow recurrent decoder networks for sparse sensing via engression