Unlearning Evaluation through Subset Statistical Independence

Each language version is independently generated for its own context, not a direct translation.

Titel: De "Vergeten" Data Test: Hoe weten we of een AI echt is vergeten wat hij leerde?

Stel je voor dat je een zeer slimme kok (een AI-model) hebt die een receptenboek heeft geleerd. Maar plotseling vraagt iemand: "Ik wil dat je mijn specifieke recept uit je hoofd verwijdert, want ik wil dat niemand dat meer kent." Dit heet Machine Unlearning (machine-ongeleerdheid).

Het probleem? Hoe kun je controleren of de kok het recept écht heeft vergeten?

Tot nu toe was het antwoord op deze vraag lastig. Om te controleren of de kok het recept echt kwijt is, moest je vaak:

Een nieuwe kok trainen die het recept nooit heeft gezien (duur en tijdrovend).
Of een detective inzetten die probeert te raden of de kok het recept kent, wat vaak mislukt als de kok slim genoeg is.

De auteurs van dit paper (uit ICLR 2026) hebben een nieuwe, slimme manier bedacht. Ze noemen het SDE (Split-half Dependence Evaluation). Laten we het uitleggen met een simpele analogie.

De Analogie: De "Gemeenschappelijke Trilling"

Stel je voor dat de kok een orkest is dat samen met de muzikanten (de trainingsdata) heeft geoefend.

Als ze samen hebben geoefend: De muzikanten hebben een onzichtbare, gemeenschappelijke "trilling" of "sfeer" ontwikkeld. Als je twee willekeurige muzikanten uit die groep pakt, klinkt hun muziek op een heel specifieke manier op elkaar afgestemd. Ze hebben een statistische verbinding.
Als ze NIET hebben geoefend: Muzikanten die nooit in het orkest hebben gezeten, hebben die specifieke trilling niet. Als je twee willekeurige mensen van de straat pakt, klinkt hun muziek willekeurig en niet op elkaar afgestemd. Ze zijn statistisch onafhankelijk.

De oude methoden keken naar één muzikant per keer om te zien of hij het liedje kende. De nieuwe methode kijkt naar de groep.

Hoe werkt de nieuwe test (SDE)?

De auteurs doen het volgende:

Ze nemen een groep mensen (een subset van data) waarvan ze willen weten of ze in het orkest hebben gezeten.
Ze splitsen deze groep in twee helften (Linkerhelft en Rechterhelft).
Ze vragen de AI (de kok) om naar beide helften te kijken en te kijken of er een verborgen verbinding is tussen de twee helften.

Ze gebruiken een wiskundige tool genaamd HSIC (Hilbert-Schmidt Independence Criterion). Dit is als een supergevoelige radar die meet: "Hoe sterk trillen deze twee groepen op dezelfde manier?"

Als de groep wel in het orkest heeft gezeten (In-training): De twee helften zullen een sterke "trilling" delen, omdat ze allemaal door dezelfde AI zijn getraind. De radar slaat uit!
Als de groep nooit in het orkest heeft gezeten (Out-of-training): De twee helften trillen niet op elkaar af. De radar zegt: "Geen verbinding gevonden."

Waarom is dit zo cool?

Geen nieuwe kok nodig: Je hoeft niet een hele nieuwe AI te trainen om te controleren of de oude het heeft vergeten. Dat bespaart enorm veel tijd en geld.
Geen detectives nodig: Je hoeft geen ingewikkelde aanvallen te doen om de AI te testen. Je kijkt gewoon naar de "trilling" van de data.
Het werkt zelfs bij kleine groepen: Zelfs als je maar een klein stukje data wilt laten vergeten (bijvoorbeeld 5% van de training), kan deze methode zien of die groep nog steeds "verbonden" is met de rest van de AI.

Wat hebben ze ontdekt?

In hun experimenten hebben ze getest met verschillende AI-modellen (die foto's herkennen of zelfs kunst maken).

Ze zagen dat methoden die eerder leken te werken (zoals het simpelweg "verwijderen" van een gewicht in de AI), in feite de verbinding nog steeds hadden. De AI had het recept niet echt vergeten; hij deed alleen alsof.
Met hun nieuwe test konden ze duidelijk zien welke AI's het recept écht hadden gewist en welke niet.

Conclusie

Dit paper introduceert een nieuwe, eenvoudige manier om te controleren of een AI echt heeft "vergeten" wat hij moet vergeten. In plaats van te kijken naar één enkel stukje data, kijken ze naar de statistische dans tussen groepen data. Als de dans nog steeds synchroon loopt, is het vergeten mislukt. Als de dans stopt, is de privacy van de gebruiker veilig.

Het is alsof je niet vraagt: "Herken jij dit ene liedje?", maar je vraagt: "Klinken deze twee groepen mensen alsof ze samen in dezelfde band hebben gezongen?" Als het antwoord "nee" is, is het geheim veilig.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het evalueren van "Machine Unlearning" (het verwijderen van de invloed van specifieke trainingsdata uit een getraind model) blijft een uitdaging. Bestaande methoden hebben vaak twee grote beperkingen:

Afhankelijkheid van hertraining: De huidige "gouden standaard" vergelijkt het onthouden model met een model dat volledig opnieuw is getraind op de resterende data. Dit is in praktische scenario's vaak onhaalbaar omdat het hertrainen van grote modellen kostbaar is en de oorspronkelijke trainingsconfiguratie niet altijd beschikbaar is.
Beperkingen van Membership Inference Attacks (MIA): Bestaande MIA-methoden testen of een enkel sample tijdens het trainen is gezien. Deze methoden vereisen vaak toegang tot interne statistieken (zoals verliesverdelingen of confidencescores), shadow-modellen of labels. Ze zijn statistisch zwak wanneer ze worden toegepast op kleine, willekeurige subsets (5-20% van de data) en zijn inefficiënt voor de typische werkstromen van unlearning.

De kernvraag is: Hoe kunnen we betrouwbaar verifiëren of een model de invloed van een specifieke subset data daadwerkelijk heeft verwijderd, zonder een referentiemodel te hoeven hertrainen of extra modellen te trainen?

Methodologie: Split-half Dependence Evaluation (SDE)

De auteurs stellen een nieuw raamwerk voor genaamd Split-half Dependence Evaluation (SDE). In plaats van te kijken naar individuele samples, focust deze methode op statistische onafhankelijkheid op het niveau van een subset.

Kernprincipes:

Statistische Afhankelijkheid: Wanneer een model wordt getraind op een dataset, ontstaan er interne afhankelijkheden tussen de representaties van de samples binnen die dataset door gedeelde gradiëntupdates en co-adaptatie. Samples die niet in de training zaten, vertonen deze specifieke afhankelijkheid niet.
Hilbert-Schmidt Independence Criterion (HSIC): De methode gebruikt HSIC, een kernel-gebaseerde statistische maatstaf om de afhankelijkheid tussen twee willekeurige variabelen te kwantificeren. Een HSIC-waarde dicht bij nul duidt op onafhankelijkheid; een hogere waarde duidt op sterke afhankelijkheid.
Split-half Test:
1. Een doel-subset $S$ (die mogelijk moet zijn vergeten) wordt willekeurig opgesplitst in twee gelijke helften: $S_1$ en $S_2$ .
2. De activaties van deze helften worden door het model gehaald (meestal de voorlaatste laag of de output).
3. De HSIC wordt berekend tussen de activaties van $S_1$ en $S_2$ .
4. Dit proces wordt herhaald (met het schudden van $S_2$ ) om een verdeling van HSIC-waarden te krijgen.

Evaluatieprotocol:

Er worden twee referentie-subsets gedefinieerd: $S_{IT}$ (in-training, uit de resterende data) en $S_{OOT}$ (out-of-training, uit de testdata).
Voor een onthouden model wordt de HSIC-verdeling van de doel-subset $S_{tar}$ vergeleken met die van $S_{IT}$ en $S_{OOT}$ met behulp van de Jensen-Shannon Divergentie (JSD).
Als $S_{tar}$ statistisch dichter bij $S_{OOT}$ ligt dan bij $S_{IT}$ , wordt het onthouden als succesvol (de data is "vergeten").

Belangrijkste Bijdragen

Onafhankelijkheid van Hertraining: SDE vereist geen opnieuw getraind referentiemodel, wat het een standalone evaluatieprocedure maakt die beter past bij realistische implementaties.
Geen Extra Training: De methode vereist geen training van auxiliaire classifiers (zoals bij MIA) en werkt direct op de modelactivaties.
Subsysteem-niveau Evaluatie: Door te focussen op subsets in plaats van individuele samples, omzeilt de methode de statistische onzekerheid die optreedt bij kleine subsets en sluit het beter aan bij de werkelijke unlearning-workflows.
Theoretische Onderbouwing: De auteurs tonen wiskundig aan dat training een gedeelde "invloedsfingerprint" ( $\Delta\theta_S$ ) in de modelparameters achterlaat die zorgt voor een positieve HSIC tussen gesplitste helften van trainingsdata, terwijl dit niet het geval is voor data die nooit is getraind.

Resultaten

De auteurs hebben uitgebreide experimenten uitgevoerd op classificatiemodellen (SVHN, CIFAR-10/100, Tiny-ImageNet) en generatieve modellen (Diffusion/EDM).

Onderscheidingsvermogen: SDE kan met hoge nauwkeurigheid (F1-score > 0.95 in veel gevallen) onderscheid maken tussen subsets die wel of niet in de training zaten. De prestaties zijn robuust over verschillende modelarchitecturen (ResNet, AllCNN) en lagen (van vroege lagen tot de penultimale laag).
Vergelijking met Bestaande Methodes:
- SDE presteert aanzienlijk beter dan traditionele afstandsmetingen zoals Maximum Mean Discrepancy (MMD) en Wasserstein-afstand, vooral bij kleine subsets.
- In vergelijking met Membership Inference Attacks (MIA) levert SDE duidelijker bewijs. Bijvoorbeeld, bij het evalueren van de "Unroll"-unlearning-algoritme suggereerden MIA-metingen dat het effectief was (lage ASR), maar toonde SDE aan dat de forget-subsets nog steeds als "in-training" werden herkend (zeer lage Out-of-Training Rate), wat aantoont dat het algoritme faalt.
Robuustheid: De methode werkt zelfs bij modellen die slechts gedeeltelijk zijn getraind (bijv. 20% van de epochs) en is toepasbaar op zowel discriminatieve als generatieve modellen.

Betekenis en Impact

Dit paper biedt een paradigmaverschuiving in de evaluatie van machine unlearning. Het beweegt weg van de onpraktische noodzaak van hertraining en de onbetrouwbare per-sample inferentie naar een statistisch onderbouwde, subset-gebaseerde benadering.

De belangrijkste implicaties zijn:

Praktische Toepasbaarheid: Het maakt het mogelijk om unlearning te auditen in productieomgevingen waar de oorspronkelijke trainingsdata of -configuratie niet meer beschikbaar is.
Betrouwbaarheid: Het blootlegt dat bestaande metrics (zoals ASR) onvoldoende kunnen zijn om de effectiviteit van unlearning te garanderen, wat leidt tot een noodzaak voor strengere evaluatiestandaarden.
Toekomstige Richting: Het biedt een fundamentele basis voor het ontwikkelen van verifieerbare privacy-garanties in AI-systemen, essentieel voor naleving van wetgeving zoals het "recht om vergeten te worden" (GDPR).

Kortom, SDE is een eenvoudige, maar krachtige tool die de betrouwbaarheid van machine unlearning-evaluaties aanzienlijk verbetert door gebruik te maken van de fundamentele statistische eigenschappen van getrainde neurale netwerken.

Unlearning Evaluation through Subset Statistical Independence

De Analogie: De "Gemeenschappelijke Trilling"

Hoe werkt de nieuwe test (SDE)?

Waarom is dit zo cool?

Wat hebben ze ontdekt?

Conclusie

Probleemstelling

Methodologie: Split-half Dependence Evaluation (SDE)

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank