Unlearning Evaluation through Subset Statistical Independence

Each language version is independently generated for its own context, not a direct translation.

Titel: Wie man vergisst, ohne neu zu lernen – Ein neuer Test für KI-Gedächtnis

Stell dir vor, du hast einen sehr klugen Schüler (die KI), der eine riesige Bibliothek auswendig gelernt hat. Eines Tages sagt jemand: „Hey, das eine Buch, das du da drin hast, gehört mir nicht mehr. Bitte vergiss es sofort!" Das ist das Problem des Maschinellen Vergessens (Machine Unlearning).

Das Schwierige daran ist: Wie überprüft man, ob der Schüler das Buch wirklich vergessen hat?

Das alte, umständliche Problem

Bisher gab es zwei Wege, das zu testen, und beide waren sehr mühsam:

Der „Neustart"-Test: Man müsste den Schüler das ganze Buch ohne das verbotene Kapitel neu lernen lassen und dann vergleichen, ob der alte Schüler genauso ist wie der neue. Das ist aber extrem teuer und zeitaufwendig, wie ein kompletter Schulneubau nur wegen eines Buches.
Der „Spion"-Test: Man versucht, mit Tricks herauszufinden, ob der Schüler das Buch noch kennt. Aber dafür braucht man oft geheime Informationen über den Lernprozess oder muss viele andere KIs als Spione trainieren. Das funktioniert in der echten Welt oft nicht, weil man diese Daten gar nicht hat.

Die neue Idee: Der „Zwillings-Test" (SDE)

Die Autoren dieses Papiers haben eine clevere, einfache Idee entwickelt, die sie SDE (Split-half Dependence Evaluation) nennen. Stell dir das so vor:

Statt den Schüler zu befragen oder neu zu bilden, schauen wir uns einfach an, wie er auf eine Gruppe von Fragen reagiert.

Die Analogie der „versteckten Verbindung":

Wenn die KI etwas gelernt hat: Stell dir vor, du hast eine Gruppe von Freunden, die alle zusammen in einem Camp waren. Sie haben gemeinsame Erlebnisse, Insider-Witze und eine besondere Art, aufeinander zu reagieren. Wenn du sie fragst, antworten sie synchron, weil sie „im gleichen Takt" gelernt haben.
Wenn die KI etwas nicht gelernt hat: Wenn du eine Gruppe von Fremden fragst, die nie zusammen waren, antworten sie zufällig. Es gibt keine verborgene Synchronisation zwischen ihnen.

Der Test:
Die Forscher nehmen eine Gruppe von Daten (z. B. die Bilder, die „vergessen" werden sollen) und teilen sie in zwei Hälften.

Sie schauen, wie die KI auf die erste Hälfte reagiert.
Sie schauen, wie sie auf die zweite Hälfte reagiert.
Dann messen sie mit einer mathematischen Formel (einem „Statistik-Meter"), ob diese beiden Hälften noch eine geheime Verbindung zueinander haben.

Ergebnis A (Verbindung da): Die beiden Hälften reagieren noch synchron. Das bedeutet: Die KI hat diese Daten noch im Kopf! Das Vergessen ist gescheitert.
Ergebnis B (Keine Verbindung): Die Hälften reagieren völlig unabhängig voneinander. Das bedeutet: Die KI hat die Daten wirklich vergessen. Das Vergessen war erfolgreich.

Warum ist das genial?

Kein Neustart nötig: Man muss die KI nicht neu trainieren.
Keine Spione nötig: Man braucht keine extra KI, um die andere zu prüfen.
Gruppen-Check: Es ist viel einfacher, eine ganze Gruppe zu testen, als jeden einzelnen Datensatz einzeln zu verhören.

Was haben sie herausgefunden?

Die Forscher haben diesen Test an vielen verschiedenen KIs ausprobiert. Das Ergebnis war überraschend:
Viele Methoden, die man bisher für „gut" hielt (weil sie schnell waren oder die Genauigkeit der KI nicht stark senkten), haben den Test nicht bestanden. Die KI dachte immer noch, sie hätte die Daten gelernt, obwohl sie eigentlich „vergessen" sollte.

Unser neuer Test hat diese Lücken aufgedeckt. Er zeigt genau, wann eine KI wirklich „amputiert" wurde und wann sie nur so tut, als wäre sie es.

Fazit

Statt die KI zu fragen „Hast du das Buch vergessen?", schauen wir einfach, ob die Antworten der KI auf verschiedene Teile des Buches noch miteinander „flirten". Wenn sie sich nicht mehr kennen, ist das Buch wirklich weg. Ein einfacher, aber sehr mächtiger Trick, um die Privatsphäre in der KI-Welt zu schützen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Unlearning Evaluation durch statistische Unabhängigkeit von Teilmengen

Veröffentlicht: ICLR 2026
Autoren: Chenhao Zhang, Muxing Li, Feng Liu, Weitong Chen, Miao Xu

1. Problemstellung

Das maschinelle „Unlearning" (das Entfernen des Einflusses spezifischer Trainingsdaten aus einem trainierten Modell) ist entscheidend für Datenschutzanforderungen (z. B. „Recht auf Vergessenwerden") und die Beseitigung von Backdoors. Eine zentrale Herausforderung besteht jedoch darin, die Effektivität eines Unlearning-Prozesses zu bewerten.

Bestehende Evaluierungsmethoden leiden unter erheblichen Einschränkungen:

Abhängigkeit von Referenzmodellen: Viele Ansätze vergleichen das ungelernnte Modell mit einem neu von Grund auf trainierten Modell (Retraining), das nur die verbleibenden Daten verwendet. Dies ist in der Praxis oft unmöglich, da das Retraining rechenintensiv ist und die ursprünglichen Trainingskonfigurationen nicht mehr verfügbar sind.
Limitationen von Membership Inference Attacks (MIA): MIA-Methoden testen, ob ein einzelnes Sample im Training war. Sie benötigen jedoch oft Zugriff auf interne Trainingsstatistiken (z. B. Verlustverteilungen), Schattenmodelle oder Labels, die in realen Szenarien nachträglich nicht verfügbar sind. Zudem sind sie bei kleinen, zufälligen Teilmengen (5–20 % der Daten), die typischerweise gelöscht werden, statistisch oft zu schwach oder ineffizient.

Das Paper argumentiert, dass der Fokus von einer sampleweisen Bewertung auf eine bewertung auf Teilmengenebene (Subset-level) wechseln sollte, um zu prüfen, ob die gesamte zu vergessende Teilmenge noch statistische Spuren des Trainings aufweist.

2. Methodik: Split-half Dependence Evaluation (SDE)

Die Autoren schlagen SDE vor, einen Evaluierungsrahmen, der auf der statistischen Unabhängigkeit der Modellausgaben basiert.

Kernidee

Wenn ein Modell auf einem Datensatz trainiert wird, entstehen durch gemeinsame Gradientenupdates und Co-Adaptation statistische Abhängigkeiten zwischen den Repräsentationen der Trainingsdaten. Daten, die nicht im Training waren, weisen diese Abhängigkeiten nicht auf. SDE nutzt dies aus, um zu prüfen, ob eine gegebene Teilmenge noch „im Training" war.

Der Algorithmus

Aufteilung (Split-half): Eine zu testende Teilmenge $S$ wird zufällig in zwei gleich große Hälften $S_1$ und $S_2$ aufgeteilt.
Messung der Abhängigkeit: Die Abhängigkeit zwischen den Aktivierungen der beiden Hälften im Modell $h$ wird gemessen.
HSIC (Hilbert-Schmidt Independence Criterion): Als Maß für die Abhängigkeit wird HSIC verwendet, ein kernel-basiertes statistisches Maß, das auch für hochdimensionale Daten geeignet ist.
$H(S, h) = \text{HSIC}(h(S_1), h(S_2))$
Um die Verteilung zu schätzen, wird $S_2$ mehrfach (z. B. 200 Mal) neu gemischt (Shuffling), um eine Verteilung der HSIC-Werte zu erhalten.
Vergleich mit Referenz:
- Es werden Referenzmengen definiert: $S_{IT}$ (bekannte Trainingsdaten) und $S_{OOT}$ (bekannte Nicht-Trainingsdaten).
- Die Verteilung der HSIC-Werte der Zielmenge $S_{tar}$ wird mit den Verteilungen von $S_{IT}$ und $S_{OOT}$ verglichen (mittels Jensen-Shannon-Divergenz, JSD).
- Kriterium: Wenn $S_{tar}$ näher an $S_{OOT}$ liegt als an $S_{IT}$ , gilt das Unlearning als erfolgreich (die Daten wurden „vergessen").

Theoretische Begründung

Die Analyse zeigt, dass für Trainingsdaten eine gemeinsame Einflusskomponente ( $\Delta\theta_S$ ) existiert, die durch die Trainingsdaten in die Parameter eingebracht wird. Da beide Hälften $S_1$ und $S_2$ denselben Parameter-Shift teilen, entsteht eine messbare statistische Abhängigkeit (HSIC > 0). Bei Nicht-Trainingsdaten fehlt diese gemeinsame Komponente, und die Hälften bleiben unabhängig (HSIC $\approx$ 0).

3. Wichtige Beiträge

Referenz-freie Evaluierung: SDE benötigt kein neu trainiertes Referenzmodell, was den Prozess in realen Deployment-Szenarien praktikabel macht.
Keine zusätzlichen Modelle: Im Gegensatz zu MIA werden keine Schattenmodelle oder zusätzlichen Klassifikatoren benötigt.
Robustheit auf Teilmengenebene: Der Ansatz ist robuster als samplebasierte Methoden, da er die kollektive Abhängigkeit einer Gruppe von Daten misst, was besser mit dem Ziel des Unlearnings (Löschen ganzer Datensubsets) übereinstimmt.
Universelle Anwendbarkeit: Die Methode wurde erfolgreich auf Klassifikationsmodelle (ResNet, AllCNN) und generative Diffusionsmodelle (EDM) angewendet.

4. Ergebnisse

Die Autoren führten umfangreiche Experimente durch:

Unterscheidung von In-/Out-of-Training: Auf retrainierten Modellen konnte SDE zuverlässig zwischen Trainings- und Testdaten-Teilmengen unterscheiden. Die F1-Scores lagen bei großen Teilmengen ( $|S| \ge 1000$ ) oft nahe 1,0, selbst bei kleinen Vergessensquoten (5 %).
Vergleich mit bestehenden Metriken:
- SDE übertraf herkömmliche Distanzmetriken wie Maximum Mean Discrepancy (MMD) und Wasserstein-Abstand, insbesondere bei kleinen Teilmengen.
- Herkömmliche Metriken (wie Accuracy oder MIA-Erfolgsrate) zeigten oft keine signifikanten Unterschiede zwischen erfolgreichen und gescheiterten Unlearning-Methoden.
Evaluierung von Unlearning-Algorithmen:
- Bei der Anwendung auf bekannte Algorithmen (z. B. Unroll, SalUn, Random-label) lieferte SDE differenziertere Ergebnisse.
- Beispiel: Die Methode Unroll zeigte in herkömmlichen Metriken (Accuracy, MIA) Ergebnisse ähnlich dem retrainierten Modell (was auf Erfolg hindeutet). SDE zeigte jedoch, dass die zu vergessenden Daten weiterhin starke Trainingsabhängigkeiten aufwiesen (niedrige „Out-of-Training Rate"), was auf ein gescheitertes Unlearning hindeutet.
- Im Gegensatz dazu zeigte Random-label eine hohe Effektivität, die von SDE bestätigt wurde.
Robustheit: Die Methode funktionierte über verschiedene Schichten des Netzes (nicht nur die letzte Schicht) und bei unterschiedlichen Trainingsphasen (ab ca. 20 % der Epochen).

5. Bedeutung und Fazit

Das Paper stellt einen Paradigmenwechsel in der Evaluierung von Machine Unlearning dar.

Praktische Relevanz: Da SDE keine Zugriffsrechte auf das ursprüngliche Training oder zusätzliche Rechenressourcen für Retraining benötigt, ist es für Audits in der Praxis (z. B. zur Einhaltung der DSGVO) hervorragend geeignet.
Kritische Einsicht: Die Studie zeigt, dass viele bestehende Unlearning-Methoden, die auf herkömmlichen Metriken als erfolgreich gelten, tatsächlich versagen, wenn man die statistische Unabhängigkeit der Daten betrachtet.
Zukunftsperspektive: SDE bietet eine solide, theoretisch fundierte Basis für die Zertifizierung von Unlearning-Prozessen und unterstreicht die Notwendigkeit, Evaluierungsmetriken von reinen Leistungsmaßen hin zu statistischen Unabhängigkeitsprüfungen zu verschieben.

Zusammenfassend bietet SDE einen einfachen, eigenständigen und robusten Weg, um zu verifizieren, ob ein Modell tatsächlich „vergessen" hat, ohne dabei auf aufwendige Vergleichsexperimente angewiesen zu sein.

Unlearning Evaluation through Subset Statistical Independence

Das alte, umständliche Problem

Die neue Idee: Der „Zwillings-Test" (SDE)

Warum ist das genial?

Was haben sie herausgefunden?

Fazit

Titel: Unlearning Evaluation durch statistische Unabhängigkeit von Teilmengen

1. Problemstellung

2. Methodik: Split-half Dependence Evaluation (SDE)

Kernidee

Der Algorithmus

Theoretische Begründung

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank