Go Beyond Your Means: Unlearning with Per-Sample Gradient Orthogonalization

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschungspapier „GO BEYOND YOUR MEANS" (Geh über deine Mittel hinaus) auf Deutsch, verpackt in anschauliche Bilder und Metaphern.

Das große Problem: Der KI-Gedächtnisverlust

Stell dir vor, du hast einen genialen Koch (die KI), der Millionen von Rezepten gelernt hat. Eines Tages kommt ein Kunde und sagt: „Hör zu, dieses eine spezielle Rezept, das du von mir gelernt hast, willst du bitte komplett vergessen. Es ist mein geheimer Familienrezept, und ich möchte nicht, dass es jemals wieder auftaucht."

Das Problem ist: Der Koch hat das Rezept nicht in einem separaten Notizbuch, sondern es ist tief in seinem ganzen Gedächtnis mit tausenden anderen Rezepten verwoben. Wenn er versucht, das eine Rezept zu löschen, riskiert er, auch andere gute Rezepte zu verwischen oder zu vergessen, wie man überhaupt kocht.

Bisherige Methoden waren wie ein wildes Hin-und-Her-Schieben:

Der Koch versucht, das alte Rezept zu „verdrängen" (er schreit es laut aus, damit es nicht mehr passt).
Gleichzeitig versucht er, sich die anderen Rezepte zu merken (er liest sie laut vor).

Das Problem dabei: Wenn der Koch nur eine winzige Auswahl an anderen Rezepten hat (weil er den ursprünglichen riesigen Notizbuch nicht mehr besitzt), wird er beim Versuch, das eine zu löschen, oft versehentlich auch die wenigen anderen Rezepte kaputt machen. Er gerät in einen Konflikt: „Ich muss das eine vergessen, aber ich darf das andere nicht vergessen!"

Die Lösung: OrthoGrad – Der „Nicht-Interferenz"-Trick

Die Autoren dieses Papiers haben eine clevere neue Methode namens OrthoGrad entwickelt. Statt den Koch zu zwingen, zwei gegensätzliche Dinge gleichzeitig zu tun, nutzen sie einen geometrischen Trick.

Stell dir vor, die „anderen Rezepte" (die Daten, die er behalten soll) bilden einen Schutzraum oder eine Sicherheitszone.

Die alte Methode: Der Koch läuft in alle Richtungen. Wenn er versucht, das alte Rezept zu löschen, läuft er oft direkt durch den Schutzraum der anderen Rezepte und zerstört sie dabei.
Die neue Methode (OrthoGrad): Bevor der Koch einen Schritt macht, um das alte Rezept zu löschen, schaut er sich den Schutzraum genau an. Er berechnet eine Richtung, die perfekt senkrecht (orthogonal) zu allen anderen Rezepten steht.

Die Metapher:
Stell dir vor, du stehst in einem Raum voller Menschen (die Daten, die du behalten willst). Du willst einen Ball werfen (das Löschen des alten Rezepts), aber du darfst niemanden treffen.

Die alten Methoden versuchen, den Ball so zu werfen, dass er die Leute nicht trifft, indem er sie umarmt oder drückt (ein Kompromiss).
OrthoGrad berechnet genau, in welche Richtung du werfen musst, damit der Ball zwischen den Beinen der Menschen hindurchfliegt, ohne sie auch nur zu berühren. Es ist eine Bewegung, die für die anderen Menschen völlig unsichtbar ist, aber das Ziel trotzdem erreicht.

Warum ist das so besonders?

Das Besondere an dieser Methode ist, dass sie nicht nur auf den „Durchschnitt" der anderen Rezepte schaut.

Früher: Man hat gesagt: „Der Koch soll sich an den Durchschnitt aller anderen Rezepte erinnern." Das ist wie ein unscharfes Foto. Wenn der Koch nur wenige Rezepte hat, ist dieses unscharfe Foto sehr fehleranfällig.
Jetzt (OrthoGrad): Der Koch schaut sich jedes einzelne Rezept an. Er berechnet für jedes einzelne Rezept eine kleine Sicherheitslinie. Dann findet er eine Richtung, die zu allen diesen Linien gleichzeitig senkrecht ist.

Das ist wie ein Tanz: Der Koch bewegt sich so, dass er mit jedem einzelnen Tänzer im Raum eine perfekte, nicht-kollidierende Bewegung macht. Selbst wenn er nur wenige Tänzer hat, findet er einen Weg, sich zu bewegen, ohne sie zu stören.

Was bringt das in der echten Welt?

Die Forscher haben das an zwei großen Aufgaben getestet:

Spracherkennung (wie Siri oder Alexa): Stell dir vor, eine KI soll vergessen, wie eine bestimmte Person klingt (wegen Datenschutz), aber trotzdem weiterhin andere Stimmen verstehen. Mit OrthoGrad konnte die KI die Stimme der Person effektiv „löschen", ohne ihre Fähigkeit, andere Stimmen zu verstehen, zu ruinieren.
Bilderkennung: Wenn eine KI lernen soll, ein bestimmtes Bild oder eine ganze Kategorie von Bildern zu vergessen (z. B. wegen Urheberrecht), funktioniert OrthoGrad auch hier besser als alle anderen Methoden, besonders wenn nur wenige Beispiele zum „Behalten" verfügbar sind.

Zusammenfassung in einem Satz

OrthoGrad ist wie ein geschickter Tänzer, der lernt, einen Schritt zu machen, der so präzise ist, dass er genau zwischen den Beinen aller anderen Tänzer hindurchgleitet – er löscht das, was er vergessen soll, ohne auch nur einen einzigen der anderen zu berühren oder zu stören, selbst wenn nur wenige andere Tänzer im Raum sind.

Das macht KI-Modelle sicherer und flexibler, besonders in Situationen, in denen wir nicht den ganzen ursprünglichen Trainingsdatensatz mehr besitzen, sondern nur ein kleines Stück davon.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „GO BEYOND YOUR MEANS: UNLEARNING WITH PER-SAMPLE GRADIENT ORTHOGONALIZATION" (OrthoGrad) auf Deutsch:

1. Problemstellung

Maschinelles Vergessen (Machine Unlearning) zielt darauf ab, den Einfluss problematischer Trainingsdaten (z. B. urheberrechtlich geschützter, privater oder illegaler Inhalte) nach dem Training eines Modells zu entfernen, ohne die allgemeine Leistungsfähigkeit des Modells auf den verbleibenden Daten zu beeinträchtigen.

Das Hauptproblem, das dieses Paper adressiert, ist die Begrenzung der verfügbaren Retain-Daten (Daten, die behalten werden sollen). In der Praxis werden Foundation-Modelle oft ohne Zugriff auf den vollständigen ursprünglichen Trainingsdatensatz veröffentlicht. Wenn ein Nutzer beispielsweise eine „Opt-out"-Anfrage stellt (z. B. bei Spracherkennung), steht dem Entwickler oft nur ein sehr kleiner Teil der ursprünglichen Daten oder ein Proxy-Datensatz zur Verfügung, um die Modellleistung zu erhalten.

Bestehende Methoden versuchen dies oft durch einen Kompromiss zwischen Gradienten-Aszendent (um die zu vergessenden Daten zu „löschen") und Gradienten-Deszendent (um die Retain-Daten zu erhalten) zu lösen. Diese Ansätze basieren jedoch häufig auf dem Durchschnitt der Gradienten über den Retain-Satz. Bei kleinen Retain-Sätzen führt dies zu Instabilität und unzureichendem Schutz der verbleibenden Leistung, da die Mittelung wichtige per-Sample-Informationen verwässert.

2. Methodik: OrthoGrad

Die Autoren schlagen OrthoGrad vor, einen neuen Algorithmus, der das Problem der Interferenz zwischen den zu vergessenden und den zu behaltenden Daten durch per-Sample-Gradienten-Orthogonalisierung löst.

Kernidee:
Statt die Gradienten der zu vergessenden Daten ( $g_u$ ) einfach gegen den durchschnittlichen Gradienten der Retain-Daten zu balancieren, projiziert OrthoGrad den Gradienten der zu vergessenden Daten auf den Unterraum, der orthogonal zu den Gradienten aller einzelnen Samples im Retain-Batch ist.

Technischer Ablauf:

Per-Sample-Gradienten: Für einen Batch der Retain-Daten ( $D_r$ ) werden die Gradienten für jedes einzelne Sample berechnet ( $g^1_r, g^2_r, \dots, g^k_r$ ).
Unterraum-Erkennung: Diese Gradienten spannen einen Unterraum auf. Mittels QR-Zerlegung wird eine orthonormale Basis ( $Q$ ) dieses Unterraums extrahiert.
Projektion: Der Gradient der zu vergessenden Daten ( $g_u$ ) wird auf diesen Unterraum projiziert. Der orthogonale Anteil ( $g^\perp_u$ ) wird berechnet, indem die Projektion von $g_u$ auf die Basisvektoren subtrahiert wird:
$g^\perp_u = g_u - \sum_{i=1}^k \langle g_u, q^i_r \rangle q^i_r$
Dies stellt sicher, dass die Aktualisierung des Modells keine Komponente hat, die die Verlustfunktion der Retain-Daten verändert (unter den vereinfachenden Annahmen des Papiers).
Update-Regel: Das finale Update kombiniert den orthogonalisierten „Vergessens"-Gradienten mit dem durchschnittlichen Retain-Gradienten ( $\bar{g}_r$ ), gesteuert durch einen Hyperparameter $\alpha$ :
$g = \alpha \bar{g}_r - (1 - \alpha) g^\perp_u$
Effizienz (LoRA): Um den Rechenaufwand und den Speicherbedarf zu senken, wird OrthoGrad in Kombination mit LoRA (Low-Rank Adaptation) implementiert. Anstatt alle Gewichte zu aktualisieren, werden nur die LoRA-Adapter trainiert. Dies reduziert die Anzahl der Parameter drastisch und beschleunigt die QR-Zerlegung.

3. Theoretische Motivation

Das Paper leitet die Methode theoretisch her, indem es Unlearning als Optimierungsproblem auf einer Mannigfaltigkeit betrachtet, auf der der Verlust über die Retain-Daten konstant bleibt.

Der Tangentialraum dieser Mannigfaltigkeit entspricht dem Nullraum der Jacobi-Matrix der Retain-Gradienten.
Die Projektion des Unlearning-Gradienten auf diesen Tangentialraum (orthogonal zu den Retain-Gradienten) ist der ideale Schritt, um den Verlust auf den Retain-Daten nicht zu verändern.
OrthoGrad approximiert diesen idealen Pfad effizient durch die per-Sample-Orthogonalisierung.

4. Wichtige Beiträge

Neuer Algorithmus: Einführung von OrthoGrad, speziell für Szenarien mit begrenzten Retain-Daten optimiert.
Theoretische Begründung: Eine geometrische Herleitung, die zeigt, dass die Orthogonalisierung zu den per-Sample-Gradienten (statt zum Durchschnitt) notwendig ist, um die Interferenz effektiv zu minimieren.
Umfassende Evaluation: Validierung über verschiedene Modalitäten (Bildklassifizierung, automatische Spracherkennung) und Szenarien (zufälliges Entfernen, Klassen-spezifisches Vergessen, Proxy-Retain-Sets).

5. Ergebnisse

Die Autoren evaluierten OrthoGrad auf mehreren Benchmarks und verglichen es mit State-of-the-Art-Methoden wie NegGrad+, SCRUB, GDR-GMA, DUCK und SCAR.

Automatische Spracherkennung (ASR):
- Setup: Vergessen eines bestimmten Sprechers im Whisper-Modell mit LibriSpeech-Daten.
- Ergebnis: OrthoGrad erreichte die niedrigste Wortfehlerrate (WER) auf dem Testset (13,98 %), während es den Sprecher effektiv vergaß (WER auf dem zu vergessenden Sprecher > 96 %). Methoden wie NegGrad+ und SCRUB zeigten hier eine schlechte Generalisierung oder katastrophales Vergessen.
Bildklassifizierung (ImageNet & CIFAR-10):
- Setup: Zufälliges Entfernen von Daten und Entfernen ganzer Klassen.
- Ergebnis: OrthoGrad erzielte konsistent die besten Werte im Unlearning Impact Score (UIS), was bedeutet, dass es das Vergessen effektiv durchführte, ohne die Genauigkeit auf dem Testset zu stark zu beeinträchtigen.
- Robustheit: Die Methode war robust gegenüber der Größe des Retain-Sets (von 1K bis 200K Samples) und funktionierte auch in „Proxy-Retain"-Szenarien, wo die Retain-Daten aus einer anderen Verteilung stammen (z. B. ImageNet-basierte Daten für CIFAR-10-Modelle).
Vergleich mit Baselines:
- Methoden, die auf Durchschnittsgradienten basieren (wie GDR-GMA), waren weniger stabil.
- Methoden, die keine Retain-Daten nutzen (wie NegGrad), führten oft zu einem Verlust der allgemeinen Leistung.
- OrthoGrad übertraf alle Baselines, insbesondere in Szenarien mit sehr kleinen Retain-Sets.

6. Bedeutung und Fazit

Die Arbeit zeigt, dass der Zugang zum vollständigen Trainingsdatensatz für effektives maschinelles Vergessen nicht zwingend erforderlich ist. Durch die Nutzung der per-Sample-Gradienten-Orthogonalisierung kann OrthoGrad auch mit sehr kleinen oder verteilten Retain-Sets (Proxy-Daten) eine hohe Leistung beibehalten.

Dies ist von großer praktischer Bedeutung für die Einhaltung von Datenschutzbestimmungen (wie der DSGVO „Recht auf Vergessenwerden") bei großen Foundation-Modellen, bei denen die ursprünglichen Trainingsdaten oft nicht mehr verfügbar oder urheberrechtlich geschützt sind. Die Kombination mit LoRA macht den Ansatz zudem rechnerisch effizient und für große Modelle skalierbar.

Zusammenfassend bietet OrthoGrad einen robusten, theoretisch fundierten und praktisch anwendbaren Ansatz, um das Dilemma zwischen effektivem Vergessen und Leistungserhalt in datenarmen Umgebungen zu lösen.

Go Beyond Your Means: Unlearning with Per-Sample Gradient Orthogonalization

Das große Problem: Der KI-Gedächtnisverlust

Die Lösung: OrthoGrad – Der „Nicht-Interferenz"-Trick

Warum ist das so besonders?

Was bringt das in der echten Welt?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: OrthoGrad

3. Theoretische Motivation

4. Wichtige Beiträge

5. Ergebnisse

6. Bedeutung und Fazit

Mehr davon

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers