Sharpness-Aware Machine Unlearning

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen, super-intelligenten Koch (das ist dein KI-Modell), der Millionen von Rezepten gelernt hat. Jetzt passiert etwas: Ein Kunde ruft an und sagt: „Hör zu, ich habe ein Rezept in deinem Buch gesehen, das ich nicht mag. Bitte vergiss es sofort!"

Das Problem ist: Wenn der Koch das Rezept einfach aus dem Buch reißt, könnte er dabei versehentlich auch andere, wichtige Rezepte beschädigen oder den Geschmack der ganzen Küche verderben. Das nennt man „Machine Unlearning" (Maschinelles Vergessen).

Dieser neue Forschungsartikel von ICLR 2026 untersucht, wie man diesen Koch am besten dazu bringt, ein Rezept zu vergessen, ohne den Rest der Küche zu ruinieren. Hier ist die einfache Erklärung, was sie herausgefunden haben:

1. Das Problem: Der „Vergessens-Konflikt"

Normalerweise lernt ein Koch, indem er neue Gerichte probiert und sich verbessert. Beim „Vergessen" muss er aber zwei Dinge gleichzeitig tun:

Behalten: Die guten Rezepte weiter perfektionieren.
Vergessen: Das eine schlechte Rezept aktiv löschen.

Das ist wie wenn du versuchst, eine Melodie zu pfeifen, während jemand dir gleichzeitig sagt: „Pfeif nicht diese Note!" Dein Gehirn (oder der Algorithmus) gerät in Konflikt. Die Signale für „Behalten" und „Vergessen" prallen aufeinander und löschen sich oft gegenseitig aus.

2. Die alte Methode vs. Die neue Entdeckung (SAM)

Bisher nutzten Forscher oft einen Standard-Algorithmus namens SGD. Das ist wie ein Koch, der einfach alles probiert, was ihm in den Sinn kommt.
Die Forscher haben jedoch einen clevereren Koch namens SAM (Sharpness-Aware Minimization) getestet.

Was SAM normalerweise macht: SAM ist wie ein Koch, der sehr vorsichtig ist. Er sucht nach dem „flachsten" Punkt im Gelände, um sicherzustellen, dass sein Essen immer gut schmeckt, egal ob er ein wenig Salz mehr oder weniger nimmt. Er lernt nicht auswendig (memorisiert) zufällige Fehler oder verrückte Zutaten. Das macht ihn sehr gut im Generalisieren.
Die Überraschung: Die Forscher dachten, SAM wäre auch super beim Vergessen, weil er so vorsichtig ist. Aber sie stellten fest: SAM verhält sich beim Vergessen anders. Wenn er gezwungen wird, ein bestimmtes Rezept zu vergessen, gibt er seine Vorsicht auf und lernt dieses eine Rezept fast so intensiv auswendig wie der normale Koch (SGD), nur um es dann gezielt zu löschen.

3. Die geniale Lösung: „Sharp MinMax" (Der geteilte Koch)

Da sie merkten, dass SAM beim Behalten super ist, aber beim gezielten Löschen anders funktionieren muss, haben sie eine neue Methode namens Sharp MinMax erfunden.

Stell dir vor, du teilst den Koch in zwei Hälften auf:

Teil A (Der Behalter): Dieser Teil des Kochs nutzt die vorsichtige SAM-Methode, um die guten Rezepte perfekt zu behalten. Er bleibt stabil und lernt nicht auswendig.
Teil B (Der Vergesser): Dieser Teil des Kochs macht genau das Gegenteil! Er wird absichtlich „scharf" gemacht. Er wird angewiesen, das zu vergessende Rezept so extrem auswendig zu lernen, dass er es danach wie einen Fremdkörper ausspucken kann.

Die Metapher:
Stell dir vor, du willst einen Fleck von deinem Teppich entfernen.

Die alte Methode war, den ganzen Teppich nass zu machen und zu reiben (schädigt den ganzen Teppich).
Die neue Methode (Sharp MinMax) ist, einen speziellen, extrem starken Fleckentferner nur auf den Fleck zu sprühen (der Fleck wird „überfokussiert" und dann weggespült), während du den Rest des Teppichs trocken und sauber hältst.

4. Warum ist das wichtig?

Privatsphäre: Wenn du deine Daten aus einer KI löschen willst (z. B. wegen Datenschutzgesetzen), muss die KI diese Daten wirklich „vergessen", nicht nur ignorieren.
Effizienz: Statt die KI komplett neu zu trainieren (was Jahre dauern und riesige Stromkosten verursachen würde), kann man mit dieser Methode gezielt Teile löschen.
Sicherheit: Die Tests zeigten, dass KIs mit dieser Methode viel schwerer zu manipulieren sind. Hacker können nicht so leicht herausfinden, ob ein bestimmtes Bild in der KI war oder nicht.

Zusammenfassung in einem Satz

Die Forscher haben entdeckt, dass man beim Löschen von Daten aus einer KI nicht einfach „vorsichtig" sein muss; man muss stattdessen einen Teil des Systems absichtlich „überfokussieren" (überanpassen), um das Ziel zu löschen, während der andere Teil extrem stabil bleibt, um den Rest der Welt zu verstehen. Das Ergebnis ist eine KI, die Dinge wirklich vergisst, ohne dabei ihre Intelligenz zu verlieren.

Each language version is independently generated for its own context, not a direct translation.

Titel: Sharpness-Aware Machine Unlearning

Veröffentlicht bei: ICLR 2026
Autoren: Haoran Tang und Rajiv Khanna (Purdue University)

1. Problemstellung

Maschinelles Unlearning (das gezielte Vergessen spezifischer Trainingsdaten ohne komplettes Neutraining) ist eine kritische Anforderung für Datenschutz und Urheberrecht. Bestehende Methoden stoßen jedoch auf fundamentale Herausforderungen:

Signal-Rauschen-Konflikt: Beim Unlearning müssen Modelle gleichzeitig Signale aus dem „Behaltens-Datensatz" (Retain Set, $R$ ) lernen und Signale aus dem „Vergessens-Datensatz" (Forget Set, $F$ ) löschen. Diese widersprüchlichen Signale können sich während des Trainings gegenseitig aufheben oder stören.
Überanpassung vs. Generalisierung: Herkömmliche Optimierer wie SGD (Stochastic Gradient Descent) neigen dazu, das „Vergessen" durch Überanpassung an das Rauschen (die zu vergessenden Daten) zu erreichen, was jedoch die Generalisierungsfähigkeit auf den verbleibenden Daten verschlechtern kann.
Fehlende theoretische Grundlage: Es gibt wenig Verständnis dafür, wie Optimierungsalgorithmen die Dynamik des Unlearning beeinflussen und warum einige Proben schwerer zu vergessen sind als andere (basierend auf ihrem Memorierungsgrad).

2. Methodik und Theoretischer Rahmen

Die Autoren untersuchen die Wirksamkeit von Sharpness-Aware Minimization (SAM) im Kontext des Unlearning. SAM ist ein Optimierungsansatz, der typischerweise flache Minima im Loss-Landscape sucht, um die Generalisierung zu verbessern und das Auswendiglernen von Rauschen zu verhindern.

Kernanalyse:

Signal-Rauschen-Zerlegung: Die Autoren modellieren das Problem unter Verwendung einer Zwei-Schichten-CNN-Architektur, bei der Eingabebilder aus einem Signalvektor ( $\phi$ ) und Rauschvektoren ( $\xi$ ) bestehen.
Verhalten von SAM unter NegGrad: Sie analysieren SAM in Kombination mit NegGrad (Negative Gradient), einer gängigen Unlearning-Methode, die Gradientenabstieg auf $R$ $R$ und Gradientenanstieg auf $F$ $F$ nutzt.
- Erkenntnis: Während SAM normalerweise Rauschen unterdrückt, schaltet es diesen Denoising-Mechanismus für das Forget-Set ab, wenn es gezwungen wird, diese Daten durch Gradientenanstieg zu „vergessen". SAM passt sich dem Forget-Set fast genauso stark an wie SGD, behält aber seine Denoising-Eigenschaften für das Retain-Set bei.
Signal-Überschuss (Signal Surplus): Die Theorie zeigt, dass SAM Signale effizienter lernt als SGD. Dies ermöglicht es SAM, mit einem deutlich geringeren Gewichtungsfaktor $\alpha$ (für das Retain-Set) auszukommen, um eine katastrophale Vergesslichkeit zu vermeiden. Der Unterschied im erforderlichen $\alpha$ skaliert mit $O(\sqrt{d/n})$ .

Neuer Algorithmus: Sharp MinMax
Motiviert durch die Beobachtung, dass kontrolliertes Überanpassen (Overfitting) für das vollständige Entfernen spezifischer Proben vorteilhaft sein kann, schlagen die Autoren Sharp MinMax vor:

Zerlegung des Modells: Das Modell wird in zwei kooperative Teile aufgeteilt:
1. Retain-Modell ( $W_R$ ): Wird mit SAM auf den Behaltensdaten trainiert, um flache Minima und starke Generalisierung zu gewährleisten.
2. Forget-Modell ( $W_F$ ): Wird mit Sharpness Maximization (das Gegenteil von SAM) auf den Vergessensdaten trainiert. Dies führt zu einem steilen Loss-Landscape und bewusstem Überanpassen an die zu vergessenden Daten, um deren Einfluss maximal zu eliminieren.
Gewichtsmaskierung: Die Parameter werden basierend auf der Gradientenstärke maskiert, um die beiden Teile zu trennen.

3. Schlüsselbeiträge

Theoretischer Rahmen: Eine rigorose Analyse des Zusammenspiels von Retain- und Forget-Signalen unter SAM. Es wird bewiesen, dass SAMs Denoising-Vorteil für das Forget-Set „abschaltet", was zu einem anderen Verhalten als bei SGD führt.
Optimierung der Gewichtung: Herleitung provabler Richtlinien für den Gewichtungsfaktor $\alpha$ . SAM benötigt ein strikt kleineres $\alpha$ als SGD, um erfolgreich zu unlearnen, was bedeutet, dass es stärkere Vergessenssignale tolerieren kann, ohne die Genauigkeit auf den verbleibenden Daten zu opfern.
Neuer Algorithmus (Sharp MinMax): Ein innovativer Ansatz, der die Ziele des Behaltens und Vergessens durch getrennte Optimierungsstrategien (SAM vs. Sharpness Maximization) entkoppelt, um Interferenzen zu minimieren.
Umdenken beim Overfitting: Die Arbeit zeigt, dass gezieltes, kontrolliertes Overfitting auf spezifische Proben (im Forget-Set) vorteilhaft für das Unlearning sein kann, im Gegensatz zur allgemeinen Annahme, dass Overfitting immer schädlich ist.

4. Ergebnisse und Experimente

Die Autoren führten umfangreiche Experimente auf CIFAR-100 und ImageNet-1K mit ResNet-50 durch.

Leistung (ToW - Tug-of-War): SAM verbessert konsistent bestehende Unlearning-Methoden (NegGrad, RL, SalUn, SCRUB).
- Sharp MinMax erzielt den State-of-the-Art (SOTA) in allen Szenarien, insbesondere bei hoch memorisierten Vergessenssets ( $F_{high}$ ), wo es die Ziel-Daten vollständig löscht.
- SAM-basierte Modelle zeigen eine bessere Balance zwischen Behaltensgenauigkeit und Vergessensgenauigkeit.
Mitgliedsinferenzangriffe (MIA): Modelle, die mit SAM unlearned wurden, sind resistenter gegen Mitgliedsinferenzangriffe auf das Forget-Set (niedrigere Vorhersagegenauigkeit für MIA), was auf ein effektiveres Löschen der Daten hinweist.
Feature-Entanglement: SAM reduziert die Verschränkung (Entanglement) zwischen Behaltens- und Vergessensdaten im Feature-Raum. Visualisierungen (UMAP) zeigen, dass SAM die Klassencluster besser erhält, während SGD zu einer stärkeren Streuung der Behaltensdaten neigt.
Loss Landscape: SAM-basierte Unlearning-Verfahren führen zu flacheren Loss-Landscapes auf den Testdaten und den Behaltensdaten, was die Stabilität und Generalisierung erklärt.
Robustheit: Die Ergebnisse gelten auch für verrauschte Daten (ImageNet-C Korruptionen), verschiedene Optimierer (AdamW) und Architekturen (ViT).

5. Bedeutung und Fazit

Dieses Paper liefert einen tiefgreifenden theoretischen und empirischen Einblick in die Rolle der Loss-Landscape-Geometrie beim maschinellen Unlearning.

Es widerlegt die Annahme, dass flache Minima (durch SAM) automatisch zu schlechterem Unlearning führen, und zeigt stattdessen, wie SAM die Signal-Rauschen-Trennung verbessert.
Der vorgeschlagene Sharp MinMax-Ansatz bietet einen neuen Paradigmenwechsel: Durch die gezielte Nutzung von steilen Minima für das Vergessen und flachen Minima für das Behalten wird die Effizienz des Unlearning maximiert.
Die Arbeit legt den Grundstein für zukünftige Algorithmen, die Datenschutzanforderungen (wie das „Recht auf Vergessenwerden") effizienter und robuster erfüllen können, insbesondere in Szenarien mit strengen Compliance-Vorgaben.

Der Code ist öffentlich verfügbar, um die Reproduzierbarkeit und Weiterentwicklung zu fördern.

Sharpness-Aware Machine Unlearning

1. Das Problem: Der „Vergessens-Konflikt"

2. Die alte Methode vs. Die neue Entdeckung (SAM)

3. Die geniale Lösung: „Sharp MinMax" (Der geteilte Koch)

4. Warum ist das wichtig?

Zusammenfassung in einem Satz

Titel: Sharpness-Aware Machine Unlearning

1. Problemstellung

2. Methodik und Theoretischer Rahmen

3. Schlüsselbeiträge

4. Ergebnisse und Experimente

5. Bedeutung und Fazit

Mehr davon

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions