Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning

Each language version is independently generated for its own context, not a direct translation.

🧠 Das große Vergessen: Warum KI-Modelle oft nur „tun, als würden sie vergessen"

Stell dir vor, du hast einen sehr klugen Assistenten (eine Künstliche Intelligenz), der alles über die Welt gelernt hat. Aber plötzlich möchtest du, dass er eine bestimmte Information vergisst – vielleicht weil sie privat ist oder urheberrechtlich geschützt.

Das Problem, das dieses Papier untersucht, ist wie folgt: Die meisten Methoden, die wir heute nutzen, um KI „Vergessen" zu lehren, funktionieren nur oberflächlich. Sie unterdrücken die Information, löschen sie aber nicht wirklich.

Hier ist die Geschichte, wie die Forscher das herausgefunden haben:

1. Das Problem: Der „Versteckte Tresor"

Bisher haben wir geprüft, ob eine KI etwas vergessen hat, indem wir sie gefragt haben: „Was ist das für ein Bild?"

Wenn die KI auf ein Foto eines Vogels nicht mehr „Vogel" sagt, sondern „Auto", dachten wir: „Super! Sie hat den Vogel vergessen!"

Aber die Forscher sagen: Das ist wie ein Trick.
Stell dir vor, du hast einen Tresor in deinem Haus (das ist das innere Gehirn der KI). Du hast das Schloss am Tresor zugeklebt (das ist die Ausgabe der KI). Von außen sieht es so aus, als wäre der Tresor leer. Aber im Inneren ist der Schatz immer noch da! Die KI hat die Information nur an der „Ausgabe" unterdrückt, aber im Inneren (in den mittleren Schichten des Gehirns) ist sie noch perfekt gespeichert.

2. Die neue Methode: Der „Röntgenblick"

Die Forscher haben eine neue Technik entwickelt, um diesen inneren Tresor zu sehen. Sie nennen es „Restaurierungs-Analyse".

Stell dir vor, die KI ist wie ein Gebäude mit vielen Etagen:

Unten: Das Fundament (einfache Linien und Farben).
Mitte: Die Wohnzimmer (hier werden die echten Bedeutungen gespeichert, z. B. „Das ist ein Vogel").
Oben: Die Dachterrasse (hier wird die Entscheidung getroffen: „Vogel" oder „Auto").

Die meisten alten Methoden haben nur die Dachterrasse umgebaut. Die Forscher nutzen nun eine Art „Röntgenbrille" (Sparse Autoencoder), um direkt in die Wohnzimmer (mittlere Etagen) zu schauen.

Der Test:

Sie nehmen eine KI, die supposedly den Vogel „vergessen" hat.
Sie schalten die Röntgenbrille ein und finden die spezifischen Neuronen, die für „Vogel" zuständig sind.
Sie „schalten" diese Neuronen wieder aktiv (sie steuern die KI).
Das Ergebnis: Plötzlich sagt die KI wieder „Vogel"!

Das bedeutet: Die Information war nie weg! Sie wurde nur unterdrückt. Die KI hat den Vogel nur versteckt, nicht gelöscht.

3. Die schockierenden Ergebnisse

Die Forscher haben 12 verschiedene Methoden getestet, um KIs etwas vergessen zu lassen. Das Ergebnis war ernüchternd:

Fast alle Methoden (wie „Finetuning" oder „Re-Training") haben nur unterdrückt. Wenn man sie mit der Röntgenbrille prüft, kommt die Information sofort wieder zurück.
Selbst das „Neulernen" von Grund auf (Retrain) half nicht immer! Warum? Weil die KI ihr Wissen über Vögel schon beim ersten Mal (beim Vor-Training) tief in ihr Gehirn eingebrannt hat. Selbst wenn man sie neu trainiert, bleiben diese tiefen Spuren erhalten.
Nur sehr wenige Methoden (wie „EU-K", die ganze Schichten zurücksetzen) haben wirklich gelöscht. Das ist wie ein Abriss des Hauses und Neubau – das ist teuer und aufwendig, aber es funktioniert.

4. Was bedeutet das für uns? (Die Lehre)

Stell dir vor, du verkaufst ein Haus, in dem du geheime Briefe versteckt hast.

Die alten Methoden: Du malst die Briefe schwarz an. Von außen sieht man sie nicht. Aber wenn jemand mit einer UV-Lampe (unserer Röntgenbrille) leuchtet, sind die Briefe noch da.
Die neue Erkenntnis: Wir müssen nicht nur die Briefe schwarz anmalen, wir müssen sie vernichten.

Die wichtigsten Tipps der Forscher für die Zukunft:

Nicht nur auf das Ergebnis schauen: Wenn eine KI auf einer Testfrage falsch liegt, heißt das nicht, dass sie das Wissen gelöscht hat.
In die Tiefe gehen: Man muss prüfen, ob das Wissen in den „Wohnzimmern" (mittlere Schichten) noch existiert.
Radikale Maßnahmen: Um wirklich zu löschen, muss man tief in die Struktur der KI eingreifen, nicht nur die Oberfläche verändern.

Fazit

Dieses Papier warnt uns: Viele KI-Modelle, die wir als „sicher" und „vergessend" betrachten, sind es gar nicht. Sie spielen nur das Vergessen. Für den Datenschutz ist das gefährlich, denn wenn diese Modelle wieder geteilt werden, können die „versteckten" Geheimnisse wieder aufgedeckt werden. Wir brauchen neue Tests, die tief ins Gehirn der KI schauen, bevor wir ihnen vertrauen.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Mit der zunehmenden Verbreitung vortrainierter Modelle (z. B. über Hugging Face) wächst die Notwendigkeit, sensible, urheberrechtlich geschützte oder private Informationen auf Anfrage aus diesen Modellen zu entfernen („Machine Unlearning" oder MU). Bisherige Evaluierungsmethoden für Unlearning-Verfahren stützen sich fast ausschließlich auf output-basierte Metriken (z. B. Genauigkeit auf dem „Forget Set" oder Ergebnisse von Membership Inference Attacks).

Das zentrale Problem besteht darin, dass diese Metriken nicht verifizieren können, ob die Informationen tatsächlich aus den inneren Repräsentationen des Modells gelöscht wurden oder lediglich auf der Entscheidungsebene unterdrückt (supprimiert) wurden. Wenn die semantischen Merkmale in den Zwischenschichten des neuronalen Netzwerks erhalten bleiben, besteht das Risiko, dass die Informationen durch geeignete Eingriffe wiederhergestellt werden können, was bei Datenschutzanforderungen (wie der DSGVO) unzureichend ist.

Methodik: Das „Suppression or Deletion"-Framework

Die Autoren schlagen ein neues, wiederherstellungsbasiertes Analyseframework vor, um zwischen echter Löschung (Deletion) und bloßer Unterdrückung (Suppression) zu unterscheiden. Das Framework nutzt Sparse Autoencoder (SAEs) und Inference-Time Steering.

Der Prozess gliedert sich in zwei Hauptphasen:

Feature Selection (Merkmalsauswahl):
- Es werden Sparse Autoencoder auf den Aktivierungen der mittleren Schichten (Semantic Bottlenecks) des Modells trainiert.
- Ziel ist die Identifizierung von „Experten-Features" (class-specific expert features), die spezifisch für die zu vergessende Klasse sind.
- Diese Features werden durch Berechnung der F1-Scores (Präzision und Recall) für jede Klasse gefiltert und ausgewählt.
- Um Verschiebungen der Feature-Indizes nach dem Unlearning zu kompensieren, werden die Features des Originalmodells und des ungelöschten Modells mittels des Hungarian-Algorithmus abgeglichen.
Selective Restoration (Selektive Wiederherstellung):
- Für eine Zielschicht $\ell$ werden die Aktivierungen des Originalmodells ( $h_{orig}$ ) und des ungelöschten Modells ( $h_{unl}$ ) extrahiert.
- Die Experten-Features des Originalmodells werden in die Repräsentation des ungelöschten Modells „gesteuert" (ge-steered). Dies geschieht durch Ersetzen der ungelöschten Feature-Werte mit einem gewichteten Originalwert:
  $\hat{h}[j] = h_{unl}[j] + \alpha (h_{orig}[j] - h_{unl}[j])$
  wobei $\alpha$ ein Steuerungskoeffizient ist.
- Die so modifizierte Repräsentation wird durch den Decoder des SAE und die verbleibenden Schichten des Modells propagiert.
- Interpretation: Wenn die Genauigkeit auf dem „Forget Set" nach diesem Eingriff signifikant steigt, bedeutet dies, dass die Information im Modell noch vorhanden, aber nur unterdrückt war (Suppression). Bleibt die Genauigkeit niedrig, wurde die Information tatsächlich gelöscht (Deletion).

Experimente und Ergebnisse

Die Autoren wandten dieses Framework auf 12 gängige Unlearning-Methoden (einschließlich Finetuning, AdvNegGrad, SCRUB, SalUn, EU-K, SSD, etc.) in Bildklassifizierungsaufgaben (CIFAR-10 und ImageNette) an, basierend auf einem ViT-B/16-Modell.

Wichtige Erkenntnisse:

Dominanz der Unterdrückung: Die meisten approximativen Unlearning-Methoden (z. B. AdvNegGrad, SCRUB, RandomLabel, Finetune) erreichen zwar eine sehr niedrige Genauigkeit auf dem Forget Set (oft 0 %), zeigen aber nach der Wiederherstellung eine extrem hohe Genauigkeit (oft >80–100 %). Dies beweist, dass sie die semantischen Merkmale in den Zwischenschichten nicht löschen, sondern nur die Ausgabe manipulieren.
Re-Training ist nicht ausreichend: Selbst das vollständige Neutrainieren des Modells auf den verbleibenden Daten („Retrain") zeigt hohe Wiederherstellungsraten. Dies deutet darauf hin, dass robuste semantische Merkmale, die während des Pre-Trainings gelernt wurden, durch einfaches Neutrainieren nicht entfernt werden.
Schichtabhängigkeit: Der Ort der „semantischen Engpässe" (Semantic Bottlenecks), in denen die Klasseninformation konzentriert ist, variiert je nach Komplexität des Datensatzes (mittlere Schichten bei CIFAR-10, tiefere Schichten bei ImageNette).
Erfolgreiche Löschung: Nur Methoden, die strukturelle Eingriffe in die Parameter der Zwischenschichten vornehmen (z. B. EU-K durch Schicht-Reset oder Bad-T/SSD durch gezieltes Dämpfen der Gewichte), erreichen eine echte Löschung mit niedrigen Wiederherstellungsraten.

Beiträge

Neues Analyseframework: Einführung eines SAE-basierten Frameworks zur quantitativen Unterscheidung zwischen Unterdrückung und Löschung auf Repräsentationsebene.
Empirische Evidenz: Nachweis, dass die Mehrheit der aktuellen Unlearning-Methoden nur eine Oberflächensuppression leisten und die zugrundeliegenden semantischen Merkmale intakt lassen.
Richtlinien für die Zukunft: Formulierung neuer Design- und Evaluierungsrichtlinien, die eine schichtbewusste Modifikation und Repräsentationsverifikation fordern.

Bedeutung und Implikationen

Die Arbeit zeigt auf, dass die aktuellen Evaluierungsstandards für Machine Unlearning irreführend sind. Ein Modell, das auf Basis von Output-Metriken als „gesäubert" gilt, kann im Inneren weiterhin sensible Informationen tragen, die durch einfache Manipulationen wieder aktiviert werden können.

Dies stellt ein erhebliches Sicherheits- und Datenschutzrisiko dar, insbesondere in einer Ära, in der vortrainierte Modelle häufig geteilt und weiterverwendet werden. Die Autoren fordern, dass zukünftige Unlearning-Methoden:

Schichtbewusst sein müssen (Targeting der semantischen Engpässe).
Strukturelle Änderungen an den inneren Repräsentationen vornehmen müssen, nicht nur an der Loss-Funktion oder Ausgabe.
Repräsentationslevel-Verifizierung als Teil der Evaluierung integrieren müssen, um echte Löschung zu garantieren.

Zusammenfassend verschiebt diese Arbeit den Fokus von der Beobachtung des Modellausgangs hin zur mechanistischen Überprüfung der inneren Netzwerkzustände, um echte Privatsphäre-Garantien zu gewährleisten.

Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning

🧠 Das große Vergessen: Warum KI-Modelle oft nur „tun, als würden sie vergessen"

1. Das Problem: Der „Versteckte Tresor"

2. Die neue Methode: Der „Röntgenblick"

3. Die schockierenden Ergebnisse

4. Was bedeutet das für uns? (Die Lehre)

Fazit

Problemstellung

Methodik: Das „Suppression or Deletion"-Framework

Experimente und Ergebnisse

Beiträge

Bedeutung und Implikationen

Mehr davon

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation