MPU: Towards Secure and Privacy-Preserving Knowledge Unlearning for Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen, super-intelligenten Roboter (ein großes Sprachmodell), der alles Mögliche weiß. Aber plötzlich möchtest du, dass er eine bestimmte Information vergisst – vielleicht ein geheimes Rezept, das einem Kunden gehört, oder eine persönliche Geschichte, die jemand nicht mehr im Internet sehen will.

Das Problem: Du als Besitzer des Roboters (der Server) darfst dem Kunden (dem Client) nicht zeigen, wie der Roboter genau funktioniert (seine inneren Parameter), weil das dein geheimer Code ist. Gleichzeitig darf der Kunde dir nicht sagen, was genau er vergessen lassen will, weil das seine privaten Daten sind.

Das ist wie ein geheimes Manöver zwischen zwei Spionen, die sich nicht trauen, ihre Geheimnisse auszutauschen, aber trotzdem eine gemeinsame Aufgabe lösen müssen.

Hier kommt MPU ins Spiel – eine clevere Methode, um dieses Dilemma zu lösen.

Die Idee: Der "Verkleidungs-Trick"

Stell dir vor, der Server schickt dem Kunden nicht den echten Roboter, sondern zwei (oder mehr) leicht verkleidete Versionen davon.

Das Verkleiden (Pre-Process):
Der Server nimmt seinen echten Roboter und verpasst ihm eine "Tarnung". Er fügt ein wenig statisches Rauschen hinzu (wie ein leichtes Flimmern auf einem alten Fernseher) und tauscht einige interne Bauteile aus (z. B. die Reihenfolge der Regale in einer Bibliothek), ohne dass sich die Funktion des Roboters ändert.
- Warum? Der Kunde sieht jetzt nur noch diese verkleideten Versionen. Er kann nicht herausfinden, wie der echte Roboter aussieht, und er kann auch nicht aus den verkleideten Versionen die privaten Daten des Kunden ableiten.
Das Vergessen (Client-Seite):
Der Kunde nimmt diese verkleideten Roboter und trainiert sie auf seiner privaten Liste von Dingen, die vergessen werden sollen. Da er nur die verkleideten Versionen hat, bleibt seine Privatsphäre gewahrt. Er berechnet, wie man den Roboter anpassen muss, um die Informationen zu löschen, und schickt nur diese Anpassungsanweisungen zurück.
Das Entwirren (Post-Process):
Jetzt passiert das Magische. Der Server empfängt die Anpassungen von den verschiedenen verkleideten Robotern.
- Da der Server genau weiß, wie er die Roboter verkleidet hat, kann er die Anpassungen wieder "entschlüsseln" (die Tarnung entfernen).
- Dann führt er einen cleveren Mittelwert durch. Stell dir vor, die Rausch-Störungen der verschiedenen Roboter sind wie Wellen im Wasser. Wenn man sie geschickt kombiniert, heben sich die Störungen gegenseitig auf (wie wenn man zwei Wellen genau gegenläufig trifft, entsteht eine glatte Wasseroberfläche).
- Das Ergebnis ist eine perfekte Anpassung, als hätte man gar kein Rauschen benutzt, aber ohne dass jemals echte Daten oder geheime Parameter ausgetauscht wurden.

Warum ist das so genial?

Kein Datenklau: Der Kunde gibt nie seine privaten Daten preis.
Kein Code-Diebstahl: Der Server gibt nie seinen exakten Modell-Code preis.
Perfekte Ergebnisse: Durch den cleveren Mittelwert-Trick (den die Autoren "harmonische Denoising" nennen) wird das Rauschen so gut herausgerechnet, dass das Ergebnis fast genauso gut ist wie wenn man alles offen gemacht hätte. In manchen Fällen ist es sogar besser, weil die verschiedenen Versionen des Roboters sich gegenseitig stabilisieren.

Ein einfaches Bild zum Schluss

Stell dir vor, du willst ein geheimes Rezept aus einem Kochbuch löschen, aber du darfst dem Koch nicht zeigen, welche Seite du löschen willst, und der Koch darf dir nicht das ganze Buch zeigen.

Der Koch kopiert das Buch und schreibt auf jede Kopie zufällige, unsinnige Notizen in den Rand (das Rauschen).
Er gibt dir eine Kopie. Du suchst das Rezept, das du löschen willst, und markierst die Seite mit einem roten Stift (die Anpassung).
Du gibst die markierte Seite zurück.
Der Koch nimmt alle markierten Seiten von allen Kopien. Da die unsinnigen Notizen auf jeder Seite anders waren, heben sie sich auf, wenn man sie zusammenrechnet. Übrig bleibt nur die klare Markierung der Seite, die gelöscht werden muss.

MPU ist genau dieser Trick: Es ermöglicht das sichere "Löschen" von Wissen in KI-Modellen, ohne dass dabei die Geheimnisse von Kunden oder Entwicklern verraten werden. Es ist wie ein diplomatischer Tanz, bei dem beide Seiten ihre Privatsphäre wahren, aber trotzdem das Ziel erreichen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert ein zentrales Dilemma beim Machine Unlearning (dem gezielten Vergessen von Daten) bei großen Sprachmodellen (LLMs) in Server-Client-Architekturen. In realen Szenarien bestehen oft strenge Datenschutzanforderungen, die eine doppelte Nicht-Offenlegung (Dual Non-Disclosure) erfordern:

Client-Seite: Der Client darf seine privaten Daten (die „Vergessensmenge" oder Forget Set) nicht an den Server senden, um die Privatsphäre zu schützen.
Server-Seite: Der Server möchte seine genauen Modellparameter nicht offenlegen, da diese proprietär sind oder Sicherheitsrisiken bergen könnten.

Bestehende Unlearning-Methoden scheitern meist an dieser Einschränkung, da sie entweder direkten Zugriff auf die Daten und das Modell erfordern oder Annahmen über die Datenverteilung treffen, die in diesem isolierten Setting nicht gültig sind.

2. Methodik: MPU Framework

Die Autoren schlagen MPU (Multiple Perturbed Copies Unlearning) vor, ein algorithmus-agnostisches Framework, das es ermöglicht, Unlearning durchzuführen, ohne dass die oben genannten Daten oder Parameter ausgetauscht werden müssen. Der Prozess läuft in drei Schritten pro Kommunikationsrunde ab:

A. Pre-Process: Erzeugung gestörter Kopien (Server-Seite)

Der Server generiert nicht das exakte Modell, sondern sendet $m \ge 2$ gestörte Kopien an den Client. Diese Kopien werden durch zwei Mechanismen verändert:

Strukturierte Rausch-Injektion: Es wird Rauschen hinzugefügt, das so konstruiert ist, dass die Summe der Rauschvektoren über alle Kopien null ergibt (Zero-Sum-Constraint). Dies schützt die Originalparameter vor Rekonstruktion.
Invertible, funktionserhaltende Reparameterisierung: Die Parameter werden durch eine invertierbare Transformation (basierend auf Symmetrien des Transformer-Modells, z. B. Permutationen von FFN-Kanälen oder Basiswechseln in Attention-Head-Räumen) verändert.
- Wichtig: Diese Transformation ändert nicht die Funktion des Modells (die Ausgabe bleibt gleich), verschleiert aber den Parameterraum für den Client.
- Die Transformation ist so gewählt, dass sie die Optimierungspfade (Gradienten) erhält, sodass der Client lokal ungestört lernen kann.

B. Client-Seite: Lokales Unlearning

Der Client empfängt die gestörten, reparametrisierten Modelle. Da die Transformation funktionserhaltend ist, führt der Client sein lokales Unlearning-Verfahren (z. B. Gradient Ascent, DPO, NPO) auf seiner privaten Vergessensmenge durch. Der Client berechnet die Updates ( $\Delta$ ) und sendet diese zurück.

C. Post-Process: Aggregation und Denoising (Server-Seite)

Der Server empfängt die Updates und führt zwei Schritte durch:

Invertierung: Die reparametrisierten Updates werden mittels der inversen Transformation zurück in den ursprünglichen Parameterraum projiziert.
Harmonische Aggregation: Die Server-Seite aggregiert die $m$ $m$ Updates mit speziellen Gewichten (harmonische Gewichte). Aufgrund der konstruierten Zero-Sum-Eigenschaft des Rauschens und der spezifischen Gewichtung heben sich die ersten Ordnung Fehlerterme des Rauschens exakt auf.
- Das Ergebnis ist ein Server-Update, das mathematisch äquivalent zu einem Update ohne Rauschen ist, obwohl der Client nur gestörte Modelle gesehen hat.

3. Schlüsselbeiträge

Dual Non-Disclosure Framework: MPU ist (nach Kenntnis der Autoren) die erste Lösung, die Unlearning unter der strikten Bedingung ermöglicht, dass weder Client-Daten noch Server-Parameter offengelegt werden, ohne auf Hilfsdaten (Surrogate Data) zurückzugreifen.
Invertible Reparameterization für Transformer: Die Autoren erweitern das Konzept der funktionserhaltenden Reparameterisierung auf moderne Transformer-Architekturen (inkl. RoPE-Positional-Embeddings), was eine sichere Verschleierung der Parameter ermöglicht, ohne die Modellleistung zu beeinträchtigen.
Theoretische Garantien: Es wird bewiesen, dass durch die harmonische Aggregation der erste Ordnung Rauschfehler eliminiert wird. Das resultierende Update entspricht dem eines noise-freien Unlearning-Schritts.
Effizienz: Das Framework ist speichereffizient implementierbar (Streaming-Ansatz), da nicht alle $m$ Modelle gleichzeitig im Speicher gehalten werden müssen.

4. Ergebnisse

Die Evaluation erfolgte auf dem TOFU-Benchmark mit Modellen wie Llama-3.2 (1B/3B) und Qwen2.5 (1.5B/3B) sowie sieben verschiedenen Unlearning-Algorithmen (GradAscent, GradDiff, DPO, NPO, SimNPO, UnDIAL, SatImp).

Vergleichbarkeit mit Noise-Free Baselines: MPU erreicht eine Unlearning-Leistung, die mit noise-freien Baselines vergleichbar ist. Bei einem Rauschlevel von 10% lag die durchschnittliche Degradation für die meisten Algorithmen unter 1%.
Überlegenheit bei niedrigem Rauschen: Unter bestimmten Bedingungen (z. B. 1% Rauschen) konnte MPU sogar die noise-freie Baseline übertreffen, was auf den stabilisierenden Effekt der Multi-Copy-Aggregation zurückgeführt wird.
Privatsphäre und Nutzen: Die Methoden zeigten eine hohe „Forget Quality" (Effektivität des Vergessens) und eine niedrige „PrivLeak" (Privatsphäre-Leckage), während die „Model Utility" (Leistung auf nicht-vergessenen Daten) erhalten blieb.
Robustheit: Das System ist robust gegenüber verschiedenen Rauschleveln ( $\kappa$ ) und der Anzahl der Kopien ( $m$ ). Zwei Kopien ( $m=2$ ) erwiesen sich als optimaler Kompromiss zwischen Overhead und Leistung.

5. Bedeutung und Ausblick

MPU löst ein fundamentales Problem der vertrauenswürdigen KI: Es ermöglicht die Einhaltung des „Rechts auf Vergessenwerden" in kommerziellen LLM-Deployments, ohne dass proprietäre Modelle oder Kundendaten kompromittiert werden müssen.

Praktische Relevanz: Das Framework ist direkt anwendbar in Szenarien, in denen Cloud-Anbieter LLMs hosten und Kunden sensible Daten haben, die aus dem Modell entfernt werden müssen.
Theoretischer Fortschritt: Die Kombination aus Rausch-Injektion, Symmetrie-basierter Reparameterisierung und harmonischer Aggregation bietet einen neuen Ansatz für sichere verteilte Optimierung, der über das reine Unlearning hinausreicht.
Zukunft: Die Arbeit legt den Grundstein für sichere, effiziente Unlearning-Protokolle, die ohne zentrale Datensammlung auskommen, und zeigt, dass Privatsphäre und Modellleistung in diesem Kontext nicht zwangsläufig gegeneinander ausgespielt werden müssen.

MPU: Towards Secure and Privacy-Preserving Knowledge Unlearning for Large Language Models

Die Idee: Der "Verkleidungs-Trick"

Warum ist das so genial?

Ein einfaches Bild zum Schluss

1. Problemstellung

2. Methodik: MPU Framework

A. Pre-Process: Erzeugung gestörter Kopien (Server-Seite)

B. Client-Seite: Lokales Unlearning

C. Post-Process: Aggregation und Denoising (Server-Seite)

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank