Ursprüngliche Autoren: Anamika Paul Rupa, Anietie Andy

Veröffentlicht 2026-05-07

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ursprüngliche Autoren: Anamika Paul Rupa, Anietie Andy

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie besitzen eine Bibliothek von Büchern (ein Large Language Model), die eine bestimmte geheime Geschichte auswendig gelernt hat. Sie bitten den Bibliothekar, diese Geschichte zu „verlernen", was bedeutet, dass er sie niemandem mehr erzählen sollte.

Die meisten aktuellen Methoden zum „Verlernen" sind so, als würden Sie dem Bibliothekar sagen: „Wenn jemand nach dieser Geschichte fragt, sagen Sie einfach 'Ich weiß es nicht' oder erfinden ein anderes Ende." Der Bibliothekar gehorcht und hört auf, die Geschichte zu erzählen. Doch das Papier argumentiert, dass die Geschichte immer noch im Gehirn des Bibliothekars geschrieben steht; er hat lediglich gelernt, sie zu verbergen. Wenn Sie die richtigen kniffligen Fragen stellen, könnte der Bibliothekar versehentlich enthüllen, dass er sie immer noch kennt.

Dieses Papier stellt eine Methode vor, um herauszufinden, ob die Geschichte wirklich aus dem Gehirn des Bibliothekars verschwunden ist, sowie eine neue Methode, um sie tatsächlich zu löschen, ohne dass der Bibliothekar vergisst, wie man seinen Job erledigt.

Das Problem: Der „Geist" in der Maschine

Die Autoren entdeckten, dass ein Modell, selbst wenn es aufhört, eine auswendig gelernte Geheimnis zu erzählen, es intern immer noch kennt. Sie bezeichnen dies als „Cross-Sequence-Signatur".

Die Analogie:
Stellen Sie sich vor, der Bibliothekar hat einen versteckten „Ja/Nein"-Schalter in seinem Gehirn, der aufleuchtet, sobald er an die geheime Geschichte denkt.

Altes Verlernen: Sie trainieren den Bibliothekar, den Mund zu halten. Er hört auf, die Geschichte zu erzählen.
Die Realität: Der versteckte „Ja/Nein"-Schalter leuchtet immer noch hell auf, wenn Sie nach der Geschichte fragen. Das Wissen ist immer noch da, nur unterdrückt.

Die Autoren bauten einen speziellen Test (eine „Sonde"), um zu prüfen, ob dieser Schalter aufleuchtet. Sie fanden heraus, dass dieser „Geist" der Erinnerung in Modellen aller Größen existiert, von winzigen Spielzeugmodellen bis hin zu riesigen wie Mistral-7B.

Die Entdeckung: Erinnerung und Sprache sind getrennt

Eine der größten Erkenntnisse des Papiers ist, dass Erinnern und Sprechen in verschiedenen Teilen des Gehirns stattfinden.

Die Analogie:
Stellen Sie sich das Modell als einen Radiosender vor.

Die Speicherung: Das Geheimnis ist im „Aufnahmestudio" gespeichert (den tiefen Schichten des Modells).
Die Sendung: Der „On-Air"-Schalter (die Attention-Heads) entscheidet, ob die Aufnahme abgespielt wird.

Die Autoren zeigten, dass man den „On-Air"-Schalter so zerstören kann, dass das Geheimnis nie gesendet wird (das Modell hört auf, es zu sagen). Die Aufnahme im Studio bleibt jedoch perfekt klar und intakt. Man kann sogar auf die Aufnahme zeigen und sagen: „Das ist das Geheimnis!", obwohl das Radio stumm ist.

Die Lösung: „Probe-Geometry Alignment" (PGA)

Da die alten Methoden nur den „On-Air"-Schalter zerstörten, erfanden die Autoren ein neues chirurgisches Werkzeug namens Probe-Geometry Alignment (PGA).

Die Analogie:
Anstatt nur das Mikrofon zu zerstören, geht PGA ins Aufnahmestudio und richtet die Schallwellen aus.

Signal finden: Zuerst verwenden sie ihren speziellen Test, um die genaue Richtung im Gehirn zu finden, in der sich das Geheimnis verbirgt.
Chirurgische Ausrichtung: Anschließend führen sie eine winzige, präzise Anpassung in jeder Schicht des Modells durch. Sie löschen nicht das ganze Gehirn; sie schieben lediglich die spezifische „Richtung", in der das Geheimnis lebt, so, dass sie nicht mehr wie ein Geheimnis aussieht. Es ist so, als würde man ein klares, hochauflösendes Foto nur in dem spezifischen Bereich, in dem sich das Geheimnis befand, in statisches Rauschen verwandeln, während der Rest des Fotos (das allgemeine Wissen des Modells) perfekt scharf bleibt.

Die Ergebnisse:

Der Geist ist weg: Nach der Anwendung von PGA leuchtet der spezielle Test nicht mehr auf. Tatsächlich performs der Test schlechter als zufälliges Raten, was bedeutet, dass das Modell die interne Struktur des Geheimnisses wirklich vergessen hat.
Keine Nebenwirkungen: Entscheidend ist, dass diese Operation den Bibliothekar nicht daran hinderte, alles andere zu tun. Seine Fähigkeit, allgemeine Fragen zu beantworten, Geschichten zu schreiben oder Logikrätsel zu lösen, blieb genau gleich.

Wichtige Erkenntnisse in einfacher Sprache

Stille ist kein Vergessen: Nur weil ein Modell aufhört, ein Geheimnis zu sagen, bedeutet das nicht, dass es es vergessen hat. Die Erinnerung versteckt sich immer noch im Inneren.
Wir können den Versteckort sehen: Die Autoren entwickelten eine Möglichkeit, diese versteckten Erinnerungen über Modelle unterschiedlicher Größen hinweg zu erkennen.
Wir können sie löschen: Sie entwickelten eine Methode (PGA), die diese versteckten Erinnerungen chirurgisch entfernt.
Es ist sicher: Diese Löschung ist so präzise, dass sie die allgemeine Intelligenz des Modells nicht beschädigt. Es ist wie das Entfernen eines bestimmten Flecks von einem weißen Hemd, ohne dass das Hemd einläuft oder seine Farbe ändert.

Das Papier kommt zu dem Schluss, dass man, um etwas von einer KI wirklich zu „verlernen", die interne Repräsentation löschen muss, nicht nur die Ausgabe zum Schweigen bringen. Ihre neue Methode, PGA, tut genau das.

Each language version is independently generated for its own context, not a direct translation.

Technische Zusammenfassung: Ausrichtung der Sondengeometrie zur Tilgung von Memorisierungssignaturen

1. Problemstellung

Aktuelle Frameworks für maschinelles Vergessen bei Large Language Models (LLMs) leiden unter einer kritischen Messlücke: Sie bewerten das verhaltensbasierte Vergessen (ob das Modell aufhört, Zielinhalte zu generieren), versagen jedoch bei der Bewertung des repräsentationalen Vergessens (ob das Modell diese Inhalte intern nicht mehr kodiert). Neuere Studien deuten darauf hin, dass die verhaltensbasierte Unterdrückung oft interne Spuren hinterlässt, die durch adversarische Sonden wiederhergestellt werden können. Dieser Artikel argumentiert, dass die Unterdrückung der Generierung für Privatsphäre oder Sicherheit unzureichend ist, da die zugrundeliegenden Memorisierungssignaturen im Residualstrom des Modells persistieren und potenziell von Angreifern ausgenutzt werden können.

Die Kernherausforderung ist zweifach:

Detektion: Bestehende Sonden unterscheiden oft nicht zwischen echten Memorisierungssignaturen über Sequenzen hinweg und oberflächlichen Zeichenketten-Artefakten oder Modellschichten-Verschiebungen.
Tilgung: Chirurgische Eingriffe, die das verhaltensbasierte Abrufen erfolgreich unterdrücken (z. B. unlearning auf Head-Ebene), versagen oft darin, die zugrundeliegende repräsentationale Signatur zu tilgen, die weiterhin linear trennbar und detektierbar bleibt.

2. Methodik

2.1 Cross-Sequence Leave-One-Out (LOO) Sondierung

Um Memorisierung rigoros zu detektieren, führen die Autoren ein Cross-Sequence LOO-Sondierungsprotokoll ein. Im Gegensatz zu Einzel-Sequenz-Sonden, die sich möglicherweise an spezifische Token-Identitäten überanpassen, testet dieses Protokoll auf eine generalisierbare Signatur der Memorisierung:

Verfahren: Ein linearer Sondierer wird auf Aktivierungs-Paaren (memorisiert vs. Kontrolle) aus einer Menge von Sequenzen trainiert, wobei eine memorisierte Sequenz zurückgehalten wird. Der Sondierer wird dann auf die zurückgehaltene Sequenz getestet.
Bedeutung: Wenn der Sondierer die zurückgehaltene Sequenz als memorisiert klassifiziert, hat er ein Merkmal des Memorisierungsprozesses selbst gelernt und nicht nur spezifische Trainingsbeispiele.
Kontrollen: Das Protokoll umfasst eine „Pure-Distinguishability"-Basislinie (trainiert auf nicht-memorisierten Sequenzen mit angepasster lexikalischer Struktur) und einen „Shuffled-Label"-Nullwert, um die memorisierungsspezifische Lücke zu isolieren.

2.2 Kausale Trennbarkeitsanalyse

Der Artikel untersucht, ob die vom Sondierer identifizierte Richtung kausal für das Abrufen verantwortlich ist. Unter Verwendung von kausaler Verfolgung und Forward Hooks auf Pythia-70M projizieren die Autoren die angepasste Sondier-Richtung aus dem Residualstrom heraus.

Ergebnis: Dieser Eingriff kollabiert die lokale Memorisierungssignatur (die Lücke sinkt von +0,44 auf -0,19), während das verhaltensbasierte Abrufen (Log-Wahrscheinlichkeit des Geheimnisses) und allgemeine Fähigkeiten weitgehend intakt bleiben. Dies beweist, dass die sondierbare Signatur und der Abruf-produzierende Mechanismus kausal trennbare Richtungen einnehmen.

2.3 Probe-Geometry Alignment (PGA)

Um das Versagen bestehender Unlearning-Methoden zu adressieren (die Ausgaben unterdrücken, aber Repräsentationen intakt lassen), schlagen die Autoren Probe-Geometry Alignment (PGA) vor.

Mechanismus: PGA ist eine chirurgische Tilgungstechnik, die Aktivierungen spezifisch entlang der lebenden Ausleserichtung des Sondierers in jeder Tiefe ausrichtet.
Ziel: Es minimiert die skalare Projektion der Differenz zwischen memorisierten und sauberen Aktivierungen auf den Gewichtsvektor des Sondierers ( $\hat{w}_d$ ) in jeder Tiefe $d$ , während die Kreuzentropie auf sauberen Daten erhalten bleibt, um die Fähigkeiten zu bewahren.
Einschränkung: Im Gegensatz zu isotropen Ausrichtungsmethoden (z. B. AAE), die auf allen $d_{model}$ -Dimensionen wirken, wirkt PGA auf eine einzige Skalargröße pro Tiefe (die Projektion entlang der Ausleserichtung des Sondierers).
Adversarische Erweiterung: Um Angreifer zu besiegen, die Sonden auf PGA-behandelte Aktivierungen neu anpassen, führen die Autoren Adversarial PGA ein, das die Projektionsbasis iterativ mit orthogonalen Komponenten neu angepasster Sonden erweitert.

3. Hauptbeiträge

Cross-Sequence LOO-Protokoll: Eine validierte Methode zum Detektieren echter Memorisierungssignaturen, die über zurückgehaltene Sequenzen hinweg generalisieren und diese von Modellschichten-Verschiebungen oder repräsentationaler Drift unterscheiden.
Kausale Trennbarkeit: Empirische Belege dafür, dass die von einem Sondierer lesbare lineare Richtung sich von der Richtung unterscheidet, die für verhaltensbasiertes Abrufen erforderlich ist. Das Herausprojizieren der Sondier-Richtung kollabiert die Signatur, ohne das Abrufen signifikant zu beeinträchtigen.
Unterschiedliche Memorierungsregime: Demonstration, dass natürlich vortrainierte Memorisierung und durch Fine-Tuning injizierte Geheimnisse repräsentational unterschiedliche Spuren hinterlassen. Ein auf natürlicher Memorisierung trainierter Sondierer klassifiziert injizierte Geheimnisse nicht als memorisiert.
Probe-Geometry Alignment (PGA): Eine konstruktive chirurgische Tilgungsmethode, die die Cross-Sequence-Sondiergenauigkeit über vier Modellskalen hinweg (von 0,8M Toy-Modell bis 7,24B Mistral-7B) unter die Zufallswahrscheinlichkeit drückt, während Zero-Shot-Fähigkeiten erhalten bleiben.

4. Hauptergebnisse

4.1 Existenz der Signatur

Die Cross-Sequence-Memorisierungssignatur ist real und über die Skalen hinweg konsistent:

Pythia-70M: Memorierungsspezifische Lücke von +0,32 (Peak +0,54 bei L6).
GPT-2 Medium: Lücke von +0,19 (Peak +0,45 bei L21).
Mistral-7B: Lücke von +0,30 (Peak +0,47 bei L11).
Cluster-Spezifität: Die Signatur ist stark für formale Register der englischen Sprache und Lizenzen, aber nahezu null für Code und Pseudo-Latein.

4.2 Versagen standardisierter Unlearning-Methoden

Standard-Unlearning-Methoden (Gradient Ascent, NPO, RMU, MEMIT und das eigene MLDU der Autoren) unterdrücken das verhaltensbasierte Abrufen erfolgreich (z. B. $P(secret) < 10^{-4}$ ), versagen jedoch darin, den Sondierer zu kollabieren. In Toy-Modellen und im großen Maßstab lassen diese Methoden die Genauigkeit des linearen Sondierers auf dem Deckel (1,000) oder nahe dem Deckel, was bestätigt, dass verhaltensbasierte Unterdrückung nicht repräsentativer Tilgung entspricht.

4.3 Erfolg von PGA

PGA kollabiert die Signatur erfolgreich unter die Zufallswahrscheinlichkeit (<0,50) über alle getesteten Skalen hinweg:

Toy-Modell (0,8M): Der Sondierer sinkt auf 0,17 bei Tiefe 4.
Pythia-70M: Der Sondierer sinkt auf 0,11 ± 0,04 bei L6.
Mistral-7B: Der Sondierer sinkt auf 0,42 in mittleren Schichten.
GPT-2 Medium: Unter Verwendung von MD-PGA (Eigenbasis-Variante) sinkt der Sondierer auf 0,061 bei L21.
Robustheit: Der Kollaps hält gegen sechs adversarische Sondervarianten (unterschiedliche Seeds, Regularisierungen und MLPs) stand. Adversarial PGA besiegt neu angepasste Angreifer-Sonden in allen memorisierungswesentlichen Tiefen.

4.4 Bewahrung der Fähigkeiten

PGA bewahrt die Modellfähigkeiten mit vernachlässigbarer Degradierung:

Über fünf Zero-Shot-Benchmarks (HellaSwag, PIQA, BoolQ, ARC-Easy, WinoGrande) beträgt die mittlere $\Delta$ -Genauigkeit +0,2pp.
Das Maximum der einzelnen Task-Regression liegt bei 2,9pp (auf BoolQ für die adversarische Variante).
Die Perplexität (PPL) bleibt stabil (z. B. 1,40 $\to$ 1,42 beim Toy-Modell).

5. Bedeutung und Behauptungen

Der Artikel behauptet, dass das Unterdrücken dessen, was ein Modell sagt, nicht dasselbe ist wie das Tilgen dessen, was es repräsentiert. Die Cross-Sequence-Signatur ist eine reale, kausal trennbare, regime-spezifische Eigenschaft vortrainierter Repräsentationen.

Auditierbarkeit: Der Cross-Sequence-Sondierer ermöglicht eine repräsentationale Verifikation nach dem Unlearning, die es Dritten ermöglicht zu auditieren, ob ein Modell wirklich vergisst oder lediglich Ausgaben unterdrückt.
Konstruktive Tilgung: PGA bietet eine konkrete Methode, diese Signaturen chirurgisch (ein Skalar pro Tiefe) zu entfernen, ohne von Grund auf neu zu trainieren oder allgemeine Fähigkeiten zu opfern.
Mechanistische Einsicht: Die Arbeit schlägt eine Dekomposition der Memorisierung in Transformern vor, bei der Informationen im Residualstrom kodiert (Speicher) und über Attention-Heads zum Output geleitet werden (Ausdruck). Unlearning-Methoden, die nur die Weiterleitung stören, versagen darin, den Speicher zu tilgen.

Die Autoren positionieren diese Arbeit nicht als abgeschlossene Lösung für alle Unlearning-Szenarien, sondern als ersten Schritt hin zu empirisch auditierbarer Privatsphäre im nachträglichen Unlearning, wobei das Feld von einem binären verhaltensbasierten Bestehen/Nicht-Bestehen zu einer konstruktiven Audit-Pipeline umgedeutet wird.

Probe-Geometry Alignment: Erasing the Cross-Sequence Memorization Signature Below Chance