Benchmarking Unlearning for Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

Titel: Wie man KI „vergisst" lässt: Ein Vergleich zwischen alten und neuen Denkern

Stellen Sie sich vor, Sie haben einen sehr klugen Assistenten (eine Künstliche Intelligenz), der Millionen von Bildern gesehen hat, um Dinge zu erkennen. Eines Tages merken Sie: „Moment mal, dieses eine Foto ist veraltet, unfair oder enthält private Daten, die nicht mehr da sein dürfen." Sie wollen, dass Ihr Assistent dieses Bild vergessen lernt, ohne dabei alles andere zu vergessen, was er gelernt hat.

Das nennt man „Machine Unlearning" (Maschinelles Vergessen).

Bisher gab es dafür gute Methoden für die „alten" KI-Modelle (die sogenannten CNNs). Aber die KI-Welt hat sich gewandelt: Heute nutzen wir Vision Transformers (VTs) – das sind die neuen, super-leistungsfähigen Modelle, die Bilder anders verarbeiten als ihre Vorgänger. Die große Frage war: Funktionieren die alten „Vergessens-Methoden" auch bei diesen neuen Modellen?

Diese Studie ist wie ein großer Testlauf, um genau das herauszufinden. Hier ist die Erklärung in einfachen Worten:

1. Die zwei Arten von Denkern: Der alte Handwerker vs. der neue All-rounder

Um das zu verstehen, brauchen wir eine Analogie:

Die alten Modelle (CNNs) sind wie ein Handwerker, der ein Haus von Grund auf neu baut. Er schaut sich jeden einzelnen Ziegel (Pixel) an und lernt, dass Ziegel A immer neben Ziegel B liegt. Er ist sehr lokal und genau.
Die neuen Modelle (Vision Transformers / VTs) sind wie ein Künstler, der einen ganzen Raum auf einmal betrachtet. Er sieht sofort das große Ganze, wie Licht und Schatten zusammenwirken, ohne sich zuerst auf jeden einzelnen Ziegel zu konzentrieren.

Die Forscher wollten wissen: Wenn wir dem Künstler sagen „Vergiss diesen einen Ziegel", funktioniert das genauso wie beim Handwerker?

2. Das große Experiment: Der „Vergessens-Test"

Die Forscher haben verschiedene KI-Modelle (sowohl den „Künstler" als auch den „Handwerker") getestet. Sie haben ihnen Bilder gezeigt, dann ein paar Bilder „verboten" (das sind die zu vergessenden Daten) und verschiedene Methoden angewendet, um sie zu löschen.

Sie haben dabei drei Dinge geprüft:

Wie gut wird vergessen? (Ist das Bild wirklich weg?)
Wie gut bleibt das Wissen? (Kann die KI immer noch andere Bilder erkennen?)
Wie sicher ist es? (Kann ein Hacker herausfinden, dass das Bild einmal da war?)

3. Die wichtigsten Entdeckungen (Die „Aha!"-Momente)

Hier sind die Ergebnisse, übersetzt in Alltagssprache:

Das Gedächtnis ist ähnlich: Überraschenderweise merken sich sowohl der alte Handwerker als auch der neue Künstler Bilder auf fast die gleiche Weise. Beide haben eine „lange Liste" von Dingen, die sie sehr fest im Kopf haben, und viele, die sie nur oberflächlich kennen. Das ist gut, denn es bedeutet: Die Tricks, die wir für die alten Modelle erfunden haben, funktionieren auch für die neuen!
Der „Schlüssel" zum Vergessen (Memorization Proxies): Um zu wissen, was genau vergessen werden muss, braucht man einen Indikator. Die Forscher haben getestet, ob einfache Tricks (wie: „Wie sicher war die KI bei diesem Bild?") funktionieren.
- Ergebnis: Ja! Einfache Tricks wie die Selbstvertrauens-Messung (Confidence) oder ein Test mit neuen Daten (Holdout Retraining) funktionieren hervorragend. Man muss nicht das Gehirn der KI komplett zerlegen, um zu wissen, was sie vergessen soll.
Welche Methode passt zu welchem Modell?
- Für den neuen Künstler (ViT) funktioniert es am besten, wenn man ihn einfach ein bisschen nachtrainiert, aber nur auf den Bildern, die er behalten soll (wie ein Nachhilfeunterricht).
- Für den Künstler mit Struktur (Swin-T) – der etwas mehr wie der alte Handwerker ist – funktioniert eine Methode namens NegGrad+ am besten. Das ist wie ein gezieltes „Löschen" von Verbindungen im Gehirn, das sehr präzise ist.
Kein Problem beim ständigen Vergessen: In der echten Welt muss man vielleicht nicht nur ein Bild, sondern jeden Monat neue Bilder vergessen. Die Studie zeigt: Die KI wird dabei nicht müde oder verwirrt. Sie kann Schritt für Schritt Dinge löschen, ohne ihre Intelligenz zu verlieren.

4. Was bedeutet das für uns?

Stellen Sie sich vor, Sie haben eine große Bibliothek (die KI). Früher war es schwierig, ein verbotenes Buch zu entfernen, ohne das Regal zum Einsturz zu bringen.

Diese Studie sagt uns:

Wir haben die Werkzeuge: Die Methoden, die wir für die alten Bibliotheken entwickelt haben, funktionieren auch für die neuen, moderneren Bibliotheken.
Es gibt keine Magie nötig: Man braucht keine komplizierte Hexerei, um die KI zu „entleeren". Einfache, clevere Tricks reichen aus.
Sicherheit ist machbar: Wir können KI-Systeme bauen, die sicher sind und auf die „Recht auf Vergessenwerden" reagieren können, selbst wenn sie die modernste Architektur nutzen.

Fazit:
Die Welt der KI entwickelt sich schnell weiter, aber die Regeln für ethisches und sicheres Verhalten (wie das Löschen von Daten) hinken nicht hinterher. Diese Arbeit ist wie eine Bauanleitung, die uns zeigt, wie wir unsere neuen, super-intelligenten KI-Modelle so handhaben können, dass sie fair, sicher und vertrauenswürdig bleiben – auch wenn wir ihnen befehlen, Dinge zu vergessen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Benchmarking Unlearning for Vision Transformers

Autoren: Kairan Zhao, Iurie Luca, Peter Triantafillou (University of Warwick)

1. Problemstellung

Das Forschungsgebiet des Machine Unlearning (MU) – also die Fähigkeit, den Einfluss spezifischer „problematischer" Daten (z. B. verzerrt, fehlerhaft, datenschutzsensitiv) aus einem trainierten Modell zu entfernen – hat stark an Bedeutung gewonnen. Während MU-Forschung und Benchmarks bereits für Large Language Models (LLMs), Diffusionsmodelle und Convolutional Neural Networks (CNNs) etabliert sind, fehlt es bisher an einer umfassenden Bewertung für Vision Transformers (VTs).

Obwohl VTs (wie ViT und Swin-T) zunehmend als leistungsfähige Alternativen zu CNNs in der Computer-Vision etabliert sind, ist unklar, ob sich Erkenntnisse aus dem CNN-Bereich (insbesondere bezüglich Memorization – der Tendenz von Modellen, Trainingsdaten auswendig zu lernen) auf VTs übertragen lassen. Aufgrund architektonischer Unterschiede (globale Selbst-Aufmerksamkeit vs. lokale Faltungsoperationen, fehlende räumliche Induktionsverzerrungen bei VTs) könnten VTs andere Muster beim Lernen und Vergessen aufweisen. Bisherige Studien haben VTs oft nur als Nebenaspekt oder mit sehr kleinen Architekturen (z. B. ViT-Tiny) betrachtet, ohne systematische Vergleiche über verschiedene Kapazitäten, Datensätze und Unlearning-Protokolle hinweg.

2. Methodik

Die Autoren führen den ersten umfassenden Benchmark für Machine Unlearning in Vision Transformers durch. Das Experimentdesign umfasst folgende Achsen:

Architekturen: Zwei Hauptfamilien von VTs werden verglichen:
- ViT (Vision Transformer): Nutzt globale Selbst-Aufmerksamkeit ohne hierarchische Struktur (ähnlich weniger CNNs).
- Swin-T (Swin Transformer): Führt hierarchische Darstellungen und lokale Fenster-Aufmerksamkeit ein (ähnlicher zu CNNs).
- Es werden verschiedene Kapazitäten getestet (von Tiny bis Base/Small), um den Einfluss der Modellgröße zu untersuchen.
Datensätze: Vier Datensätze unterschiedlicher Größe und Komplexität:
- CIFAR-10, CIFAR-100, SVHN (Standard-Benchmarks).
- ImageNet-1K (Validierungsset) für Skalierbarkeitstests auf großen, komplexen Daten.
Unlearning-Algorithmen: Drei repräsentative Familien von Algorithmen, die ursprünglich für CNNs entwickelt wurden, werden evaluiert:
1. Fine-tune (FT): Standard-Baseline, Neutraining nur auf den verbleibenden Daten.
2. NegGrad+: Gradientenbasierte Methode, die Parameter explizit vom „Vergessens-Set" wegbewegt.
3. SalUn: Wählt Parameter basierend auf Saliency (Bedeutung) aus und aktualisiert nur diese.
- Wichtig: Alle Methoden werden sowohl als „Vanilla"-Versionen als auch innerhalb des RUM-Frameworks (Reinforcement Unlearning Meta-Algorithm) evaluiert, das Unlearning durch die Nutzung von Memorization-Scores verbessert.
Memorization & Proxies: Da die direkte Berechnung von Memorization-Scores (Feldman-Score) extrem rechenintensiv ist, werden Proxies (Schätzer) verwendet, um den Grad des Auswendiglernens zu bestimmen. Getestet werden: Confidence, Max Confidence, Entropy, Binary Accuracy und Holdout Retraining (HR).
Protokolle: Sowohl Single-Shot (einmaliges Entfernen großer Datenmengen) als auch Continual Unlearning (sequenzielles Entfernen kleinerer Mengen über mehrere Schritte).
Metriken:
- ToW (Time to Forget): Misst die Balance zwischen Vergessen (Accuracy auf $D_f$ ), Behalten (Accuracy auf $D_r$ ) und Generalisierung (Test-Accuracy).
- ToW-MIA: Eine Variante, die die Anfälligkeit für Membership Inference Attacks (MIA) als Maß für die Vergessensqualität nutzt.

3. Wichtige Ergebnisse

Memorization in VTs vs. CNNs

Ähnliche Muster: VTs zeigen grundsätzlich dieselben langschwänzigen Verteilungen beim Memorization wie CNNs.
Proxy-Gültigkeit: CNN-basierte Proxies funktionieren auch bei VTs. Confidence zeigt die stärkste Korrelation mit dem wahren Memorization-Score. Holdout Retraining (HR) ist ebenfalls effektiv und bietet den Vorteil, dass keine Überwachung während des Trainings nötig ist.
Unterschiede: Auf einfacheren Datensätzen (CIFAR-10) zeigen VTs aufgrund ihrer Vorab-Training (Pretraining) und globalen Aufmerksamkeit eine leicht geringere Memorization als ResNet-18. Auf komplexeren Datensätzen (CIFAR-100, ImageNet) gleichen sich die Muster an.

Leistung der Unlearning-Algorithmen

NegGrad+ ist der Gewinner: In Kombination mit dem Holdout Retraining-Proxy erzielte NegGrad+ die robustesten Ergebnisse, insbesondere auf komplexen Datensätzen (CIFAR-100, ImageNet) und bei Swin-Architekturen.
Fine-tune: Überraschend effektiv, besonders bei ViT-Modellen und auf einfacheren Datensätzen.
Salun: Erreicht gute ToW-Werte (Vergessen ohne Verlust der Genauigkeit), scheitert jedoch oft bei ToW-MIA. Salun ist weniger gut darin, Modelle gegen Membership Inference Attacks zu schützen, insbesondere bei ViT.
Architektur-Spezifika:
- ViT profitiert stark von Fine-tuning (globale Aufmerksamkeit führt zu diffuseren Parametern).
- Swin-T profitiert mehr von gradientenbasierten Methoden (NegGrad+), da seine lokale, hierarchische Struktur CNN-ähnliches Verhalten zeigt.

Einfluss von Kapazität und Pretraining

Pretraining-Vorteil: Bei einfachen Aufgaben (CIFAR-10) führt das Vorhandensein von ImageNet-Pretraining dazu, dass das retrainierte Modell ( $\theta_r$ ) bereits sehr gut auf den zu vergessenden Daten performt. Dies macht das Unlearning schwieriger zu bewerten, da die Basislinie hoch ist. Dieser Vorteil schwindet bei komplexeren Aufgaben.
Sweet Spot: Es gibt eine optimale Modellgröße. Zu kleine Modelle (ViT-Tiny) sind unterkapazitiert für effektives Unlearning, während zu große Modelle (Swin-Small auf CIFAR-10) zu Overfitting neigen können. ViT-Small und Swin-Tiny stellen einen guten Kompromiss dar.

Continual Unlearning

Die Ergebnisse zeigen, dass wiederholtes Unlearning (über 5 bis 10 Schritte) keine signifikante kumulative Verschlechterung der Leistung verursacht. Die Metriken bleiben stabil, was die Praxistauglichkeit für dynamische Umgebungen unterstreicht.

4. Schlüsselbeiträge

Erster umfassender Benchmark für VTs: Schließt die Lücke in der MU-Forschung, die bisher nur CNNs, LLMs und Diffusionsmodelle abdeckte.
Validierung von Proxies: Zeigt, dass effiziente Memorization-Proxies (wie Confidence und HR), die für CNNs entwickelt wurden, auch für VTs zuverlässig sind.
Architektur-Methoden-Paarung: Identifiziert, dass keine „One-Size-Fits-All"-Lösung existiert. ViT bevorzugt Fine-tuning, Swin-T bevorzugt NegGrad+.
RUM-Framework: Bestätigt, dass die Integration von Unlearning-Algorithmen in das RUM-Framework die Leistung auch bei Vision Transformern signifikant steigert.
Open Source: Bereitstellung eines vollständigen Codebases und Benchmarks für reproduzierbare Forschung.

5. Signifikanz und Fazit

Dieses Werk etabliert einen neuen Referenzstandard für Machine Unlearning in Vision Transformern. Es widerlegt die Annahme, dass Unlearning-Methoden einfach von CNNs auf VTs übertragen werden können, ohne Anpassungen vorzunehmen. Die Studie zeigt, dass VTs zwar ähnliche Memorization-Muster wie CNNs aufweisen, aber aufgrund ihrer Architektur unterschiedlich auf Unlearning-Algorithmen reagieren.

Praktische Implikationen:

Für ViT-Modelle in weniger komplexen Szenarien ist Fine-tuning eine effiziente und effektive Wahl.
Für Swin-Modelle oder komplexe Datensätze (ImageNet) ist NegGrad+ in Kombination mit Holdout Retraining die robusteste Strategie.
Salun sollte in datenschutzsensitiven Umgebungen (hohe MIA-Risiken) bei VTs vermieden werden.
Das Vorhandensein von Pretraining ist ein entscheidender Faktor für die Unlearning-Leistung und muss bei der Evaluierung berücksichtigt werden.

Die Arbeit liefert damit die Grundlage für die Entwicklung zukünftiger, speziell auf Vision Transformers zugeschnittener Unlearning-Algorithmen und sichert deren Einsatz in vertrauenswürdigen KI-Systemen.