Benchmarking Unlearning for Vision Transformers

Diese Arbeit stellt den ersten Benchmark für maschinelles Vergessen bei Vision Transformern vor, der verschiedene Algorithmen, Datensätze und Protokolle umfassend bewertet, um die Leistungsfähigkeit bestehender Methoden zu etablieren und deren Verhalten im Vergleich zu CNNs zu analysieren.

Kairan Zhao, Iurie Luca, Peter Triantafillou

Veröffentlicht 2026-02-24
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Titel: Wie man KI „vergisst" lässt: Ein Vergleich zwischen alten und neuen Denkern

Stellen Sie sich vor, Sie haben einen sehr klugen Assistenten (eine Künstliche Intelligenz), der Millionen von Bildern gesehen hat, um Dinge zu erkennen. Eines Tages merken Sie: „Moment mal, dieses eine Foto ist veraltet, unfair oder enthält private Daten, die nicht mehr da sein dürfen." Sie wollen, dass Ihr Assistent dieses Bild vergessen lernt, ohne dabei alles andere zu vergessen, was er gelernt hat.

Das nennt man „Machine Unlearning" (Maschinelles Vergessen).

Bisher gab es dafür gute Methoden für die „alten" KI-Modelle (die sogenannten CNNs). Aber die KI-Welt hat sich gewandelt: Heute nutzen wir Vision Transformers (VTs) – das sind die neuen, super-leistungsfähigen Modelle, die Bilder anders verarbeiten als ihre Vorgänger. Die große Frage war: Funktionieren die alten „Vergessens-Methoden" auch bei diesen neuen Modellen?

Diese Studie ist wie ein großer Testlauf, um genau das herauszufinden. Hier ist die Erklärung in einfachen Worten:

1. Die zwei Arten von Denkern: Der alte Handwerker vs. der neue All-rounder

Um das zu verstehen, brauchen wir eine Analogie:

  • Die alten Modelle (CNNs) sind wie ein Handwerker, der ein Haus von Grund auf neu baut. Er schaut sich jeden einzelnen Ziegel (Pixel) an und lernt, dass Ziegel A immer neben Ziegel B liegt. Er ist sehr lokal und genau.
  • Die neuen Modelle (Vision Transformers / VTs) sind wie ein Künstler, der einen ganzen Raum auf einmal betrachtet. Er sieht sofort das große Ganze, wie Licht und Schatten zusammenwirken, ohne sich zuerst auf jeden einzelnen Ziegel zu konzentrieren.

Die Forscher wollten wissen: Wenn wir dem Künstler sagen „Vergiss diesen einen Ziegel", funktioniert das genauso wie beim Handwerker?

2. Das große Experiment: Der „Vergessens-Test"

Die Forscher haben verschiedene KI-Modelle (sowohl den „Künstler" als auch den „Handwerker") getestet. Sie haben ihnen Bilder gezeigt, dann ein paar Bilder „verboten" (das sind die zu vergessenden Daten) und verschiedene Methoden angewendet, um sie zu löschen.

Sie haben dabei drei Dinge geprüft:

  1. Wie gut wird vergessen? (Ist das Bild wirklich weg?)
  2. Wie gut bleibt das Wissen? (Kann die KI immer noch andere Bilder erkennen?)
  3. Wie sicher ist es? (Kann ein Hacker herausfinden, dass das Bild einmal da war?)

3. Die wichtigsten Entdeckungen (Die „Aha!"-Momente)

Hier sind die Ergebnisse, übersetzt in Alltagssprache:

  • Das Gedächtnis ist ähnlich: Überraschenderweise merken sich sowohl der alte Handwerker als auch der neue Künstler Bilder auf fast die gleiche Weise. Beide haben eine „lange Liste" von Dingen, die sie sehr fest im Kopf haben, und viele, die sie nur oberflächlich kennen. Das ist gut, denn es bedeutet: Die Tricks, die wir für die alten Modelle erfunden haben, funktionieren auch für die neuen!
  • Der „Schlüssel" zum Vergessen (Memorization Proxies): Um zu wissen, was genau vergessen werden muss, braucht man einen Indikator. Die Forscher haben getestet, ob einfache Tricks (wie: „Wie sicher war die KI bei diesem Bild?") funktionieren.
    • Ergebnis: Ja! Einfache Tricks wie die Selbstvertrauens-Messung (Confidence) oder ein Test mit neuen Daten (Holdout Retraining) funktionieren hervorragend. Man muss nicht das Gehirn der KI komplett zerlegen, um zu wissen, was sie vergessen soll.
  • Welche Methode passt zu welchem Modell?
    • Für den neuen Künstler (ViT) funktioniert es am besten, wenn man ihn einfach ein bisschen nachtrainiert, aber nur auf den Bildern, die er behalten soll (wie ein Nachhilfeunterricht).
    • Für den Künstler mit Struktur (Swin-T) – der etwas mehr wie der alte Handwerker ist – funktioniert eine Methode namens NegGrad+ am besten. Das ist wie ein gezieltes „Löschen" von Verbindungen im Gehirn, das sehr präzise ist.
  • Kein Problem beim ständigen Vergessen: In der echten Welt muss man vielleicht nicht nur ein Bild, sondern jeden Monat neue Bilder vergessen. Die Studie zeigt: Die KI wird dabei nicht müde oder verwirrt. Sie kann Schritt für Schritt Dinge löschen, ohne ihre Intelligenz zu verlieren.

4. Was bedeutet das für uns?

Stellen Sie sich vor, Sie haben eine große Bibliothek (die KI). Früher war es schwierig, ein verbotenes Buch zu entfernen, ohne das Regal zum Einsturz zu bringen.

Diese Studie sagt uns:

  1. Wir haben die Werkzeuge: Die Methoden, die wir für die alten Bibliotheken entwickelt haben, funktionieren auch für die neuen, moderneren Bibliotheken.
  2. Es gibt keine Magie nötig: Man braucht keine komplizierte Hexerei, um die KI zu „entleeren". Einfache, clevere Tricks reichen aus.
  3. Sicherheit ist machbar: Wir können KI-Systeme bauen, die sicher sind und auf die „Recht auf Vergessenwerden" reagieren können, selbst wenn sie die modernste Architektur nutzen.

Fazit:
Die Welt der KI entwickelt sich schnell weiter, aber die Regeln für ethisches und sicheres Verhalten (wie das Löschen von Daten) hinken nicht hinterher. Diese Arbeit ist wie eine Bauanleitung, die uns zeigt, wie wir unsere neuen, super-intelligenten KI-Modelle so handhaben können, dass sie fair, sicher und vertrauenswürdig bleiben – auch wenn wir ihnen befehlen, Dinge zu vergessen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →