REFORGE: Multi-modal Attacks Reveal Vulnerable Concept Unlearning in Image Generation Models

Each language version is independently generated for its own context, not a direct translation.

🎨 Das „Reparatur-Problem" bei KI-Künstlern

Stellen Sie sich vor, Sie haben einen genialen KI-Künstler (wie Stable Diffusion), der alles malen kann. Leider hat dieser Künstler auch einige unangenehme Gewohnheiten gelernt: Er malt gerne urheberrechtlich geschützte Werke (z. B. im Stil von Van Gogh) oder Dinge, die er gar nicht zeigen sollte (z. B. Nacktheit).

Um das zu beheben, haben Forscher eine Art „Gedächtnis-Chirurgie" entwickelt. Sie nennen das Unlearning (Vergessen). Dabei wird dem KI-Modell beigebracht, bestimmte Konzepte zu vergessen, ohne das ganze Gehirn neu trainieren zu müssen. Es ist, als würde man einem Schüler sagen: „Vergiss bitte, wie man Van-Gogh-Stil malt."

🕵️‍♂️ Der neue Trick: „REFORGE"

Das Problem ist: Die Forscher haben herausgefunden, dass dieses „Vergessen" nicht so stabil ist, wie man dachte. Ein neuer Angriff namens REFORGE zeigt, wie man diese KI wieder dazu bringen kann, genau das zu malen, was sie eigentlich vergessen sollte.

Stellen Sie sich den Angriff wie einen Meisterdieb vor, der einen Tresor knacken will:

Das Szenario (Der schwarze Kasten): Der Dieb (der Angreifer) darf nicht in den Tresor (das KI-Modell) schauen. Er kennt die inneren Räder und Zahnräder nicht. Er kann nur von außen Fragen stellen und Ergebnisse sehen. Das nennt man „Black-Box".
Der Trick (Text + Bild): Normalerweise versuchen Diebe, nur mit Worten (Text-Prompts) den Tresor zu knacken. REFORGE ist aber schlauer: Er bringt dem Dieb bei, ein Bild mitzubringen.
Die Methode (Der Pinselstrich):
- Der Dieb nimmt ein Bild des verbotenen Stils (z. B. ein echtes Van-Gogh-Gemälde).
- Er macht es unscharf und malt es nur noch mit groben Pinselstrichen nach. Die Details sind weg, aber die Form und die Farben sind noch da.
- Dann nutzt er eine spezielle Technik (die „Cross-Attention-Maske"), um zu erkennen: „Aha, hier auf dem Bild ist der Bereich, der für den Van-Gogh-Stil verantwortlich ist."
- Er fügt nur in diesen Bereichen winzige, unsichtbare Störungen hinzu – wie ein fast unsichtbarer Fingerabdruck auf dem Glas des Tresors.
Das Ergebnis: Wenn der KI-Künstler nun dieses grobe Strichbild zusammen mit dem Text „Malt ein Dorf unter einem Sternenhimmel" sieht, „erinnert" er sich plötzlich wieder an den verbotenen Stil und malt ihn. Das „Vergessen" war nur ein Witz.

🧠 Warum ist das wichtig? (Die Analogie)

Stellen Sie sich vor, Sie haben einen Sicherheitsmechanismus installiert, der verhindert, dass jemand in Ihr Haus einbricht, indem er die Türschlösser entfernt (das ist das „Unlearning").

Bisherige Tests: Man hat nur geschaut, ob jemand die Tür mit einem Dietrich (Text-Prompts) aufbekommt.
REFORGE: Dieser neue Test zeigt, dass ein Dieb auch durch das Fenster (das Bild-Eingabefeld) einsteigen kann, wenn er nur das richtige Werkzeug (die gestörten Pinselstriche) benutzt.

Die Studie zeigt: Die aktuellen Methoden, um KI-Künstler „sicher" zu machen, sind nicht robust genug. Sie funktionieren gut, wenn man sie nur mit Text konfrontiert, aber sobald man auch Bilder als Eingabe erlaubt, lassen sie sich leicht austricksen.

🚀 Die wichtigsten Erkenntnisse in Kürze

Schneller und effizienter: REFORGE ist viel schneller als andere Angriffe (wie ein Rennwagen im Vergleich zu einem Fahrrad).
Besserer Trick: Durch die Nutzung von groben Strichzeichnungen und dem gezielten Hinzufügen von Störungen an den richtigen Stellen funktioniert der Angriff besser als reine Text-Manipulation.
Warnung: Die KI-Sicherheit muss dringend verbessert werden. Man darf sich nicht darauf verlassen, dass ein Konzept einfach „gelöscht" wurde. Es muss so robust gemacht werden, dass es auch gegen solche Bild-Angriffe standhält.

Zusammenfassend: Das Papier sagt uns: „Wir dachten, wir haben die KI geheilt, aber sie hat nur eine neue Schwachstelle gefunden. Wir müssen die Heilung verbessern, bevor die Diebe (Hacker) alle unsere Sicherheitsvorkehrungen umgehen."

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Bildgenerierungsmodelle (IGMs) wie Stable Diffusion haben die Erstellung hochwertiger Inhalte revolutioniert, bergen jedoch erhebliche Sicherheitsrisiken, z. B. die Reproduktion von urheberrechtlich geschütztem Material oder die Generierung von anstößigen Inhalten. Um diese Risiken zu mindern, wird Image Generation Model Unlearning (IGMU) eingesetzt, um spezifische Konzepte aus dem Modell zu entfernen, ohne das gesamte Modell neu zu trainieren.

Das zentrale Problem, das dieses Paper adressiert, ist die mangelnde Robustheit dieser Unlearning-Methoden gegen adversarielle Angriffe. Während weiße-Box-Angriffe (mit Zugriff auf Modellparameter) bereits untersucht wurden, ist die Anfälligkeit von Unlearning-Mechanismen gegenüber Black-Box-Angriffen, insbesondere durch Bild-Eingaben (Image-Modality), weitgehend unerforscht. Bisherige Red-Teaming-Ansätze konzentrierten sich hauptsächlich auf Text-Prompts. Die Autoren zeigen, dass Unlearning-Mechanismen auch durch manipulierte Bild-Prompts umgangen werden können, was die Sicherheit aktueller IGMU-Methoden in Frage stellt.

2. Methodik: Das REFORGE-Framework

REFORGE ist ein Black-Box-Red-Teaming-Framework, das adversarielle Bild-Prompts generiert, um gelöschte Konzepte wiederherzustellen, ohne Zugriff auf die Parameter oder Gradienten des Zielmodells zu benötigen. Der Prozess besteht aus vier Hauptphasen:

A. Bedrohungsmodell: Der Angreifer hat keinen Zugriff auf das Zielmodell ( $M_u$ ), kann aber Text- und Bild-Eingaben über die Standard-Schnittstelle senden und die Ausgabe beobachten. Zur Optimierung wird ein öffentliches Proxy-Modell (z. B. Stable Diffusion) verwendet.
B. Initialisierung (Stroke-based Initialization): Anstatt ein rohes Bild zu verwenden, wird ein Referenzbild ( $P_{ref}$ ) in ein strichbasiertes Bild ( $P^*_{adv}$ ) umgewandelt. Dies geschieht durch Anwendung eines Median-Filters (zur Entfernung von Hochfrequenzdetails), Farbquantisierung und das Rendern von regionsbasierten Strichen. Dies bewahrt die globale Komposition und grobe Farbtöne, unterdrückt aber feine Details, was die semantische Konsistenz mit dem Text-Prompt erhält.
C. Masken-Konstruktion (Cross-Attention-Guided Masking): Um die Angriffsstärke zu maximieren und die visuelle Unschärfe zu minimieren, werden Cross-Attention-Karten des Proxy-Modells genutzt. Diese Karten zeigen räumliche Bereiche, die stark mit den Konzept-Tokens im Text-Prompt verbunden sind. Daraus wird eine räumliche Maske $M$ abgeleitet, die das Rauschen (die Perturbation) gezielt auf konzeptrelevante Regionen lenkt.
D. Latent-Alignment-Optimierung: Die Optimierung findet im latenten Raum des Proxy-Modells statt. Das Ziel ist es, den latenten Vektor des adversariellen Bildes ( $z_{adv}$ ) so anzupassen, dass er dem latenten Vektor des Referenzbildes ( $z_{ref}$ ) entspricht. Dies geschieht durch Minimierung eines Alignment-Loss (MSE), wobei die Gradientenupdates durch die Maske $M$ gewichtet werden:
$P_{adv}^{(k)} = P_{adv}^{(k-1)} - \eta \cdot (\nabla P_{adv} \mathcal{L}_{align} \odot M)$
Dies stellt sicher, dass Änderungen nur dort vorgenommen werden, wo sie für das Wiederauftauchen des gelöschten Konzepts entscheidend sind.
E. Evaluation: Das optimierte Bild-Prompt ( $P_{adv}$ ) wird zusammen mit dem ursprünglichen Text-Prompt ( $P_{text}$ ) an das ungelernnte Zielmodell gesendet, um zu prüfen, ob das gelöschte Konzept wieder erscheint.

3. Hauptbeiträge

REFORGE-Framework: Einführung des ersten Black-Box-Red-Teaming-Frameworks, das sich speziell auf die Bild-Modality für IGMU konzentriert und die Zerbrechlichkeit aktueller Unlearning-Mechanismen unter realistischen, multimodalen Angriffen aufzeigt.
Strategische Maskierung: Entwicklung einer neuen Maskierungsstrategie, die Cross-Attention-Karten nutzt, um Perturbationen gezielt auf konzeptrelevante Bildbereiche zu verteilen. Dies balanciert die Angriffswirksamkeit mit der visuellen Unmerklichkeit und der semantischen Treue zum Text-Prompt.
Umfassende Evaluierung: Durchführung umfangreicher Experimente über verschiedene Unlearning-Aufgaben (z. B. Entfernung von Nacktheit, Objekten wie Fallschirmen und Stilen wie Van Gogh) und verschiedene Unlearning-Methoden (Weight Editing, Adversarial Training, Pruning).

4. Ergebnisse

Die Experimente wurden auf drei repräsentativen Aufgaben (Nacktheit, Fallschirm, Van-Gogh-Stil) und sechs verschiedenen Unlearning-Methoden durchgeführt.

Angriffserfolgsrate (ASR): REFORGE übertrifft alle bestehenden Black-Box-Baselines (wie SneakyPrompt, MMA, Ring-A-Bell) signifikant. Beispielsweise erreichte REFORGE bei der Aufgabe „Van Gogh-Stil" eine durchschnittliche ASR von 74,99 %, während die besten Baselines bei ca. 62–70 % lagen. Bei „Fallschirm" erreichte REFORGE sogar 70,36 % im Durchschnitt.
Semantische Ausrichtung (CLIP Score): Im Gegensatz zu textbasierten Angriffen, die oft die Konsistenz zwischen Bild und Text beeinträchtigen, erzielt REFORGE die höchsten CLIP-Scores. Dies liegt an der strichbasierten Initialisierung, die die globale Struktur bewahrt.
Effizienz: REFORGE ist deutlich schneller als die Konkurrenz. Während andere Methoden ca. 290s bis 1000s pro Beispiel benötigen, generiert REFORGE ein adversarielles Beispiel in nur ca. 35 Sekunden.
Robustheit gegen Verteidigungen: Selbst bei Unlearning-Methoden, die mit adversariellem Training verstärkt wurden (z. B. AdvUnlearn), bleibt REFORGE erfolgreich und übertrifft andere Angriffe deutlich.

5. Bedeutung und Fazit

Das Paper demonstriert eindrücklich, dass aktuelle Methoden zum „Vergessen" von Konzepten in KI-Modellen nicht robust gegenüber multimodalen adversariellen Angriffen sind. Die Tatsache, dass gelöschte Konzepte (wie urheberrechtlich geschützte Stile oder NSFW-Inhalte) durch die Kombination aus unverändertem Text und einem optimierten Bild-Prompt wiederhergestellt werden können, stellt eine kritische Sicherheitslücke dar.

Die Schlussfolgerung ist, dass zukünftige Unlearning-Methoden nicht nur gegen Text-Prompts, sondern explizit gegen Black-Box-Angriffe mit Bild-Eingaben abgesichert werden müssen. REFORGE dient als wichtiges Werkzeug (Red-Teaming), um diese Schwachstellen aufzudecken und die Entwicklung robusterer Sicherheitsmechanismen für AIGC-Systeme voranzutreiben.

REFORGE: Multi-modal Attacks Reveal Vulnerable Concept Unlearning in Image Generation Models

🎨 Das „Reparatur-Problem" bei KI-Künstlern

🕵️‍♂️ Der neue Trick: „REFORGE"

🧠 Warum ist das wichtig? (Die Analogie)

🚀 Die wichtigsten Erkenntnisse in Kürze

1. Problemstellung

2. Methodik: Das REFORGE-Framework

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Sparse Goodness: How Selective Measurement Transforms Forward-Forward Learning

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Adaptive Memory Crystallization for Autonomous AI Agent Learning in Dynamic Environments

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking