Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der "Kunst-Koch", der zu viel macht

Stell dir vor, du hast einen genialen Koch (den KI-Modell), der auf Bestellung Bilder kocht. Du sagst ihm: "Mach mir ein Bild von einem Hund im Van-Gogh-Stil." Und zack, da ist es.

Aber dieser Koch hat ein Problem: Er ist so gut, dass er auch Dinge kocht, die wir gar nicht wollen. Zum Beispiel:

Bilder von Prominenten, ohne deren Erlaubnis (Urheberrecht).
Bilder, die zu gewalttätig oder pornografisch sind (NSFW).
Bilder, die bestimmte Stile kopieren, die geschützt sind.

Bisherige Lösungen waren wie ein Schrotthammer: Um das "schlechte" Essen (das unerwünschte Konzept) zu entfernen, hat man den ganzen Kochtrainiert, bis er vergaß, wie man das macht. Das Problem dabei? Der Koch vergaß auch, wie man gute Dinge kocht. Ein Koch, der gelernt hat, keine "Hunde" mehr zu malen, könnte plötzlich auch keine "Katzen" mehr richtig zeichnen oder die Farben werden grau und langweilig.

Die neue Idee: HiRM – Der "Geister-Trick" im Gehirn

Die Autoren dieses Papiers haben eine schlauere Methode namens HiRM entwickelt. Statt den ganzen Koch neu zu trainieren, schauen sie sich genauer an, wie der Koch denkt.

Stell dir den Text-Encoder (den Teil der KI, der deine Worte versteht) wie eine Fabrik mit vielen Stationen vor:

Die unteren Stationen (Frühe Schichten): Hier werden die Grundbausteine verarbeitet. "Hund", "Baum", "Rot", "Blau". Das ist wie der Vorratsraum mit den rohen Zutaten.
Die oberen Stationen (Späte Schichten): Hier werden die Zutaten zu einer fertigen Geschichte zusammengesetzt. "Ein trauriger Hund im Van-Gogh-Stil". Das ist das fertige Gericht.

Das Geheimnis: Die Forscher haben herausgefunden, dass die Bedeutung eines bestimmten Begriffs (z. B. "Van Gogh" oder "Nacktheit") zwar in den unteren Stationen beginnt, aber erst in den oberen Stationen als fertiges Konzept "versteht" wird.

Wie HiRM funktioniert: Die "Falsche Adresse"

HiRM nutzt einen Trick, den man sich wie eine Postverwirrung vorstellen kann:

Das Ziel: Wir wollen, dass der Koch den Begriff "Van Gogh" nicht mehr als "Van Gogh" versteht, sondern als etwas ganz anderes (z. B. einfach nur "Maler" oder gar nichts).
Die alte Methode: Man hat versucht, die ganze Fabrik umzubauen, um das Wort "Van Gogh" zu löschen. Das hat die ganze Produktion gestört.
Die HiRM-Methode:
- Sie greifen nur in die unteren Stationen (die Rohstoffe) ein. Das ist sehr schnell und billig.
- Aber sie sagen den unteren Stationen: "Hey, wenn ihr das Wort 'Van Gogh' seht, schickt es nicht an die 'Van-Gogh-Abteilung' oben, sondern schickt es zu einer falschen Adresse (z. B. zu 'Zufall' oder zu 'allgemeiner Malerei')."
- Die unteren Stationen ändern sich also ein wenig, aber nur so viel, dass sie das Signal umleiten.
- Die oberen Stationen (wo das fertige Bild entsteht) erhalten dann ein Signal, das nicht mehr "Van Gogh" bedeutet, sondern etwas Harmloses.

Die Metapher:
Stell dir vor, du willst verhindern, dass ein Brief "Bomben-Angriff" bedeutet.

Der alte Weg: Du verbrennst die ganze Postkutsche und baust eine neue. (Teuer, langsam, alles ist kaputt).
Der HiRM-Weg: Du änderst nur den Absender-Stempel am Brief (in den unteren Schichten). Der Brief kommt oben an, aber er trägt jetzt den Stempel "Wetterbericht". Der Empfänger (die Bild-Erstellung) denkt also: "Aha, das ist nur Wetter", und malt ein harmloses Bild, statt eine Bombe.

Warum ist das so gut?

Es ist präzise: Nur das "Giftige" wird entfernt. Der Koch kann immer noch "Katzen", "Landschaften" und "andere Stile" perfekt kochen. Die Qualität der guten Bilder bleibt erhalten.
Es ist schnell: Da nur ein kleiner Teil der Maschine (die unteren Schichten) angepasst wird, dauert das Training nur Sekunden oder Minuten, nicht Tage.
Es ist universell: Da sie nur den "Text-Übersetzer" (den Text-Encoder) ändern, funktioniert dieser Trick bei fast jedem modernen KI-Modell, egal ob es SD1.5, SDXL oder das neue "Flux" ist. Man muss den eigentlichen Bild-Koch gar nicht anfassen.
Es ist ein "Sicherheits-Patch": Man kann HiRM wie ein kleines Sicherheits-Update auf jede KI aufspielen, um sie sicherer zu machen, ohne sie neu zu erfinden.

Zusammenfassung

Die Forscher haben einen Weg gefunden, KI-Bildgeneratoren sicherer zu machen, indem sie nicht den ganzen Motor reparieren, sondern nur einen kleinen Schalter im Gehirn umlegen. Sie sagen der KI: "Wenn du das Wort 'X' hörst, denke nicht an 'X', sondern an 'Y'."

Dadurch verschwinden die unerwünschten Bilder (wie Pornografie oder Urheberrechtsverletzungen), aber die KI bleibt ein genialer Künstler für alles andere. Es ist wie ein geheimes Filter-System, das unsaubere Gedanken in harmlose Gedanken umwandelt, bevor sie überhaupt zu Bildern werden.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Text-to-Image (T2I) Diffusionsmodelle haben sich durch ihre Fähigkeit, realistische Bilder aus Textbeschreibungen zu generieren, rasch verbreitet. Dies birgt jedoch Risiken bezüglich der Erzeugung von schädlichen, privaten oder urheberrechtlich geschützten Inhalten (z. B. NSFW-Inhalte, spezifische Künstlerstile oder geschützte Objekte).

Bestehende Lösungsansätze zur „Konzept-Eliminierung" (Concept Erasure) konzentrieren sich meist auf das Fine-Tuning des Denoisers (z. B. des U-Net-Rückgrats). Diese Methoden haben jedoch zwei wesentliche Nachteile:

Hohe Rechenkosten: Das Fine-Tuning großer Modelle ist ressourcenintensiv.
Qualitätsverlust: Das Entfernen eines Zielskonzepts führt oft zu einer Verschlechterung der Bildqualität bei nicht-zugehörigen Konzepten (Kollateralschäden).

Neuere kausale Analysen zeigen, dass visuelle Attributinformationen im Text-Encoder (meist CLIP) lokalisiert sind, insbesondere in den frühen Self-Attention-Schichten. Bisherige Ansätze, die direkt in diese frühen Schichten eingreifen (z. B. Diff-QuickFix), zeigen jedoch bei abstrakten Konzepten wie NSFW-Inhalten oft eine schlechte Balance zwischen Eliminierung und Erhaltung der Generierungsqualität.

2. Methodik: HiRM (High-Level Representation Misdirection)

Die Autoren schlagen HiRM vor, eine Methode, die die Position der Modell-Updates von der Zielsetzung der semantischen Eliminierung entkoppelt.

Kernprinzipien:

Lokalisierung der Updates: HiRM aktualisiert nur die Parameter der ersten Transformer-Block-Schicht des Text-Encoders. Diese Schicht wurde als kausaler Zustand für visuelle Attribute identifiziert. Alle nachfolgenden Schichten bleiben eingefroren.
Ziel der Steuerung (Misdirection): Statt die frühen Repräsentationen direkt zu manipulieren (was zu „Representation Shattering" führt), wird das Lernziel auf die hochleveligen semantischen Repräsentationen im letzten Block des Encoders gelegt.
Mechanismus: Das Modell wird trainiert, die Token-Repräsentationen des Zielkonzepts im letzten Block in eine vordefinierte Richtung zu lenken, während nur die Gewichte des ersten Blocks angepasst werden.

Zwei Varianten von HiRM:

HiRM-R (Random): Die Repräsentationen des Zielkonzepts werden in zufällige Richtungen im Vektorraum gelenkt. Dies ist effektiv für abstrakte Konzepte, bei denen kein klares semantisches Ziel existiert (z. B. NSFW/Nacktheit).
HiRM-S (Semantic): Die Repräsentationen werden in Richtung einer übergeordneten, semantisch verwandten Kategorie gelenkt (z. B. „Van Gogh" $\rightarrow$ „Gemälde"). Dies eignet sich gut für Stile oder Objekte, da die semantische Struktur erhalten bleibt.

Besonderheit bei NSFW: Für das Entfernen von Nacktheit wird ein „Safety Misdirection Vector" verwendet, der auf der Differenz zwischen Prompts mit und ohne Nacktheitsbegriffen basiert (inspiriert von Ring-A-Bell), um die semantischen Komponenten der Nacktheit gezielt zu unterdrücken.

3. Wichtige Beiträge

Entkopplung von Update und Ziel: HiRM ist der erste Ansatz, der die Gewichtsaktualisierung auf die frühen Schichten beschränkt, während das Lernziel (Loss) auf den hochleveligen Repräsentationen der letzten Schicht definiert wird.
Modellunabhängigkeit und Transferfähigkeit: Da HiRM nur den geteilten Text-Encoder (CLIP) modifiziert und nicht den Denoiser, ist die Methode modellagnostisch. Sie lässt sich ohne zusätzliches Training auf fortschrittliche Architekturen wie Flux oder auf mit LoRA angepasste Modelle übertragen.
Synergie mit bestehenden Methoden: HiRM kann als modulares „Safety Patch" mit herkömmlichen Denoiser-basierten Methoden kombiniert werden, um die Robustheit gegen Adversarial Attacks zu erhöhen, ohne die Generierungsqualität zu beeinträchtigen.

4. Ergebnisse

Die Evaluation erfolgte auf mehreren Benchmarks (UnlearnCanvas, I2P, COCO) und gegen diverse Baselines (trainingsbasiert und trainingsfrei).

Leistung auf UnlearnCanvas (Stile & Objekte): HiRM erreicht eine hohe Unlearning-Accuracy (UA) bei gleichzeitiger Erhaltung der In-Domain und Cross-Domain Retention (IRA/CRA). Im Gegensatz zu vielen Baselines, die einen Trade-off zwischen Eliminierung und Qualität zeigen, erzielt HiRM eine ausgewogene Performance.
NSFW-Eliminierung: Auf dem I2P-Benchmark (Nacktheit) zeigt HiRM eine starke Robustheit gegen Adversarial Attacks (z. B. Ring-A-Bell, MMA-Diffusion). HiRM-S erzielt hier die besten Ergebnisse, indem es die semantische Struktur bewahrt, während NSFW-Inhalte effektiv unterdrückt werden.
Effizienz: Da nur ein kleiner Teil des Modells (erster Block des Encoders) trainiert wird, ist HiRM deutlich schneller und speichereffizienter als Full-Fine-Tuning-Methoden (z. B. ESD, MACE).
Transfer auf Flux: HiRM wurde erfolgreich auf das Flux1.dev-Modell übertragen, ohne dass ein Fine-Tuning des Denoisers notwendig war. Es reduzierte die Generierung von Nacktheit um fast 50 % bei Beibehaltung der COCO-CLIP-Scores.
Synergie-Effekte: Die Kombination von HiRM mit Denoiser-basierten Methoden (z. B. ESD + HiRM) führte zu einer drastischen Reduktion der Angriffserfolgsrate (z. B. von 41 % auf 12 % bei Ring-A-Bell), während die Bildqualität erhalten blieb.

5. Bedeutung und Ausblick

HiRM stellt einen Paradigmenwechsel in der Forschung zur Sicherheit von T2I-Modellen dar. Anstatt das gesamte Modell neu zu trainieren oder komplexe Eingabemanipulationen vorzunehmen, nutzt HiRM die kausale Struktur des Text-Encoders aus.

Bedeutung:

Kosteneffizienz: Ermöglicht schnelles und günstiges „Unlearning" von Konzepten.
Sicherheit: Bietet einen robusten Schutz gegen Adversarial Attacks und NSFW-Inhalte.
Flexibilität: Funktioniert als Plug-and-Play-Lösung für verschiedene Architekturen (SD, Flux) und kann mit anderen Sicherheitsmechanismen kombiniert werden.

Zukünftige Arbeiten:
Die Autoren planen, die Methode zu verfeinern, indem sie die token-spezifische Wichtigkeit berücksichtigen (statt alle Token gleich zu behandeln) und die Methode auf komplexere Szenarien mit mehreren Konzepten oder kompositorischen Prompts erweitern.

Zusammenfassend bietet HiRM einen effizienten, robusten und modellunabhängigen Weg, um unerwünschte Konzepte aus Text-to-Image-Modellen zu entfernen, ohne die generative Leistungsfähigkeit für legitime Anwendungen zu beeinträchtigen.

Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection

Das Problem: Der "Kunst-Koch", der zu viel macht

Die neue Idee: HiRM – Der "Geister-Trick" im Gehirn

Wie HiRM funktioniert: Die "Falsche Adresse"

Warum ist das so gut?

Zusammenfassung

1. Problemstellung

2. Methodik: HiRM (High-Level Representation Misdirection)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

IC3-Evolve: Proof-/Witness-Gated Offline LLM-Driven Heuristic Evolution for IC3 Hardware Model Checking

Structural Segmentation of the Minimum Set Cover Problem: Exploiting Universe Decomposability for Metaheuristic Optimization

To Throw a Stone with Six Birds: On Agents and Agenthood

Position: Science of AI Evaluation Requires Item-level Benchmark Data

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models