EraseAnything++: Enabling Concept Erasure in Rectified Flow Transformers Leveraging Multi-Object Optimization

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen magischen Künstler, der auf deine Worte hin Bilder und sogar ganze Filme zeichnet. Dieser Künstler ist unglaublich talentiert, aber er hat ein Problem: Manchmal malt er Dinge, die wir nicht sehen wollen – etwa gewalttätige Szenen, Nacktheit oder urheberrechtlich geschützte Kunststile.

Früher gab es Methoden, um diesen Künstler „umzuerziehen", indem man ihm einfach sagte: „Mach das nicht mehr." Aber das funktionierte bei den neuen, super-schnellen Künstlern (die sogenannten Flow-Matching-Transformer, wie Flux oder OpenSora) nicht mehr gut. Wenn man ihnen zu streng sagte, was sie nicht tun dürfen, vergaßen sie plötzlich auch, wie man schöne Sonnenuntergänge oder lustige Hunde malt. Sie wurden entweder zu „schmutzig" oder zu „dumm".

Hier kommt EraseAnything++ ins Spiel. Es ist wie ein hochmoderner, diplomatischer Coach für diesen KI-Künstler.

Die Hauptidee: Ein schwieriges Tanz-Problem

Stell dir vor, der Coach muss zwei Dinge gleichzeitig tun:

Dem Künstler beibringen, nie wieder ein bestimmtes verbotenes Thema (z. B. „Nacktheit") zu malen.
Sicherstellen, dass der Künstler immer noch alles andere perfekt malt (z. B. „Hunde", „Sonnenuntergänge").

Das ist wie ein Tanz, bei dem man einen Fuß fest auf den Boden drücken muss (das Verbot), aber mit dem anderen Fuß elegant tanzen darf (die Kreativität). Wenn man zu fest drückt, stolpert man. Wenn man zu locker tanzt, fällt das Verbot durch.

Wie funktioniert EraseAnything++?

Der Paper beschreibt drei geniale Tricks, wie dieser Coach das macht:

1. Der „Ziel- und-Verbreiten"-Trick (Für Videos)

Bei Videos ist es besonders schwierig. Wenn du sagst: „Mach das nicht in diesem Film", passiert oft folgendes: Der Film beginnt sauber, aber nach ein paar Sekunden taucht das verbotene Ding plötzlich wieder auf, weil sich die KI im Laufe der Zeit „verwirrt" (man nennt das Temporal Drift).

Die Lösung: EraseAnything++ nutzt eine Anker-Strategie.

Der Anker: Der Coach schaut sich den allerersten Frame (das erste Bild) des Videos genau an und stellt sicher, dass dort gar nichts Verbotenes ist. Das ist der Anker.
Das Verbreiten: Dann sorgt er dafür, dass diese Sauberkeit wie eine Welle durch den ganzen Rest des Videos fließt. Es ist, als würde man einen sauberen Fleck auf einem Tisch haben und sicherstellen, dass sich dieser Sauberkeits-Film über die ganze Tischplatte ausbreitet, ohne dass sich Schmutz dazwischen mischt.

2. Der „Diplomatische Schiedsrichter" (Optimierung)

Frühere Methoden waren wie ein strenger Lehrer, der schrie: „Lösch das!" und dabei versehentlich auch das Gute mitlöschte. Oder wie ein fauler Lehrer, der sagte: „Behalt alles", und das Verbotene einfach ignorierte.

Die Lösung: EraseAnything++ nutzt eine mathematische Schiedsrichter-Methode (Multi-Objective Optimization).
Stell dir vor, der Coach hat zwei Gewichte in der Hand: eines für das Löschen und eines für das Behalten. Er berechnet genau, wie stark er drücken muss, damit das Löschen passiert, aber das Behalten nicht leidet.

Wenn das Löschen das Behalten gefährdet, greift der Schiedsrichter ein und korrigiert die Bewegung, genau so viel wie nötig, aber nicht mehr.
Das verhindert, dass der KI-Künstler „vergisst", wie man normale Dinge malt (ein Phänomen, das man Catastrophic Forgetting nennt).

3. Der „Verwirrungs-Trick" (Gegen Tricks)

Böse Nutzer versuchen oft, die KI zu täuschen, indem sie das verbotene Wort leicht ändern (z. B. statt „Nackt" schreiben sie „Nakkt" oder fügen sinnlose Buchstaben hinzu). Frühere Methoden fielen darauf herein.

Die Lösung: Der Coach nutzt GPT-4o (eine andere KI), um sich Listen von sinnvollen, aber unverwandten Dingen zu erstellen.

Wenn das Ziel „Nackt" ist, sagt der Coach: „Okay, wir müssen sicherstellen, dass das Wort 'Nackt' nicht mehr mit dem Bild von nackten Menschen verbunden ist. Aber wir müssen auch sicherstellen, dass es nicht mit 'Hund' oder 'Auto' verwechselt wird."
Er trainiert die KI so, dass sie das verbotene Konzept wie einen Fremdkörper behandelt, der nichts mit dem Bild zu tun hat, selbst wenn der Nutzer das Wort leicht verändert.

Warum ist das wichtig?

Bisher gab es keine gute Lösung für die neuesten, mächtigsten KI-Modelle, die sowohl Bilder als auch Videos erstellen. Entweder war das Löschen unvollständig (das Verbotene kam wieder) oder die Qualität des Ganzen war ruiniert.

EraseAnything++ ist wie ein Meister-Handwerker, der:

Ein verbotenes Detail aus einem Bild oder Film herausschneidet, ohne das ganze Bild zu beschädigen.
Sicherstellt, dass der Film flüssig bleibt und nicht zittert.
Auch dann funktioniert, wenn die Nutzer versuchen, die KI mit Tricks zu täuschen.

Zusammenfassend:
Stell dir EraseAnything++ als einen unsichtbaren, super-intelligenten Filter vor, der nicht einfach alles blockiert, sondern den KI-Künstler so umschult, dass er das Verbotene nie mehr versteht, aber gleichzeitig alles andere noch besser malt als zuvor. Es ist der erste Schritt zu KI-Systemen, die wirklich sicher und kontrollierbar sind, ohne ihre Kreativität zu verlieren.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Mit dem Aufkommen fortschrittlicher Text-zu-Bild (T2I) und Text-zu-Video (T2V) Modelle wie Stable Diffusion v3, Flux und OpenSora hat sich die Architektur von traditionellen U-Net-Modellen (basierend auf DDPM) hin zu Flow-Matching-Objektiven und Transformer-basierten Architekturen (DiT) verschoben. Diese neuen Modelle bieten zwar höhere Qualität und Prompt-Treue, stellen jedoch eine große Herausforderung für die Konzept-Erasur (das gezielte Entfernen unerwünschter Konzepte wie NSFW-Inhalte oder Urheberrechtsverletzungen) dar:

Architektur-Inkompatibilität: Bestehende Methoden (z. B. ESD, CA, EAP), die für ältere U-Net-Modelle entwickelt wurden, funktionieren nicht direkt auf Flow-Matching-Transformern, da diese keine expliziten Cross-Attention-Schichten mehr besitzen, die für traditionelle Gewichtsanpassungen genutzt wurden.
Text-Encoder-Herausforderung: Während ältere Modelle CLIP nutzen, verwenden Flux und OpenSora den T5-Encoder. T5 arbeitet auf Satzebene statt auf Wortebene, was herkömmliche Ähnlichkeitsmetriken für die Identifizierung irrelevanter Konzepte unbrauchbar macht.
Temporale Drift in Videos: Bei der Videoerstellung neigen Konzepte dazu, über die Zeit wiederzukehren („Concept Drift"), da Informationen durch temporale Attention-Mechanismen zwischen den Frames propagiert werden. Bestehende Methoden können diese zeitliche Konsistenz nicht aufrechterhalten.
Zielkonflikt: Es besteht ein fundamentaler Trade-off zwischen dem effektiven Löschen eines Ziels und dem Erhalt der generativen Fähigkeiten des Modells für andere Konzepte (Vermeidung von „Catastrophic Forgetting").

2. Methodik

EraseAnything++ stellt ein einheitliches Framework vor, das das Problem der Konzept-Erasur als eingeschränktes Multi-Objective-Optimierungsproblem (MOO) formuliert.

A. Theoretisches Fundament: Multi-Objective Optimization (MOO)

Das Ziel ist es, die Wahrscheinlichkeit des Zielskonzepts ( $L_e$ ) zu minimieren, während die Leistung für irrelevante Konzepte ( $L_p$ ) streng begrenzt bleibt.

Implizite Gradient-Chirurgie (Implicit Gradient Surgery): Um den Konflikt zwischen den Gradienten der beiden Ziele zu lösen, wird eine effiziente Strategie entwickelt, die auf Gradient-Projektion basiert. Statt beide Gradienten separat zu berechnen (was teuer wäre), wird ein dualer Variablen-Update-Mechanismus ( $\lambda_t$ ) verwendet, der den Verlustverschiebungsgrad schätzt. Dies ermöglicht eine „unsichtbare" Chirurgie mit nur einem Backpropagation-Schritt pro Iteration.
Toleranzkegel: Durch die Einführung einer Toleranz $\epsilon_t$ wird verhindert, dass das Optimierungsverfahren in einem Deadlock stecken bleibt, wenn die Gradienten diametral entgegengesetzt sind.

B. Bildgenerierung (Flux)

LoRA-basierte Anpassung: Anstatt das gesamte Modell zu fine-tunen, werden Low-Rank Adaptation (LoRA)-Parameter verwendet, um die Modellaktivitäten zu steuern.
Verlustfunktionen:
- $L_{esd}$ : Eine angepasste ESD-Loss, die die Velocity-Vorhersage des Flow-Matching-Modells von der Zielprompt-Trajektorie weg in Richtung der unbedingten (Null-Text) Trajektorie lenkt.
- $L_{attn}$ : Eine Regularisierung der Attention-Karten, um die Aktivierung spezifischer Token zu unterdrücken. Um eine Positionsmemorierung zu vermeiden, wird die Wortreihenfolge während des Trainings zufällig gemischt.
- Reverse Self-Contrastive Loss (RSC): Da T5 keine zuverlässigen Wort-Ähnlichkeiten liefert, nutzt das System ein LLM (GPT-4o), um irrelevante Konzepte zu generieren. Der RSC-Loss zwingt das Modell, das Zielskonzept von seinen Synonymen zu trennen und es stattdessen in den Merkmalsraum irrelevanter Konzepte zu verschieben.

C. Videogenerierung (OpenSora)

Für Videos wird eine Anchor-and-Propagate-Strategie eingeführt:

Anker (Anchor): Die erste Frame wird als Anker behandelt, auf dem die vollständige räumliche Optimierung (Erasur + Erhaltung) angewendet wird, um einen „gereinigten" Startzustand zu gewährleisten.
Propagation: Die Optimierung wird über die gesamte zeitliche Dimension (3D-Volumen) propagiert. Dies geschieht durch volumetrische Attention-Regularisierung und die Ausweitung des RSC-Loss auf den zeitlichen Kontext, um zu verhindern, dass das Konzept durch temporale Attention-Schichten wieder „einsickert".

3. Hauptbeiträge

Einheitliches Framework: EraseAnything++ ist das erste Framework, das Konzept-Erasur erfolgreich auf moderne Flow-Matching-Transformer sowohl für Bilder als auch für Videos anwendet.
Theoretische Formulierung: Die Umformulierung der Erasure als eingeschränktes MOO-Problem mit einer rigorosen mathematischen Modellierung des Trade-offs zwischen Löschen und Bewahren.
Effiziente Optimierung: Einführung einer impliziten Gradient-Chirurgie, die den Rechenaufwand im Vergleich zu herkömmlichen MOO-Lösungen (wie PCGrad oder MGDA) drastisch reduziert und dennoch stabile Konvergenz garantiert.
Zeitliche Konsistenz: Die Entwicklung der „Anchor-and-Propagate"-Methode, die das Problem des temporalen Drifts in Video-Generierungslösungen effektiv löst.
LLM-gestützte Konzeptauswahl: Ein innovativer Ansatz zur dynamischen Generierung irrelevanter Konzepte mittels LLMs, um die Limitierungen von T5-Embeddings zu umgehen.

4. Ergebnisse

Die Methode wurde auf umfangreichen Benchmarks für Bilder (Flux.1 [dev]) und Videos (Open-Sora-v2) evaluiert:

Bilder (NSFW & Stil):
- Auf dem I2P-Datensatz (NSFW) erreicht EraseAnything++ eine der niedrigsten Raten an erkannten expliziten Inhalten (182 von 4.703 Prompts), nur knapp hinter UCE, aber mit deutlich besserer Bildqualität (FID/CLIP-Scores).
- Beim Entfernen künstlerischer Stile (200-Artist-Datensatz) erzielt es den höchsten $H_a$ -Score (Balance zwischen Löschen und Bewahren), was zeigt, dass es Stile präzise entfernt, ohne andere Stile zu beeinträchtigen.
- Robustheit: Das Modell ist deutlich widerstandsfähiger gegen Prompt-Attacken (z. B. Tippfehler, Synonyme) als vorherige SOTA-Methoden.
Videos:
- Auf Open-Sora reduziert EraseAnything++ die NSFW-Rate auf ein neues State-of-the-Art-Niveau (17,29 %), während es gleichzeitig die Objektkonsistenz und die zeitliche Kohärenz (Subject Consistency) besser erhält als Methoden wie VideoEraser oder T2VUnlearning.
- Qualitative Analysen zeigen, dass das Modell das unerwünschte Attribut entfernt, ohne den Hauptgegenstand zu zerstören oder zeitliches Flackern zu verursachen.
Ablationsstudien: Die Studien bestätigen, dass alle Komponenten (insbesondere der RSC-Loss und die MOO-Strategie) notwendig sind. Herkömmliche MOO-Lösungen (wie PCGrad) scheitern hier oft, da sie zu konservativ sind und die Erasure nicht tief genug durchführen.

5. Bedeutung

EraseAnything++ adressiert eine kritische Lücke in der Sicherheit von KI-Systemen. Während frühere Methoden für veraltete Architekturen geeignet waren, bietet dieses Paper eine skalierbare, theoretisch fundierte Lösung für die nächste Generation von Generativmodellen. Es beweist, dass es möglich ist, spezifische Konzepte (wie Nacktheit oder urheberrechtlich geschützte Stile) aus hochkomplexen Transformer-Modellen zu entfernen, ohne die generelle Leistungsfähigkeit des Modells zu beeinträchtigen oder zeitliche Inkonsistenzen in Videos zu erzeugen. Dies ist ein wesentlicher Schritt hin zu verantwortungsvoll einsetzbaren, sicheren generativen KI-Systemen.