Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection

Each language version is independently generated for its own context, not a direct translation.

Titel: De "Verkeersbord"-Truc: Hoe je een AI-kunstenaar veilig maakt zonder zijn talent te breken

Stel je voor dat je een supergetalenteerde kunstenaar hebt die elke foto kan maken die je maar bedenkt. Je zegt: "Maak een schilderij van een hond in de stijl van Van Gogh," en poef, daar is hij. Maar deze kunstenaar heeft een probleem: hij kan ook dingen maken die we liever niet zien, zoals naaktheid of gewelddadige beelden.

Vroeger was de oplossing om de kunstenaar te "herprogrammeren" door hem urenlang te laten oefenen met de boodschap: "Nee, doe dat niet!" (dit noemen wetenschappers fine-tuning). Het probleem? Hierdoor werd de kunstenaar vaak verward. Hij leerde niet alleen "geen naaktheid" te maken, maar verloor ook zijn vaardigheid om mooie landschappen of dieren te tekenen. Het was alsof je een chef-kok dwong om nooit meer zout te gebruiken, en plotseling waren al zijn gerechten smakeloos, zelfs de soep die zout niet nodig had.

De Oplossing: HiRM (High-Level Representation Misdirection)

De onderzoekers in dit paper hebben een slimme, nieuwe manier bedacht om dit op te lossen. Ze noemen het HiRM. Laten we het uitleggen met een analogie.

1. Het Probleem: De "Verkeersbord"-Fout

Stel je voor dat de tekst die je typt (bijv. "naakte vrouw") eerst door een vertaler gaat (de tekstencoder) voordat het bij de kunstenaar (de diffusiemodel) komt.

De oude methode: Je probeerde de vertaler te dwingen om het woord "naakt" te vergeten door hem te laten oefenen. Maar omdat de vertaler heel diep in zijn hoofd werkt, verwarden ze ook andere woorden. "Hond" werd plotseling "kat", en "landschap" werd "ruis". De kunstenaar kreeg een verward bericht en maakte slechte plaatjes.
Het inzicht: De onderzoekers ontdekten dat de vertaler in twee delen werkt:
1. De basis (eerste laag): Hier worden simpele bouwstenen gemaakt (zoals "vorm", "kleur", "textuur").
2. De betekenis (laatste laag): Hier wordt alles samengevoegd tot een duidelijk idee (zoals "een naakte vrouw").

2. De HiRM-Truc: Verkeersborden op de juiste plek

HiRM doet iets heel slimme: het scheidt het probleem op.

Stap 1: De "Misleiding" (Misdirection)
In plaats van de hele vertaler te herschrijven, kijken ze alleen naar het laatste stukje van de vertaling, waar de betekenis zit. Ze zeggen tegen de AI: "Als je het woord 'naakt' ziet, denk dan niet aan naaktheid, maar denk aan een willekeurige gedachte of een veilig concept (zoals 'kleding' of 'ruis')."
Dit is alsof je op een verkeersbord bij een afslag "Gevaar" zet, in plaats van de hele weg dicht te gooien.
Stap 2: De "Oefening" (Alleen de basis)
Maar wacht, als je alleen het bord verandert, luistert de vertaler niet. Dus, ze laten de AI alleen de eerste laag (de basis) oefenen om die nieuwe boodschap te accepteren. Ze laten de rest van de vertaler (de rest van de kennis) rustig slapen.

Waarom is dit zo goed?
Stel je voor dat je een bibliotheek hebt.

De oude methode was alsof je alle boeken in de bibliotheek opnieuw schreef om één slecht verhaal te verwijderen. Daardoor waren ook de goede verhalen beschadigd.
De HiRM-methode is alsof je alleen de index (de lijst met titels) aanpast. Je zegt: "Als iemand 'Slecht Verhaal' vraagt, geef ze dan een boek over 'Veiligheid'." Maar je laat de boeken zelf (de kennis van de bibliotheek) precies zoals ze waren.

De Resultaten in het Kort

Precisie: De AI stopt met het maken van naaktheid of specifieke stijlen (zoals Van Gogh), maar kan nog steeds prachtige foto's maken van honden, bloemen en landschappen. De kwaliteit blijft hoog.
Snelheid: Omdat ze maar een heel klein stukje van de AI hoeven aan te passen (slechts één laag van de vertaler), gaat het trainen heel snel en kost het weinig energie.
Veiligheid: Zelfs als hackers proberen de AI te omzeilen met slimme prompts (zoals "maak een foto van een vrouw zonder kleren, maar noem het 'kunst'"), werkt de truc nog steeds. De AI blijft "veilig".
Taaluniek: Deze truc werkt niet alleen voor oude modellen, maar ook voor de nieuwste, krachtigste AI-modellen (zoals Flux), zonder dat je ze opnieuw hoeft te trainen. Je kunt de "veilige vertaler" gewoon erop plakken.

Conclusie

HiRM is als het plaatsen van een slim veiligheidsnet onder een trapeze-artiest. Je zorgt ervoor dat hij niet naar beneden valt (geen schadelijke content), maar je laat hem wel zijn prachtige acrobatiek doen (mooie, creatieve beelden). Het is een elegante oplossing die de AI veilig maakt zonder haar creativiteit te breken.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Text-to-Image (T2I) diffusiemodellen hebben enorme creatieve mogelijkheden geboden, maar brengen ook risico's met zich mee, zoals het genereren van schadelijke, privégevoelige of auteursrechtelijk beschermde inhoud (bijv. naaktheid, specifieke stijlen of objecten). Bestaande methoden voor het "wissen" van concepten (concept erasure) hebben twee grote beperkingen:

Trainingsgebaseerde methoden: Deze fine-tunen vaak de denoiser (bijv. de U-Net backbone). Dit is computationeel duur en leidt vaak tot een verslechtering van de beeldkwaliteit voor niet-doelconcepten (collateral damage).
Trainingsvrije methoden: Deze manipuleren vaak prompt-embeddings of gewichten zonder training, maar worstelen met een evenwicht tussen effectiviteit van het wissen en het behoud van de generatieve vaardigheid van het model.

Recente causale analyses tonen aan dat visuele attributen gelokaliseerd zijn in de vroege lagen van de tekstencoder (bijv. CLIP), terwijl hoge semantische concepten in de latere lagen tot stand komen. Eerdere pogingen om alleen de vroege lagen aan te passen (zoals Diff-QuickFix) bleken echter onvoldoende voor abstracte concepten (zoals naaktheid) en veroorzaakten vaak "representation shattering", wat de algehele kwaliteit van gegenereerde beelden aantastte.

Methodologie: HiRM (High-Level Representation Misdirection)

De auteurs stellen HiRM voor, een methode die de locatie van modelupdates ontkoppelt van het doel van het semantische wissen. De kernidee is om de updates te beperken tot de vroege lagen (waar de causale staten van visuele attributen zitten), terwijl het leerdoel wordt gedefinieerd in de hoge semantische representaties van de laatste laag.

Technische werking:

Architectuur: HiRM werkt uitsluitend op de CLIP tekstencoder van een T2I-model. De encoder bestaat uit $L$ transformer-blokken.
Decoupling Strategie:
- Updates: Alleen de parameters van het eerste transformer-blok ( $\theta_1$ ) worden bijgewerkt. De rest van de encoder ( $\theta_{2:L}$ ) en de U-Net blijven bevroren.
- Doel: Het verlies wordt berekend op basis van de hoge niveau representaties ( $h^{(L)}$ ) uit het laatste blok.
Misdirection (Afdwaling): Het doel is om de hoge niveau representaties van de doelconcepten (bijv. "Van Gogh" of "naaktheid") weg te sturen van hun oorspronkelijke betekenis naar specifieke doelvectoren, terwijl alleen de vroege lagen worden aangepast om dit te forceren.
- HiRM-R (Random): De representaties worden geleid naar willekeurige vectoren in de representatieruimte. Dit is effectief voor abstracte concepten zoals naaktheid.
- HiRM-S (Semantisch): De representaties worden geleid naar semantisch gedefinieerde vectoren, zoals een overkoepelende categorie (bijv. "Van Gogh" $\to$ "Schilderij"). Dit is effectiever voor specifieke stijlen of objecten.
- Safety Misdirection: Voor naaktheid wordt een specifieke vector gebruikt die is afgeleid van het verschil tussen prompts met en zonder naaktheid (geïnspireerd op Ring-A-Bell), om de naaktheidsspecifieke semantiek te onderdrukken.

Belangrijkste Bijdragen

Ontkoppeling van Update en Doel: HiRM introduceert een nieuwe paradigma waarbij alleen de vroege lagen worden getraind om hoge semantische representaties te manipuleren. Dit voorkomt "representation shattering" en behoudt de integriteit van niet-doelconcepten.
Efficiëntie en Modulariteit: Omdat alleen een klein deel van de tekstencoder wordt bijgewerkt, is de training extreem snel en geheugenefficiënt. De methode is model-agnostisch en kan direct worden toegepast op geavanceerde architecturen zoals Flux en LoRA-aangepaste modellen zonder extra fine-tuning.
Synergie: HiRM werkt complementair met bestaande denoiser-gebaseerde wismethoden. Door HiRM als een "veiligheidspatch" op de tekstencoder te combineren met methoden die de U-Net aanpassen, ontstaat een sterkere, robuustere verdediging.

Resultaten

De auteurs evalueren HiRM op diverse benchmarks, waaronder UnlearnCanvas (stijlen en objecten), I2P (NSFW/naaktheid), en verschillende adversariële aanvalsscenario's (Ring-A-Bell, MMA-Diffusion).

Prestatie op UnlearnCanvas: HiRM bereikt een uitstekend evenwicht tussen het wissen van het doelconcept (hoge Unlearning Accuracy) en het behoud van de kwaliteit voor andere concepten (hoge In-domain en Cross-domain Retention Accuracy). Het presteert beter dan state-of-the-art methoden zoals ESD, MACE en Diff-Q, vooral wat betreft het behoud van generatieve kwaliteit.
Robuustheid: HiRM toont sterke weerstand tegen black-box en white-box adversariële aanvalsmethoden. Vooral HiRM-S presteert uitstekend bij het wissen van naaktheid onder aanval.
Overdraagbaarheid (Transferability): De methode werkt "zero-shot" op het Flux1.dev-model. Hoewel andere methoden (zoals ESD) specifiek voor Flux moeten worden getraind, werkt HiRM direct door alleen de tekstencoder te vervangen, met vergelijkbare prestaties.
Synergie: Combinaties van HiRM met denoiser-methoden (zoals ESD of CA) leiden tot aanzienlijke verbeteringen in robuustheid tegen aanvallen zonder de beeldkwaliteit (gemeten via CLIP-score en FID) significant te verlagen.

Betekenis en Conclusie

HiRM biedt een elegante en efficiënte oplossing voor het veiligheidsprobleem in T2I-modellen. Door in te spelen op de mechanistische lokalisatie van concepten binnen de tekstencoder, vermijdt het de nadelen van het aanpassen van de zware denoiser-component.

De belangrijkste implicaties zijn:

Kostenefficiëntie: Het is veel goedkoper dan het opnieuw trainen van het volledige model of zelfs de U-Net.
Veiligheid: Het biedt een betrouwbare manier om schadelijke content (zoals naaktheid) te blokkeren zonder de creatieve vrijheid van het model voor veilige prompts te beperken.
Toekomstbestendigheid: De modulaire aard maakt het een ideale "plug-and-play" oplossing voor toekomstige diffusiemodellen, ongeacht of ze gebaseerd zijn op U-Net of Rectified Flow Transformers (zoals Flux).

Kortom, HiRM bewijst dat gerichte ingrepen in de tekstencoder, gekoppeld aan hoge semantische doelen, een superieure balans bieden tussen conceptverwijdering en modelgebruik.

Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection

1. Het Probleem: De "Verkeersbord"-Fout

2. De HiRM-Truc: Verkeersborden op de juiste plek

De Resultaten in het Kort

Conclusie

Probleemstelling

Methodologie: HiRM (High-Level Representation Misdirection)

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

IC3-Evolve: Proof-/Witness-Gated Offline LLM-Driven Heuristic Evolution for IC3 Hardware Model Checking

Structural Segmentation of the Minimum Set Cover Problem: Exploiting Universe Decomposability for Metaheuristic Optimization

To Throw a Stone with Six Birds: On Agents and Agenthood

Position: Science of AI Evaluation Requires Item-level Benchmark Data

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models