Prototype-Guided Concept Erasure in Diffusion Models

Each language version is independently generated for its own context, not a direct translation.

Het Probleem: De "Schaar" die te grof is

Stel je voor dat je een kunstenaar hebt die fantastische schilderijen maakt op basis van wat je zegt. Maar deze kunstenaar heeft een probleem: hij heeft op internet geleerd om ook dingen te tekenen die we liever niet zien, zoals geweld, naaktheid of haat.

Bestaande methoden om dit te stoppen, werken vaak als een grote, stompe schaar.

Als je wilt dat hij "geen Pikachu" tekent, werkt de schaar perfect. Pikachu is één specifiek ding.
Maar wat als je zegt: "Geen geweld"? Wat is "geweld"? Dat kan een mes zijn, een pistool, een vechtpartij, een oorlog, of iemand die bloedt.

De oude methoden proberen één ding uit te snijden (bijvoorbeeld "bloed"), maar vergeten de rest (zoals "pistolen"). Het resultaat? De kunstenaar stopt met het tekenen van bloed, maar tekent wel gewoon een man met een pistool. De "gevaarlijke" boodschap komt er nog steeds door.

De Oplossing: Een "Schatkaart" met meerdere punten

De auteurs van dit paper (van de Universiteit van Fudan en NUS) hebben een slimme nieuwe manier bedacht. In plaats van één grote schaar te gebruiken, maken ze een schatkaart met meerdere belangrijke punten.

Ze noemen dit "Prototype-Guided Concept Erasure". Laten we het uitleggen met een analogie:

Stap 1: Het verzamelen van "Voorbeelden" (De Prototypes)

Stel je voor dat je wilt leren wat "geweld" is, maar je wilt het niet zien. De kunstenaar (het AI-model) heeft duizenden voorbeelden van geweld in zijn hoofd.

De onderzoekers vragen de kunstenaar: "Teken een gewelddadige scène."
Dan vragen ze: "Teken dezelfde scène, maar dan zonder het geweld."
Ze kijken naar het verschil tussen die twee tekeningen.

Ze doen dit niet één keer, maar honderden keren. Ze ontdekken dat "geweld" niet één ding is, maar veel verschillende vormen heeft:

Een bloedbad (bloed).
Een vuurgevecht (pistolen).
Een rellen (menigten).
Een aanval met een bijl.

In plaats van te zeggen "Haal 'geweld' weg", maken ze een verzameling van sleutelpunten (de prototypes). Het is alsof ze een doos met sleutels maken: één sleutel opent de deur naar "bloed", een andere naar "pistolen", een andere naar " rellen".

Stap 2: Het vertalen naar "Taal"

Deze sleutels zitten eerst in de taal van de afbeeldingen (kleuren, vormen). Maar de kunstenaar luistert naar woorden.
Dus, de onderzoekers vertalen deze visuele sleutels naar woorden. Ze "leren" het model nieuwe, onzichtbare woorden die precies die specifieke vormen van geweld beschrijven, zonder dat ze het model hoeven te herschrijven (geen zware training nodig!).

Stap 3: De "Anti-Remise" tijdens het tekenen

Nu komt het echte toverwerk. Als een gebruiker vraagt: "Teken een spannende actiescène", kijkt het systeem naar de schatkaart.

Het ziet dat de gebruiker misschien iets over "geweld" vraagt.
Het pakt de juiste sleutel uit de doos (bijvoorbeeld de sleutel voor "bloed" of "pistolen").
Het zegt tegen de kunstenaar: "Teken de scène, maar duw heel hard weg van de sleutel 'bloed' en de sleutel 'pistolen'."

Dit gebeurt in één keer, terwijl het tekenen gebeurt. Het is alsof je een kompas hebt dat je altijd wegduwt van de gevaarlijke gebieden, zodat je veilig door het landschap kunt reizen zonder er per ongeluk in te stappen.

Waarom is dit zo goed?

Het is flexibel: Omdat ze meerdere sleutels (prototypes) hebben, vangen ze de hele breedte van een concept. Of het nu gaat om naaktheid, haat of geweld, ze vangen de verschillende vormen ervan in.
Het is snel: Ze hoeven de kunstenaar niet maandenlang te herscholen. Ze gebruiken alleen slimme trucs tijdens het tekenen zelf.
Het is veilig: De kwaliteit van de andere dingen blijft perfect. Als je vraagt om een "mooie zonsondergang", ziet de kunstenaar er geen enkel probleem mee. Hij haalt alleen de "gevaarlijke" onderdelen weg, terwijl de rest van het schilderij prachtig blijft.

Samenvattend

Stel je voor dat je een filter hebt voor een foto-app.

Oude methode: Je zet een filter op "geen rode kleur". Als er een rode auto in de weg staat, wordt die weggehaald. Maar als er een rode bloem is, is die ook weg. En als er een paarse auto is met rode banden, blijft die staan.
Nieuwe methode (deze paper): Je maakt een lijstje met alle rode dingen die gevaarlijk zijn (brandende auto's, bloed, rode vlaggen van rellen). Het systeem kijkt naar je foto en haalt alle die specifieke rode dingen eruit, terwijl het de rest van de foto (de blauwe lucht, de groene bomen) perfect intact laat.

Dit onderzoek maakt AI-beeldgeneratie veiliger en betrouwbaarder, zodat we kunnen genieten van de creativiteit zonder de nare verrassingen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Prototype-Gestuurde Concept-Verwijdering in Diffusiemodellen

Auteurs: Yuze Cai, Jiahao Lu, Hongxiang Shi, Yichao Zhou, Hong Lu (Fudan University & National University of Singapore).

1. Het Probleem

Tekst-naar-afbeelding (T2I) modellen, zoals Stable Diffusion, worden getraind op enorme datasets met ongecurateerde webafbeeldingen. Hierdoor leren ze ongewenste concepten, zoals auteursrechtelijk beschermde stijlen, specifieke personen, of schadelijke inhoud (NSFW, geweld, haat).

Bestaande methoden: Bestaande technieken voor het "wissen" van concepten (concept erasure) werken goed voor smalle concepten (bijv. een specifiek personage zoals Elon Musk of een logo zoals Pikachu). Deze kunnen vaak worden gemodelleerd met één enkele richting in de inbeddingsruimte.
De beperking: Deze methoden falen vaak bij brede concepten (bijv. "seksueel", "geweld", "haat"). Deze concepten zijn multimodaal en hebben een hoge variabiliteit; ze kunnen zich manifesteren in talloze visuele vormen, kledingstijlen, houdingen en contexten. Bestaande methoden behandelen deze brede concepten vaak als één uniforme richting, wat leidt tot onvolledige verwijdering (bijv. bloeding wordt verwijderd, maar gewapende confrontaties niet).

2. Methodologie: Prototype-Gestuurde Concept-Verwijdering

De auteurs stellen een trainingsvrije (training-free) methode voor die gebruikmaakt van de inherente geometrie van de inbeddingsruimte van het model. In plaats van één richting te gebruiken, modelleren ze een concept via een set van concept-prototypen.

Kernstappen van de methode:

Verzamelen van Contrastieve Prompts:
- Er wordt een set tekstprompts verzameld die het doelconcept bevatten.
- Voor elke prompt wordt een "contrastieve" versie gemaakt waarbij het doelconcept wordt verwijderd, maar de rest van de context behouden blijft.
- Het model genereert afbeeldingen voor zowel de originele als de contrastieve prompts.
Extraheren van Beeld-Prototypen:
- De gegenereerde afbeeldingen worden gecodeerd met de CLIP-image-encoder.
- Er wordt een verschilvector berekend tussen de inbeddings van de afbeeldingen met het concept en die zonder het concept.
- Deze verschilvectoren worden geklusterd (bijv. met K-means) om een set van beeld-prototypen te verkrijgen. Elke prototype vertegenwoordigt een specifieke semantische mode (bijv. bij "geweld": bloed, vuurgevechten, rellen).
Cross-Modale Transfer naar Tekst:
- Omdat diffusiemodellen worden gestuurd door tekst, moeten deze beeld-prototypen worden vertaald naar de tekst-inbeddingsruimte.
- De auteurs trainen leerbare soft-prompts (tekst-prototypen) die de maximale cosine-similariteit bereiken met de bijbehorende beeld-prototypen in de gezamenlijke CLIP-ruimte. Dit gebeurt via een optimalisatieproces zonder het basismodel aan te passen.
Inferentie met Negatieve Geleiding:
- Tijdens het genereren van een nieuwe afbeelding wordt de gebruikersprompt vergeleken met de set van tekst-prototypen.
- De prototype die het meest overeenkomt met de prompt wordt geselecteerd als negatieve conditionering.
- Dit wordt geïntegreerd in de Classifier-Free Guidance (CFG) formule. De standaard CFG wordt aangepast om de richting van de geselecteerde prototype te onderdrukken:
  $\tilde{\epsilon}_\theta(z_t, c) = \epsilon_\theta(z_t) + \alpha(\epsilon_\theta(z_t, c) - \epsilon_\theta(z_t)) - \beta(\epsilon_\theta(z_t, p^*) - \epsilon_\theta(z_t))$
  Waarbij $p^*$ de geselecteerde negatieve prototype is en $\beta$ de sterkte van de onderdrukking.

3. Belangrijkste Bijdragen

Identificatie van een zwak punt: De auteurs tonen aan dat brede concepten niet als één enkele richting kunnen worden behandeld vanwege hun heterogene en multimodale aard.
Nieuw Framework: Introductie van een trainingsvrij framework dat de multimodale verdeling van een concept vastlegt via representatieve prototypen in zowel de beeld- als tekst-inbeddingsruimten.
Superieure Prestaties: Empirisch bewijs dat de methode brede concepten (zoals geweld en seksualiteit) veel betrouwbaarder verwijdert dan bestaande methoden, terwijl de algehele kwaliteit van de gegenereerde afbeeldingen behouden blijft.

4. Resultaten

De methode is getest op diverse benchmarks, waaronder de I2P-dataset (met categorieën als haat, intimidatie, illegale activiteiten, zelfverminking, seksueel, schokkend en geweld).

Verwijdering van Brede Concepten: De methode ("Ours") behaalde de laagste detectiepercentages voor ongeschikte inhoud door de Q16-detector en NudeNet. Bijvoorbeeld, voor het concept "seksueel" scoorde de methode 1.7% (vergelijkbaar met de beste concurrenten), maar behaalde bij "geweld" en "schokkend" significant betere resultaten dan methoden zoals Safree en TRCE, die vaak slechts een deel van de spectrum verwijderden.
Behoud van Kwaliteit: De methode behoudt de tekst-afbeelding alignement (CLIP-score) en de esthetische kwaliteit beter dan veel trainingsgebaseerde methoden. De FID-scores (Frechet Inception Distance) blijven laag, wat aangeeft dat de verdeling van de gegenereerde beelden dicht bij de originele verdeling blijft.
Smalle Concepten: De methode werkt ook effectief voor smalle concepten (kunststijlen zoals Van Gogh, IP-tekens zoals Mickey Mouse), waarbij ze een uitstekende balans vinden tussen verwijdering en het behoud van andere concepten (geen "semantic drift").
Efficiëntie: Omdat het een trainingsvrije methode is, is de rekentijd tijdens inferentie minimaal (ongeveer 1 seconde extra per afbeelding vergeleken met de basis), wat het zeer schaalbaar maakt.
Robuustheid: De methode toonde goede generalisatie op nieuwere modellen (SDXL, SD3.5) en was bestand tegen adversariale aanvallen (zoals "Ring-a-Bell").

5. Betekenis en Conclusie

Dit paper biedt een belangrijke stap voorwaarts in het veilig en controleerbaar maken van generatieve AI.

Schaalbaarheid: Het biedt een praktische oplossing voor het verwijderen van schadelijke inhoud zonder de dure en complexe procedure van het opnieuw trainen van het hele model.
Nuance: Door de complexiteit van brede concepten te erkennen en te modelleren via meerdere prototypen, lost het een fundamenteel probleem op in de huidige veiligheidsmaatregelen voor T2I-modellen.
Toekomst: De methode stelt een nieuwe standaard voor "principiële stuurmechanismen" in diffusiemodellen, waarbij de interne geometrie van het model wordt gebruikt om specifieke semantische modes selectief te onderdrukken zonder de creativiteit van het model te vernietigen.

Kortom, Prototype-Guided Concept Erasure is een krachtige, trainingsvrije techniek die brede, complexe schadelijke concepten effectief verwijdert door ze te benaderen als een verzameling van semantische sub-modes in plaats van één monolithisch concept.