PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een magische kunstenaar hebt die elke tekst die je hem geeft, omzet in een prachtig schilderij. Dit is wat moderne "Text-to-Image" (tekst-naar-beeld) modellen doen, zoals Stable Diffusion. Ze zijn ongelooflijk slim, maar ze hebben een groot nadeel: ze zijn te gehoorzaam. Als je vraagt om iets gevaarlijks, gewelddadigs of onfatsoenlijks, dan maakt de kunstenaar dat ook. Dat is een groot probleem voor de veiligheid op internet.

De onderzoekers van dit paper hebben een slimme oplossing bedacht die ze PromptGuard noemen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De Kunstenaar zonder Regels

Stel je voor dat deze digitale kunstenaar in een kamer werkt zonder regels. Als iemand roept: "Teken een bloederig gevecht!", dan doet hij dat direct.
Bestaande oplossingen proberen dit op twee manieren op te lossen:

De Kunstenaar Herscholen: Ze proberen de kunstenaar zelf te herscholen (zoals een leerling die opnieuw naar school moet). Dit kost veel tijd, geld en soms vergeet de kunstenaar daarna ook hoe hij mooie, veilige dingen moet tekenen.
De Bouncer: Ze zetten een bewaker voor de deur die de teksten controleert. Als de tekst verdacht is, gooit de bouncer de persoon eruit of laat hij een zwart doek voor het schilderij hangen. Dit werkt, maar het is traag en vaak niet zo creatief.

2. De Oplossing: PromptGuard (De "Onzichtbare Regels")

PromptGuard doet iets heel anders. In plaats van de kunstenaar te herscholen of een bouncer te zetten, geven ze de kunstenaar een onzichtbare, geheime instructie die hij altijd onthoudt.

In de wereld van grote taalmodellen (zoals ChatGPT) bestaat er zoiets als een "Systeemprompt". Dat is een geheime regel die de AI vertelt: "Wees altijd beleefd en veilig." De onderzoekers hebben bedacht: "Waarom kunnen we dat niet ook doen voor beeldmodellen?"

Het probleem is dat beeldmodellen geen directe plek hebben voor zo'n geheime regel. Ze zien alles als een gewone vraag van de gebruiker.

De Magische Truc:
PromptGuard creëert een zacht woord (een "soft prompt"). Dit is geen woord dat je kunt lezen, maar een soort onzichtbare code die in het geheugen van de kunstenaar wordt ingeplant.

Hoe het werkt: Als iemand een gevaarlijke vraag stelt (bijv. "Teken een naakte man"), plakt PromptGuard dit onzichtbare woord erachter.
Het effect: Het is alsof de kunstenaar plotseling een onzichtbare bril opzet. Hij ziet de vraag "Teken een naakte man", maar door die onzichtbare code denkt hij: "Oh, ik moet dit omzetten in een veilige versie." In plaats van een naakte man, tekent hij een man in een badpak of een schilderij van een man in een badjas.

3. De Slimme Strategie: De "Divide and Conquer"

Het is moeilijk om één enkele regel te bedenken die alles veilig maakt. Een regel die werkt voor "geweld" werkt misschien niet voor "politiek" of "angstwekkende beelden".

Daarom gebruiken de onderzoekers een slimme strategie: Deel en Heers.

Ze trainen vier verschillende "onzichtbare woorden": één voor seksueel expliciet materiaal, één voor geweld, één voor politiek en één voor angstwekkende dingen.
Vervolgens plakken ze deze vier woorden samen.
Wanneer iemand iets vraagt, heeft de kunstenaar nu al die vier onzichtbare regels tegelijkertijd in zijn hoofd. Dit maakt de bescherming veel sterker en betrouwbaarder.

4. Waarom is dit zo geweldig?

Snelheid: Omdat ze geen nieuwe bewaker hoeven te bouwen en de kunstenaar niet hoeven te herscholen, werkt het net zo snel als normaal. Het is 3,8 keer sneller dan andere methoden.
Kwaliteit: De kunstenaar maakt nog steeds prachtige beelden. Als je vraagt om een mooi landschap, maakt hij dat gewoon, zonder dat de "veiligheidsbril" de kleuren verpest.
Slimme aanpassing: Als er een nieuw gevaarlijk onderwerp opduikt (bijvoorbeeld "zelfkwestie"), hoeven ze niet de hele kunstenaar opnieuw te leren. Ze trainen gewoon één nieuw "onzichtbaar woord" en plakken dat erbij.

Samenvatting in één zin

PromptGuard is als het geven van een onzichtbare, onuitwisbare veiligheidsinstructie aan een digitale kunstenaar, zodat hij automatisch gevaarlijke verzoeken omzet in veilige, mooie kunst, zonder dat hij traag wordt of zijn creativiteit verliest.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Recente tekst-naar-beeld (T2I) modellen, zoals Stable Diffusion, presteren uitstekend in het genereren van realistische afbeeldingen. Echter, ze zijn kwetsbaar voor misbruik om NSFW-content (Not-Safe-For-Work) te genereren, waaronder seksueel expliciete, gewelddadige, politiek geladen en verontrustende beelden. Dit roept ernstige ethische zorgen op, zoals de verspreiding van AI-genereren kindermisbruikmateriaal en politieke manipulatie.

Bestaande verdedigingsmechanismen hebben twee grote nadelen:

Model Alignment (Fine-tuning): Methoden die het model zelf aanpassen (bijv. concept-erasing) degraderen vaak de kwaliteit van veilige (benigne) input en vereisen zware hertraining.
Content Moderation: Methoden die externe filters of prompt-modificatie gebruiken, voegen aanzienlijke rekenkosten toe (overhead) en vertragen de inferentie.

Er is behoefte aan een efficiënt, robuust en lichtgewicht framework dat NSFW-content effectief blokkeert zonder de kwaliteit van veilige generaties te beïnvloeden of de inferentiesnelheid te vertragen.

Methodologie: PromptGuard

PromptGuard introduceert een nieuwe techniek die is geïnspireerd op het "system prompt"-mechanisme uit Large Language Models (LLMs). In tegenstelling tot LLMs hebben T2I-modellen geen directe interface voor systeem-instructies; ze behandelen alle tekst als gebruikersinput. PromptGuard lost dit op door een soft prompt te optimaliseren die fungeert als een impliciete systeeminstructie binnen de tekstuele embedding-ruimte van het T2I-model.

Kerncomponenten:

Soft Prompt Optimalisatie:
- In plaats van discrete tokens te zoeken, wordt een veiligheidspseudo-woord (een trainbaar embedding-vector $P^*$ ) geoptimaliseerd in de continue embedding-ruimte van de tekstencoder.
- Deze soft prompt wordt aan het einde van elke gebruikersprompt gevoegd, zowel voor kwaadaardige als veilige input.
Verdelings- en Veroveringsstrategie (Divide-and-Conquer):
- Omdat NSFW-content divers is, wordt deze onderverdeeld in vier categorieën: Seksueel, Geweld, Politiek en Verontrustend.
- In plaats van één universele prompt te trainen, worden voor elke categorie afzonderlijke soft prompts geoptimaliseerd. Deze worden vervolgens samengevoegd tot één composite soft prompt voor de inferentie.
Trainingsdata en Aanpak:
- Data: Het dataset bestaat uit kwaadaardige prompts (met bijbehorende originele NSFW-afbeeldingen) en veilige prompts (benigne afbeeldingen).
- SDEdit: Om de training te faciliteren, worden onveilige afbeeldingen met SDEdit omgezet naar veilige tegenhangers (bijv. een naakte persoon wordt gekleed). Dit creëert paren van "kwaadaardige input -> veilige output".
- Verliesfuncties:
  - Benigne Behoud ( $L_b$ ): Zorgt dat de soft prompt de kwaliteit van veilige afbeeldingen niet verslechtert.
  - Kwaadaardige Moderatie ( $L_m$ ): Een contrastieve loss die het model dwingt om de voorspelde ruis te laten lijken op de veilige versie van de afbeelding en ver weg te blijven van de originele onveilige versie.
  - Een hyperparameter $\lambda$ balanceert deze twee doelen.
Inferentie:
- Tijdens het genereren wordt de samengevoegde soft prompt ( $P^*$ ) direct aan de input van de gebruiker toegevoegd.
- Het model leidt de generatie naar veilige gebieden in de latente ruimte zonder extra modellen, prompt-rewriting of wijzigingen in het diffusieproces.

Belangrijkste Bijdragen

Nieuwe Techniek: De eerste toepassing van het "system prompt"-concept op T2I-modellen via soft prompt-optimalisatie. Dit biedt een lichtgewicht, parameter-vrije oplossing.
Divide-and-Conquer Strategie: Een aanpak die specifieke soft prompts per NSFW-categorie optimaliseert en deze combineert voor robuustere bescherming.
Efficiëntie: Geen extra inferentietijd of rekenkosten, in tegenstelling tot methoden die externe filters of LLM's gebruiken voor prompt-rewriting.
Open Source: De code en modellen zijn open-source gemaakt om verder onderzoek naar AI-ethiek te stimuleren.

Resultaten

PromptGuard is getest op vijf datasets en vergeleken met acht state-of-the-art baselines (zoals UCE, SafeGen, SafetyFilter, SLD, POSI).

Effectiviteit (NSFW-verwijdering):
- PromptGuard bereikte de laagste onveilige ratio (Unsafe Ratio) van 5,84% in een natuurlijke taalsetting, wat significant beter is dan alle baselines.
- Het presteerde het beste in alle vier NSFW-categorieën, met name bij politieke content waar andere methoden vaak faalden.
- Onder drie verschillende adversariële aanvallen (SneakyPrompt-N, SneakyPrompt-P, MMA-Diffusion) behaalde het een gemiddelde onveilige ratio van slechts 2,35%.
Behoud van Kwaliteit (Benigne Input):
- De methode behoudt een hoge CLIP-score (25,96) en lage LPIPS-score, wat aangeeft dat de afbeeldingen trouw blijven aan de gebruikersprompt en visueel van hoge kwaliteit zijn.
- In tegenstelling tot andere methoden die afbeeldingen zwart maken of vervagen, genereert PromptGuard realistische en veilige alternatieven.
Efficiëntie:
- PromptGuard is 3,8 keer sneller dan eerdere moderatiemethoden omdat het geen extra modellen of complexe diffusie-aanpassingen vereist. De inferentietijd is vergelijkbaar met het ruwe Stable Diffusion model.
Schalbaarheid:
- Het systeem kan eenvoudig nieuwe NSFW-categorieën (zoals zelfverminking) toevoegen door een nieuwe soft prompt te trainen en deze toe te voegen aan de bestaande set, zonder hertraining van het hele model.

Betekenis

PromptGuard vertegenwoordigt een doorbraak in de beveiliging van generatieve AI. Het lost het fundamentele probleem op dat T2I-modellen geen ingebouwde "system prompt" hebben, door een soft prompt te creëren die functioneert als een onzichtbare veiligheidsinstructie.

De belangrijkste implicaties zijn:

Praktische Toepasbaarheid: Omdat het geen extra rekenkracht kost en de outputkwaliteit behoudt, is het direct inzetbaar in productieomgevingen.
Robuustheid: Het is zeer effectief tegen zowel directe NSFW-prompten als geavanceerde adversariële aanvallen.
Toekomstgericht: De aanpak is model-onafhankelijk (zolang de tekstencoder vergelijkbaar is, zoals CLIP of T5), waardoor het schaalbaar is naar toekomstige T2I-modellen (zoals SDXL of DeepFloyd IF).

Kortom, PromptGuard biedt een elegante, efficiënte en krachtige oplossing om ethische risico's in text-to-image generatie te mitigeren zonder de creatieve mogelijkheden van de modellen in te perken.

PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

1. Het Probleem: De Kunstenaar zonder Regels

2. De Oplossing: PromptGuard (De "Onzichtbare Regels")

3. De Slimme Strategie: De "Divide and Conquer"

4. Waarom is dit zo geweldig?

Samenvatting in één zin

Probleemstelling

Methodologie: PromptGuard

Belangrijkste Bijdragen

Resultaten

Betekenis

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks