PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

Dit artikel introduceert PromptGuard, een innovatieve techniek die een geoptimaliseerde 'soft prompt' gebruikt om onveilige inhoud in tekst-naar-beeldmodellen te filteren zonder de inferentie-efficiëntie te beïnvloeden, waardoor een significante reductie van NSFW-inhoud wordt bereikt terwijl de kwaliteit van veilige afbeeldingen behouden blijft.

Lingzhi Yuan, Xinfeng Li, Chejian Xu, Guanhong Tao, Xiaojun Jia, Yihao Huang, Wei Dong, Yang Liu, Xiaofeng Wang, Bo Li

Gepubliceerd 2026-02-19
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een magische kunstenaar hebt die elke tekst die je hem geeft, omzet in een prachtig schilderij. Dit is wat moderne "Text-to-Image" (tekst-naar-beeld) modellen doen, zoals Stable Diffusion. Ze zijn ongelooflijk slim, maar ze hebben een groot nadeel: ze zijn te gehoorzaam. Als je vraagt om iets gevaarlijks, gewelddadigs of onfatsoenlijks, dan maakt de kunstenaar dat ook. Dat is een groot probleem voor de veiligheid op internet.

De onderzoekers van dit paper hebben een slimme oplossing bedacht die ze PromptGuard noemen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De Kunstenaar zonder Regels

Stel je voor dat deze digitale kunstenaar in een kamer werkt zonder regels. Als iemand roept: "Teken een bloederig gevecht!", dan doet hij dat direct.
Bestaande oplossingen proberen dit op twee manieren op te lossen:

  • De Kunstenaar Herscholen: Ze proberen de kunstenaar zelf te herscholen (zoals een leerling die opnieuw naar school moet). Dit kost veel tijd, geld en soms vergeet de kunstenaar daarna ook hoe hij mooie, veilige dingen moet tekenen.
  • De Bouncer: Ze zetten een bewaker voor de deur die de teksten controleert. Als de tekst verdacht is, gooit de bouncer de persoon eruit of laat hij een zwart doek voor het schilderij hangen. Dit werkt, maar het is traag en vaak niet zo creatief.

2. De Oplossing: PromptGuard (De "Onzichtbare Regels")

PromptGuard doet iets heel anders. In plaats van de kunstenaar te herscholen of een bouncer te zetten, geven ze de kunstenaar een onzichtbare, geheime instructie die hij altijd onthoudt.

In de wereld van grote taalmodellen (zoals ChatGPT) bestaat er zoiets als een "Systeemprompt". Dat is een geheime regel die de AI vertelt: "Wees altijd beleefd en veilig." De onderzoekers hebben bedacht: "Waarom kunnen we dat niet ook doen voor beeldmodellen?"

Het probleem is dat beeldmodellen geen directe plek hebben voor zo'n geheime regel. Ze zien alles als een gewone vraag van de gebruiker.

De Magische Truc:
PromptGuard creëert een zacht woord (een "soft prompt"). Dit is geen woord dat je kunt lezen, maar een soort onzichtbare code die in het geheugen van de kunstenaar wordt ingeplant.

  • Hoe het werkt: Als iemand een gevaarlijke vraag stelt (bijv. "Teken een naakte man"), plakt PromptGuard dit onzichtbare woord erachter.
  • Het effect: Het is alsof de kunstenaar plotseling een onzichtbare bril opzet. Hij ziet de vraag "Teken een naakte man", maar door die onzichtbare code denkt hij: "Oh, ik moet dit omzetten in een veilige versie." In plaats van een naakte man, tekent hij een man in een badpak of een schilderij van een man in een badjas.

3. De Slimme Strategie: De "Divide and Conquer"

Het is moeilijk om één enkele regel te bedenken die alles veilig maakt. Een regel die werkt voor "geweld" werkt misschien niet voor "politiek" of "angstwekkende beelden".

Daarom gebruiken de onderzoekers een slimme strategie: Deel en Heers.

  • Ze trainen vier verschillende "onzichtbare woorden": één voor seksueel expliciet materiaal, één voor geweld, één voor politiek en één voor angstwekkende dingen.
  • Vervolgens plakken ze deze vier woorden samen.
  • Wanneer iemand iets vraagt, heeft de kunstenaar nu al die vier onzichtbare regels tegelijkertijd in zijn hoofd. Dit maakt de bescherming veel sterker en betrouwbaarder.

4. Waarom is dit zo geweldig?

  • Snelheid: Omdat ze geen nieuwe bewaker hoeven te bouwen en de kunstenaar niet hoeven te herscholen, werkt het net zo snel als normaal. Het is 3,8 keer sneller dan andere methoden.
  • Kwaliteit: De kunstenaar maakt nog steeds prachtige beelden. Als je vraagt om een mooi landschap, maakt hij dat gewoon, zonder dat de "veiligheidsbril" de kleuren verpest.
  • Slimme aanpassing: Als er een nieuw gevaarlijk onderwerp opduikt (bijvoorbeeld "zelfkwestie"), hoeven ze niet de hele kunstenaar opnieuw te leren. Ze trainen gewoon één nieuw "onzichtbaar woord" en plakken dat erbij.

Samenvatting in één zin

PromptGuard is als het geven van een onzichtbare, onuitwisbare veiligheidsinstructie aan een digitale kunstenaar, zodat hij automatisch gevaarlijke verzoeken omzet in veilige, mooie kunst, zonder dat hij traag wordt of zijn creativiteit verliest.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →