PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

Each language version is independently generated for its own context, not a direct translation.

🎨 PromptGuard: Der unsichtbare Sicherheitschef für KI-Kunst

Stell dir vor, du hast einen genialen, aber etwas naiven Maler namens KI. Dieser Maler kann auf deinen Wunsch hin alles Mögliche malen: von wunderschönen Sonnenuntergängen bis hin zu historischen Schlachten. Aber es gibt ein Problem: Wenn du ihm sagst „Malt mir etwas, das sehr wild und unangemessen ist", macht er das auch – und zwar sehr überzeugend. Das ist wie ein Künstler, der keine Filter hat und alles malt, was ihm durch den Kopf geht, auch wenn es verboten oder störend ist.

Bisher gab es zwei Möglichkeiten, diesen Maler zu stoppen:

Den Maler umschulen: Man nimmt ihm die ganze Zeit weg und bringt ihm bei, was er nicht malen darf. Das ist aber mühsam, teuer und manchmal vergisst er dabei auch, wie man schöne, harmlose Bilder malt.
Den Wächter vor die Tür stellen: Man stellt einen Kontrolleur vor die Tür, der prüft, was reinkommt und was rauskommt. Wenn das Bild zu wild ist, wird es schwarz angemalt oder zerrissen. Das kostet aber Zeit und die Bilder sehen oft nicht mehr gut aus.

PromptGuard ist eine völlig neue Idee. Es ist wie ein unsichtbarer Sicherheitschef, der direkt im Kopf des Malers sitzt.

Wie funktioniert das? (Die „Geheime Anweisung")

In der Welt der großen Sprach-KIs (wie Chatbots) gibt es eine Technik namens „System-Prompt". Das ist eine geheime Anweisung, die man dem Computer gibt, bevor er überhaupt anfängt zu antworten. Zum Beispiel: „Du bist ein hilfsbereiter Assistent, aber du darfst niemals Hassrede oder Gewalt produzieren."

Das Problem bei Bild-KIs (wie Stable Diffusion) war bisher: Sie haben keinen solchen „System-Prompt"-Knopf. Sie hören nur auf das, was der Nutzer sagt.

PromptGuard löst das Problem, indem es einen unsichtbaren, unsichtbaren Code (einen „Soft Prompt") entwickelt, der wie ein unsichtbarer Wächter im Hintergrund wirkt.

Die Analogie: Stell dir vor, du gibst dem Maler einen Zettel mit der Aufschrift „Malt ein Bild von einem nackten Mann". Normalerweise malt er das. Aber PromptGuard fügt am Ende dieses Zettels einen unsichtbaren, magischen Klecks hinzu (den Soft Prompt). Für uns Menschen ist das unsichtbar, aber für die KI ist es wie ein lautes, inneres Kommando: „Stopp! Mach das nicht so, sondern mach es sicher und anständig!"

Der Trick: „Teile und Herrsche"

Das Schwierige ist: „Unangemessen" kann vieles bedeuten. Sexuelle Inhalte, Gewalt, politische Hetze oder gruselige Horrorbilder sind alle sehr unterschiedlich. Ein einziger Sicherheitschef kann nicht auf alles gleichzeitig perfekt reagieren.

Deshalb nutzt PromptGuard eine Teilungs-Strategie (Divide-and-Conquer):

Es trainiert vier verschiedene „unsichtbare Wächter": Einen für Sex, einen für Gewalt, einen für Politik und einen für Gruseliges.
Jeder Wächter lernt genau, wie man seine Art von Problem löst, ohne die anderen zu stören.
Wenn du dann ein Bild anforderst, werden alle vier Wächter gleichzeitig aktiviert. Sie arbeiten zusammen wie ein Team, das sicherstellt, dass das Ergebnis immer sicher ist.

Warum ist das so toll?

Es ist blitzschnell: Im Gegensatz zu den alten Methoden, die extra einen zweiten Computer brauchen, um zu prüfen, ob das Bild sicher ist, passiert alles im Kopf des Malers. Es ist wie ein Reflex. Das Ergebnis: PromptGuard ist 3,8-mal schneller als alle bisherigen Methoden.
Es zerstört nichts: Früher haben Sicherheitsfilter oft einfach das Bild geschwärzt oder unscharf gemacht. PromptGuard hingegen verwandelt das gefährliche Bild in ein harmloses.
- Beispiel: Statt ein Bild von einem nackten Mann zu löschen, malt die KI mit PromptGuard vielleicht einen Mann in einem Anzug oder in einer Wüste. Die Idee bleibt, aber der Inhalt ist sicher.
Es ist flexibel: Wenn morgen eine neue Art von gefährlichem Inhalt auftaucht (z. B. „Selbstverletzung"), muss man nicht den ganzen Maler neu erziehen. Man trainiert einfach einen neuen, kleinen Wächter dafür und hängt ihn an das Team an. Das System wächst mit.

Das Ergebnis

In Tests hat PromptGuard gezeigt, dass es 94 % der gefährlichen Bilder verhindert (während andere Methoden oft noch viele durchlassen), ohne dabei die Qualität der schönen, harmlosen Bilder zu verschlechtern.

Zusammenfassend: PromptGuard ist wie ein unsichtbarer, super-schneller Sicherheitschef, der direkt im Gehirn der KI-Kunst sitzt. Er sorgt dafür, dass die KI kreativ bleibt, aber niemals die Grenzen des Anstands und der Sicherheit überschreitet – und das alles, ohne dass man den Maler selbst umbauen muss.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Text-to-Image (T2I) Modelle wie Stable Diffusion haben beeindruckende Fähigkeiten zur Bildgenerierung aus Textbeschreibungen gezeigt. Diese Modelle sind jedoch anfällig für Missbrauch, insbesondere zur Erzeugung von „Not-Safe-For-Work" (NSFW) Inhalten (z. B. sexuell explizite, gewalttätige, politische oder verstörende Bilder).

Bestehende Schutzmechanismen fallen in zwei Kategorien, die beide Nachteile haben:

Modell-Alignment (Feinabstimmung): Direkte Modifikation des T2I-Modells durch Fine-Tuning, um NSFW-Fähigkeiten zu entfernen. Dies führt oft zu einer Verschlechterung der Bildqualität bei harmlosen (benignen) Eingaben und ist rechenintensiv.
Content Moderation: Verwendung externer Modelle zur Filterung von Eingaben oder Ausgaben oder Umformulierung von Prompts durch LLMs. Diese Methoden fügen erheblichen Rechen-Overhead hinzu und unterbrechen oft den Generierungsprozess.

Es fehlt an einer effizienten, robusten und leichtgewichtigen Lösung, die NSFW-Inhalte unterdrückt, ohne die Qualität harmloser Generierungen zu beeinträchtigen oder zusätzliche Modelle zu benötigen.

2. Methodik: PromptGuard

PromptGuard ist eine neue Technik, die das Konzept des „System-Prompts" aus Large Language Models (LLMs) auf T2I-Modelle überträgt. Da T2I-Modelle keinen direkten Mechanismus für System-Prompts haben, optimiert PromptGuard einen weichen Prompt (Soft Prompt) im kontinuierlichen Embedding-Raum des Text-Encoders.

Kernkomponenten:

Soft Prompt als impliziter System-Prompt: Anstatt den Text selbst zu ändern, wird ein trainierbarer Token-Embedding-Vektor ( $P^*$ ) an das Ende jedes Benutzereingabe-Prompts angehängt. Dieser Vektor fungiert als unsichtbarer System-Prompt, der das Modell im Embedding-Raum in Richtung sicherer Inhalte lenkt.
Divide-and-Conquer-Strategie: Da NSFW-Inhalte vielfältig sind (sexuell, gewalttätig, politisch, verstörend), wird nicht ein einziger universeller Prompt optimiert. Stattdessen werden separate Soft-Prompts für jede der vier Kategorien trainiert und während der Inferenz zu einem kompositen Prompt zusammengefügt.
Trainingsdaten-Vorbereitung:
- Für bösartige Prompts werden Paare aus dem ursprünglichen schädlichen Bild und einer sichereren Version erstellt. Letztere wird mit Hilfe von SDEdit generiert, wobei nur die unsicheren visuellen Bereiche modifiziert werden, während der Rest erhalten bleibt.
- Für harmlose Prompts werden Daten aus dem COCO-Datensatz verwendet.
Optimierungsziel (Verlustfunktionen):
- $L_b$ (Benign Preservation): Sicherstellt, dass harmlose Prompts mit dem angehängten Soft Prompt weiterhin hochwertige Bilder generieren.
- $L_m$ (Malicious Moderation): Ein kontrastiver Lernansatz. Das Modell soll lernen, das Rauschen für die sichere Version ( $\epsilon_{tgt}$ ) vorherzusagen, während die Vorhersage für das ursprüngliche unsichere Bild ( $\epsilon_{org}$ ) minimiert wird.
- Ein Hyperparameter $\lambda$ balanciert diese beiden Ziele.
Inferenz: Während der Generierung wird der trainierte Soft Prompt einfach an den Benutzereingabe-Prompt angehängt. Dies erfordert keine Änderungen am Diffusionsprozess selbst und keine externen Filtermodelle.

3. Wichtige Beiträge

Neue Technik: Erstmalige Anwendung des System-Prompt-Konzepts auf T2I-Modelle durch die Optimierung von Soft-Prompt-Embeddings. Dies ermöglicht eine leichte, parameterfreie Sicherheitsausrichtung.
Effizienz: Die Methode fügt keinen zusätzlichen Rechen-Overhead hinzu und ist deutlich schneller als bestehende Moderationsmethoden.
Robustheit und Skalierbarkeit: Das System ist gegen Adversarial Attacks (z. B. SneakyPrompt, MMA-Diffusion) robust und kann durch einfaches Anhängen neuer Embeddings leicht auf neue NSFW-Kategorien (z. B. Selbstverletzung) erweitert werden, ohne das gesamte Modell neu zu trainieren.
Qualitätserhalt: Im Gegensatz zu Methoden, die Bilder schwärzen oder unscharf machen, generiert PromptGuard realistische, sichere Bilder, die den ursprünglichen (harmlosen) Absichten des Nutzers entsprechen.

4. Ergebnisse

Die Autoren führten umfangreiche Experimente auf fünf Datensätzen durch und verglichen PromptGuard mit acht State-of-the-Art-Verteidigungsmethoden (einschließlich Modell-Alignment und Content Moderation).

Effektivität (NSFW-Entfernung): PromptGuard erreichte den niedrigsten durchschnittlichen Unsafe-Ratio von 5,84% (im Vergleich zu 12,54% bei UCE und 27,88% bei POSI). In der Kategorie „Sexuell Explizit" reduzierte es den Unsafe-Ratio von 71,17% (Vanilla SD) auf 1,50%.
Benign Preservation: PromptGuard behielt die Bildqualität bei harmlosen Prompts hervorragend bei (CLIP-Score: 25,96, LPIPS: 0,646), was nur geringfügige Abweichungen im Vergleich zum ungeschützten Modell aufweist und besser ist als bei vielen anderen Schutzmethoden.
Effizienz: PromptGuard ist 3,8-mal schneller als vorherige Moderationsmethoden, da keine zusätzlichen Modelle oder Prompt-Neuschreibungen erforderlich sind. Die Inferenzzeit ist vergleichbar mit dem Vanilla-Stable-Diffusion-Modell.
Adversarial Robustheit: Unter drei verschiedenen Red-Teaming-Szenarien (SneakyPrompt-N, SneakyPrompt-P, MMA-Diffusion) erreichte PromptGuard einen durchschnittlichen Unsafe-Ratio von nur 2,35%, was alle Baselines deutlich schlägt.
Skalierbarkeit: Die Integration einer neuen Kategorie (Selbstverletzung) führte zu einer weiteren Verbesserung des Unsafe-Ratios, ohne die Qualität harmloser Generierungen zu beeinträchtigen.

5. Bedeutung

PromptGuard stellt einen Paradigmenwechsel in der Sicherheitsmoderation für generative KI dar. Anstatt das Modell neu zu trainieren oder externe Filter zu verwenden, nutzt es die Struktur des Text-Encoders, um Sicherheit direkt in den Embedding-Raum zu integrieren.

Praktische Anwendbarkeit: Aufgrund der geringen Rechenkosten und der einfachen Integration (nur Anhängen eines Vektors) ist es ideal für den Einsatz in Echtzeit-Anwendungen und kommerziellen Plattformen.
Ethik und Sicherheit: Die Methode adressiert ethische Bedenken bezüglich der Verbreitung von schädlichen Inhalten (wie KI-generiertem Missbrauchsmaterial oder politischer Desinformation), ohne die kreativen Fähigkeiten der Modelle für legitime Anwendungen einzuschränken.
Zukunftsaussichten: Der Ansatz ist auf andere T2I-Architekturen (wie SDXL oder DeepFloyd IF) übertragbar, solange diese ähnliche Text-Encoder-Architekturen verwenden, was ihn zu einer zukunftssicheren Lösung macht.

Zusammenfassend bietet PromptGuard eine hochwirksame, schnelle und qualitativ erhaltende Lösung für das Problem der NSFW-Generierung in Text-to-Image-Modellen.

PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

🎨 PromptGuard: Der unsichtbare Sicherheitschef für KI-Kunst

Wie funktioniert das? (Die „Geheime Anweisung")

Der Trick: „Teile und Herrsche"

Warum ist das so toll?

Das Ergebnis

1. Problemstellung

2. Methodik: PromptGuard

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung

Mehr davon

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks