PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

Die Arbeit stellt PromptGuard vor, eine neue Methode zur Moderation von Text-zu-Bild-Modellen, die durch Optimierung eines universellen „Soft Prompt" im Embedding-Raum NSFW-Inhalte effektiv blockiert und dabei die Bildqualität erhält sowie eine deutlich höhere Geschwindigkeit als bestehende Sicherheitsansätze erreicht.

Lingzhi Yuan, Xinfeng Li, Chejian Xu, Guanhong Tao, Xiaojun Jia, Yihao Huang, Wei Dong, Yang Liu, Xiaofeng Wang, Bo Li

Veröffentlicht 2026-02-19
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🎨 PromptGuard: Der unsichtbare Sicherheitschef für KI-Kunst

Stell dir vor, du hast einen genialen, aber etwas naiven Maler namens KI. Dieser Maler kann auf deinen Wunsch hin alles Mögliche malen: von wunderschönen Sonnenuntergängen bis hin zu historischen Schlachten. Aber es gibt ein Problem: Wenn du ihm sagst „Malt mir etwas, das sehr wild und unangemessen ist", macht er das auch – und zwar sehr überzeugend. Das ist wie ein Künstler, der keine Filter hat und alles malt, was ihm durch den Kopf geht, auch wenn es verboten oder störend ist.

Bisher gab es zwei Möglichkeiten, diesen Maler zu stoppen:

  1. Den Maler umschulen: Man nimmt ihm die ganze Zeit weg und bringt ihm bei, was er nicht malen darf. Das ist aber mühsam, teuer und manchmal vergisst er dabei auch, wie man schöne, harmlose Bilder malt.
  2. Den Wächter vor die Tür stellen: Man stellt einen Kontrolleur vor die Tür, der prüft, was reinkommt und was rauskommt. Wenn das Bild zu wild ist, wird es schwarz angemalt oder zerrissen. Das kostet aber Zeit und die Bilder sehen oft nicht mehr gut aus.

PromptGuard ist eine völlig neue Idee. Es ist wie ein unsichtbarer Sicherheitschef, der direkt im Kopf des Malers sitzt.

Wie funktioniert das? (Die „Geheime Anweisung")

In der Welt der großen Sprach-KIs (wie Chatbots) gibt es eine Technik namens „System-Prompt". Das ist eine geheime Anweisung, die man dem Computer gibt, bevor er überhaupt anfängt zu antworten. Zum Beispiel: „Du bist ein hilfsbereiter Assistent, aber du darfst niemals Hassrede oder Gewalt produzieren."

Das Problem bei Bild-KIs (wie Stable Diffusion) war bisher: Sie haben keinen solchen „System-Prompt"-Knopf. Sie hören nur auf das, was der Nutzer sagt.

PromptGuard löst das Problem, indem es einen unsichtbaren, unsichtbaren Code (einen „Soft Prompt") entwickelt, der wie ein unsichtbarer Wächter im Hintergrund wirkt.

  • Die Analogie: Stell dir vor, du gibst dem Maler einen Zettel mit der Aufschrift „Malt ein Bild von einem nackten Mann". Normalerweise malt er das. Aber PromptGuard fügt am Ende dieses Zettels einen unsichtbaren, magischen Klecks hinzu (den Soft Prompt). Für uns Menschen ist das unsichtbar, aber für die KI ist es wie ein lautes, inneres Kommando: „Stopp! Mach das nicht so, sondern mach es sicher und anständig!"

Der Trick: „Teile und Herrsche"

Das Schwierige ist: „Unangemessen" kann vieles bedeuten. Sexuelle Inhalte, Gewalt, politische Hetze oder gruselige Horrorbilder sind alle sehr unterschiedlich. Ein einziger Sicherheitschef kann nicht auf alles gleichzeitig perfekt reagieren.

Deshalb nutzt PromptGuard eine Teilungs-Strategie (Divide-and-Conquer):

  1. Es trainiert vier verschiedene „unsichtbare Wächter": Einen für Sex, einen für Gewalt, einen für Politik und einen für Gruseliges.
  2. Jeder Wächter lernt genau, wie man seine Art von Problem löst, ohne die anderen zu stören.
  3. Wenn du dann ein Bild anforderst, werden alle vier Wächter gleichzeitig aktiviert. Sie arbeiten zusammen wie ein Team, das sicherstellt, dass das Ergebnis immer sicher ist.

Warum ist das so toll?

  1. Es ist blitzschnell: Im Gegensatz zu den alten Methoden, die extra einen zweiten Computer brauchen, um zu prüfen, ob das Bild sicher ist, passiert alles im Kopf des Malers. Es ist wie ein Reflex. Das Ergebnis: PromptGuard ist 3,8-mal schneller als alle bisherigen Methoden.
  2. Es zerstört nichts: Früher haben Sicherheitsfilter oft einfach das Bild geschwärzt oder unscharf gemacht. PromptGuard hingegen verwandelt das gefährliche Bild in ein harmloses.
    • Beispiel: Statt ein Bild von einem nackten Mann zu löschen, malt die KI mit PromptGuard vielleicht einen Mann in einem Anzug oder in einer Wüste. Die Idee bleibt, aber der Inhalt ist sicher.
  3. Es ist flexibel: Wenn morgen eine neue Art von gefährlichem Inhalt auftaucht (z. B. „Selbstverletzung"), muss man nicht den ganzen Maler neu erziehen. Man trainiert einfach einen neuen, kleinen Wächter dafür und hängt ihn an das Team an. Das System wächst mit.

Das Ergebnis

In Tests hat PromptGuard gezeigt, dass es 94 % der gefährlichen Bilder verhindert (während andere Methoden oft noch viele durchlassen), ohne dabei die Qualität der schönen, harmlosen Bilder zu verschlechtern.

Zusammenfassend: PromptGuard ist wie ein unsichtbarer, super-schneller Sicherheitschef, der direkt im Gehirn der KI-Kunst sitzt. Er sorgt dafür, dass die KI kreativ bleibt, aber niemals die Grenzen des Anstands und der Sicherheit überschreitet – und das alles, ohne dass man den Maler selbst umbauen muss.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →