Prototype-Guided Concept Erasure in Diffusion Models

Die vorgestellte Methode nutzt Prototypen, die aus latenten Embeddings abgeleitet werden, um als negative Konditionierungssignale zu wirken und damit Diffusionsmodelle zuverlässig von breiten Konzepten wie Gewalt oder Sexualität zu befreien, ohne die generelle Bildqualität zu beeinträchtigen.

Yuze Cai, Jiahao Lu, Hongxiang Shi, Yichao Zhou, Hong Lu

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr talentierten, aber etwas naiven Maler namens „Diffusionsmodell". Dieser Maler kann auf Kommando die schönsten Bilder der Welt erschaffen. Das Problem ist nur: Er hat in seiner Ausbildung Millionen von Bildern aus dem Internet gesehen, darunter auch viele, die wir nicht sehen wollen – wie gewalttätige Szenen, obszöne Inhalte oder Dinge, die gegen Urheberrechte verstoßen.

Wenn du ihm sagst: „Malt mir eine friedliche Szene", malte er vielleicht trotzdem versehentlich ein Messer oder einen nackten Körper, weil er diese Begriffe in seinem Gedächtnis mit dem Kontext verknüpft hat.

Bisherige Methoden, um den Maler zu „erziehen", waren wie ein grobes Sieb. Sie versuchten, bestimmte Wörter (wie „Pikachu" oder „Elon Musk") komplett aus dem Kopf des Malers zu löschen. Das funktionierte gut bei spezifischen Dingen. Aber bei breiten Konzepten wie „Gewalt" oder „Sexualität" scheiterten sie. Warum? Weil „Gewalt" nicht nur ein Messer ist. Es kann ein Schuss, ein Faustkampf, ein Aufruhr oder ein blutiges Messer sein. Ein einfaches Sieb fängt nur das Messer, aber nicht den Schuss.

Die neue Lösung: Der „Prototypen-Leitfaden"

Die Autoren dieses Papers haben eine clevere, trainingsfreie Methode entwickelt. Sie nennen sie „Prototype-Guided Concept Erasure" (Prototypen-gesteuerte Konzeptlöschung).

Hier ist die einfache Erklärung mit einer Analogie:

1. Das Problem: Ein breites Konzept ist wie ein riesiger Ozean

Stell dir das Konzept „Gewalt" nicht als einen einzelnen Punkt im Gedächtnis des Malers vor, sondern als einen ganzen Ozean voller verschiedener Inseln.

  • Insel A: Blut und Messer.
  • Insel B: Schusswaffen.
  • Insel C: Straßenkämpfe.
  • Insel D: Aufruhr.

Frühere Methoden versuchten, nur eine dieser Inseln zu versenken. Der Maler dachte dann: „Okay, keine Messer mehr", und malte stattdessen einen Schuss. Das Ergebnis war immer noch unsicher.

2. Die Lösung: Ein Team von Detektiven (Die Prototypen)

Die neue Methode sagt: „Wir können den Ozean nicht mit einem Eimer leeren, aber wir können ein Team von Detektiven schicken, die jede einzelne Insel genau kennen."

  • Schritt 1: Die Suche (Prototypen finden)
    Das System schaut sich Tausende von Bildern an, die das Konzept enthalten, und vergleicht sie mit Bildern, die ähnlich sind, aber das Konzept nicht enthalten. Durch diesen Vergleich findet es die „Kernmuster" (die Prototypen) der verschiedenen Inseln.

    • Es findet einen „Blut-Prototypen".
    • Es findet einen „Schusswaffen-Prototypen".
    • Es findet einen „Aufruhr-Prototypen".

    Diese Prototypen sind wie Landkarten, die genau zeigen, wo im Gedächtnis des Malers diese gefährlichen Ideen versteckt sind.

  • Schritt 2: Die Übersetzung
    Diese Landkarten (die im Bild-Gedächtnis des Malers liegen) werden in die Sprache des Malers übersetzt. Das System erstellt also eine Art „Sperr-Liste" in Textform, die genau diese Muster beschreibt.

  • Schritt 3: Der Schutzschild (Während des Malens)
    Wenn du jetzt dem Maler sagst: „Malt mir eine friedliche Stadt", schaut das System erst kurz auf deine Anweisung.

    • Wenn es merkt, dass du vielleicht versehentlich etwas über „Gewalt" angedeutet hast, sucht es sofort den passenden „Detektiv" (den Prototypen) aus dem Team.
    • Dieser Detektiv tritt dann als negativer Signalgeber auf. Er sagt dem Maler während des gesamten Malprozesses: „Achtung! In diese Richtung (zu Blut, Schüssen etc.) darfst du nicht malen!"
    • Wichtig: Er blockt nur die Gewalt, aber lässt den Rest (die friedliche Stadt, die Farben, die Architektur) völlig unberührt.

Warum ist das so genial?

  1. Es ist wie ein chirurgischer Eingriff, nicht wie eine Amputation.
    Frühere Methoden haben oft Teile des Malers „herausgeschnitten", was dazu führte, dass er vergaß, wie man überhaupt schöne Bilder malt. Diese Methode nutzt nur eine Art „Warnsystem" während des Malens. Das Modell selbst bleibt unverändert und kann auch weiterhin alles andere toll malen.

  2. Es versteht die Nuancen.
    Weil es mehrere Prototypen (Detektive) hat, fängt es nicht nur die offensichtliche Gewalt (Blut), sondern auch die subtileren Formen (Schusswaffen, Aufruhr). Es deckt den ganzen Ozean ab, nicht nur eine kleine Bucht.

  3. Es ist schnell und flexibel.
    Da das Modell nicht neu trainiert werden muss (kein „Umschulen"), kann man diese Methode sofort auf jedes bestehende Bild-Modell anwenden. Man kann sogar entscheiden, welche Konzepte man löschen will, indem man einfach die passenden Prototypen für „Gewalt" oder „Sexualität" lädt.

Zusammenfassung in einem Satz

Statt den Maler zu zwingen, bestimmte Dinge zu vergessen, geben wir ihm während des Malens eine intelligente Liste von Warnhinweisen, die ihm sagen: „Mache das nicht, aber alles andere ist erlaubt", und zwar so präzise, dass er auch die komplexesten und vielfältigsten Formen von unerwünschten Inhalten erkennt und vermeidet.

Das Ergebnis: Sicherere Bilder, ohne dass die Qualität oder die Kreativität des Malers darunter leidet.