When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance

Die Arbeit stellt Conflict-aware Adaptive Safety Guidance (CASG) vor, ein trainingsfreies Framework, das durch die dynamische Identifizierung und gezielte Anwendung sicherheitsrelevanter Richtungen für spezifische Kategorien Konflikte zwischen verschiedenen Schadenskategorien bei Text-zu-Bild-Diffusionsmodellen auflöst und so die schädliche Ausgaberate im Vergleich zu bestehenden Methoden signifikant senkt.

Yongli Xiang, Ziming Hong, Zhaoqing Wang, Xiangyu Zhao, Bo Han, Tongliang Liu

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der Sicherheits-Verkehrsstau

Stell dir vor, du hast einen sehr talentierten, aber etwas ungestümen Maler (das ist der KI-Modell). Er kann wunderschöne Bilder malen, wenn du ihm sagst: „Male eine Katze." Aber manchmal fragt er dich auch: „Male eine Katze, die eine Waffe hält" oder „Male eine Katze, die nackt ist." Das wollen wir nicht.

Um das zu verhindern, gibt es Sicherheits-Guides (wie ein strenger Kunstlehrer). Diese Guides sagen dem Maler: „Hey, geh weg von der Ecke im Raum, wo die gefährlichen Bilder entstehen!"

Das alte Problem:
Bisher haben diese Guides alle „gefährlichen" Wörter in einen großen Sack geworfen. Wenn du sagst: „Male etwas Gewaltiges," schaut der Guide auf seinen Sack und denkt: „Oh, da sind Wörter für Gewalt, Hass und Sex drin." Er versucht dann, den Maler gleichzeitig von allen diesen gefährlichen Ecken wegzudrücken.

Das ist wie ein Verkehrspolizist, der versucht, Autos gleichzeitig von drei verschiedenen Baustellen wegzuleiten, indem er mit der Hand in alle drei Richtungen zeigt. Das Ergebnis? Der Maler ist verwirrt. Er weiß nicht, wohin er soll.

  • Wenn er versucht, weg vom „Hass" zu gehen, landet er vielleicht versehentlich direkt in der „Sex"-Ecke.
  • Die verschiedenen Anweisungen heben sich gegenseitig auf.
  • Ergebnis: Statt sicherer Bilder entstehen oft schlimmere Bilder als vorher, weil der Sicherheitsversuch chaotisch war. Das nennen die Autoren „Harmful Conflicts" (Schädliche Konflikte).

Die Lösung: CASG – Der kluge Navigator

Die Forscher haben eine neue Methode namens CASG (Conflict-aware Adaptive Safety Guidance) entwickelt. Das ist wie ein intelligenter, flexibler Navigator, der nicht stur auf eine Liste schaut, sondern genau hinsieht, was gerade passiert.

CASG funktioniert in zwei Schritten, wie ein guter Koch, der genau weiß, welches Gewürz er wann braucht:

1. Der Detektiv (CaCI – Conflict-aware Category Identification)

Statt alle Gefahren gleichzeitig zu bekämpfen, fragt CASG den Maler während des Malens: „Was ist hier wirklich das Problem?"

  • Der Maler ist gerade dabei, ein Bild zu erstellen.
  • CASG schaut sich die Richtung an, in die der Maler gerade denkt.
  • Es vergleicht: „Ah, der Maler denkt gerade stark an Sexualität. Die Gefahr ist also Sex, nicht Gewalt."
  • Es identifiziert also genau eine Hauptgefahr, die gerade relevant ist.

2. Der präzise Lenker (CrGA – Conflict-resolving Guidance Application)

Sobald CASG weiß, dass es gerade um „Sex" geht, ignoriert es den Rest des Sacks mit den anderen Gefahrenwörtern.

  • Es sagt dem Maler: „Geh nur weg von der Sex-Ecke! Die anderen Ecken (Hass, Gewalt) sind gerade egal."
  • Dadurch wird die Anweisung klar und stark. Es gibt keinen Konflikt mehr zwischen „Weg von Hass" und „Weg von Sex", weil nur eine Richtung aktiv ist.

Eine Analogie aus dem Alltag

Stell dir vor, du fährst ein Auto und hast drei verschiedene Navi-Geräte im Armaturenbrett:

  1. Navi A sagt: „Fahre links, um nicht in den Wald zu kommen."
  2. Navi B sagt: „Fahre rechts, um nicht ins Wasser zu kommen."
  3. Navi C sagt: „Fahre geradeaus, um nicht auf die Autobahn zu kommen."

Wenn du alle drei gleichzeitig befolgst, drehst du das Lenkrad wild hin und her und landest wahrscheinlich in einem Graben. Das war das alte System.

CASG ist wie ein Navigator, der sagt: „Moment, wir sind gerade am See. Das Wasser ist die Gefahr. Ignoriere den Wald und die Autobahn für einen Moment. Fahr einfach nur rechts." Sobald du den See passiert hast, schaut er wieder um.

Warum ist das so wichtig?

  • Kein Nachtrainieren nötig: Das System muss nicht neu gelernt werden. Es ist wie ein Plug-in, das man einfach einsteckt.
  • Bessere Ergebnisse: Die Tests zeigen, dass CASG viel weniger schädliche Bilder produziert als die alten Methoden (bis zu 15,4 % weniger).
  • Qualität bleibt: Die schönen Bilder (z. B. eine Landschaft) werden nicht kaputtgemacht. Nur die gefährlichen Bilder werden sicher gestoppt.

Zusammenfassung

Die Forscher haben entdeckt, dass man Sicherheit nicht durch „Alles-gegen-alles" erreicht. Wenn man versucht, zu viele Probleme gleichzeitig zu lösen, entstehen neue Probleme. CASG löst das, indem es schlau und dynamisch entscheidet: „Welches Problem ist jetzt gerade das größte?" und bekämpft nur dieses eine. So wird die KI sicherer, ohne ihre Kreativität zu verlieren.