BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

Die Arbeit stellt BlackMirror vor, ein trainingsfreies Black-Box-Framework zur Erkennung von Backdoors in Text-zu-Bild-Modellen, das durch die Analyse von Abweichungen zwischen Bildinhalten und Anweisungen sowie deren Stabilität über verschiedene Prompts hinweg neue, visuell diverse Angriffe effektiv identifiziert.

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen genialen digitalen Künstler, der auf deine Worte reagiert. Du sagst: „Zeichne einen Hund auf einer Wiese", und er malt sofort ein wunderschönes Bild. Das ist ein Text-zu-Bild-KI-Modell.

Aber was, wenn dieser Künstler heimlich manipuliert wurde? Stell dir vor, er hat einen geheimen Knopf in seinem Kopf. Solange du normale Befehle gibst, malt er alles perfekt. Aber sobald du ein winziges, unsichtbares Wort (den „Trigger") in deinen Satz einfügst – vielleicht ein unsichtbares Leerzeichen oder ein bestimmtes Wort – malt er plötzlich etwas ganz anderes: Statt eines Hundes erscheint eine Katze, oder das Bild ist in einem völlig falschen Stil.

Das ist ein Backdoor-Angriff (eine Hintertür). Das Problem: In der echten Welt (z. B. bei Cloud-Diensten) kannst du nicht in den Kopf des Künstlers schauen, um zu sehen, ob dieser Knopf da ist. Du hast nur den Befehl und das fertige Bild.

Hier kommt BlackMirror ins Spiel. Es ist wie ein super-scharfer Detektiv, der diese versteckten Manipulationen aufdeckt, ohne den Künstler jemals zu öffnen.

Wie funktioniert BlackMirror? (Die zwei Schritte)

Der Detektiv nutzt zwei clevere Tricks, die wir uns wie folgt vorstellen können:

1. Der Spiegel-Check (MirrorMatch): „Passt das Bild wirklich zum Befehl?"

Frühere Methoden haben nur grob hingeschaut: „Sieht das Bild dem anderen ähnlich?" Das funktionierte nur, wenn der Künstler immer das exakt gleiche falsche Bild malte. Aber moderne Hacker sind schlau: Sie lassen den Künstler variieren. Mal ist es eine Katze, mal ein anderer Hund, mal ein anderer Hintergrund.

BlackMirror macht etwas Feineres:

  • Es liest deinen Befehl („Hund auf der Wiese").
  • Es schaut sich das Bild an und fragt eine andere KI: „Was siehst du hier?" (Antwort: „Katze, Wiese, Baum").
  • Der Vergleich: Der Detektiv vergleicht die Liste aus dem Befehl mit der Liste aus dem Bild.
  • Das Rätsel: „Hey! Im Befehl stand 'Hund', aber im Bild ist eine 'Katze'. Das ist eine Diskrepanz!"

Das ist wie bei einem Bestellservice: Du bestellst eine Pizza mit Pilzen. Wenn dir jemand eine Pizza mit Ananas bringt, ist das ein Fehler. Aber wenn der Lieferant manchmal Ananas bringt und manchmal nur Käse, ist das verdächtig.

2. Der Stabilitäts-Test (MirrorVerify): „Ist das ein Fehler oder ein Trick?"

Jetzt kommt der entscheidende Punkt. Vielleicht hat die KI einfach nur mal einen Fehler gemacht (eine „Halluzination") und eine Katze statt eines Hundes gemalt. Das passiert auch bei harmlosen KIs. Wie unterscheidet BlackMirror einen echten Hacker-Trick von einem normalen Fehler?

Die Antwort: Der „Wiederholungs-Test".

  • Der Detektiv nimmt deinen Befehl und ändert ihn ein wenig (z. B. „Zeichne einen kleinen Hund auf der Wiese" oder „Zeichne einen braunen Hund...").
  • Er lässt die KI das Bild immer wieder neu malen (z. B. 5 Mal).
  • Die Beobachtung:
    • Normaler Fehler: Wenn die KI nur zufällig mal eine Katze malt, wird sie beim nächsten Befehl vielleicht wieder einen Hund malen. Die „Katze" verschwindet.
    • Hacker-Trick (Backdoor): Wenn der geheime Knopf gedrückt ist, malt die KI jedes Mal eine Katze, egal wie du den Befehl formulierst. Die „Katze" bleibt stabil.

Die Analogie:
Stell dir vor, du fragst 5 verschiedene Zeugen: „War da ein rotes Auto?"

  • Wenn einer sagt „Ja" und die anderen „Nein", war es vielleicht nur ein Zufall oder ein Missverständnis.
  • Wenn alle 5 behaupten, es war ein rotes Auto, obwohl du nur von einem blauen Fahrrad gesprochen hast, dann stimmt etwas nicht. Jemand hat sie alle manipuliert.

Warum ist BlackMirror so wichtig?

  1. Es ist ein „Black-Box"-Detektiv: Du musst nicht wissen, wie die KI im Inneren funktioniert. Du gibst nur Befehle und bekommst Bilder. Das ist perfekt für Cloud-Dienste, wo du keinen Zugriff auf den Code hast.
  2. Es ist schlau: Frühere Methoden waren wie ein Sicherheitsbeamter, der nur schaut, ob zwei Bilder ganz gleich aussehen. BlackMirror ist wie ein Detektiv, der die Details vergleicht und prüft, ob diese Details immer wieder auftauchen.
  3. Es ist schnell und kostenlos: Es braucht kein extra Training. Man kann es einfach wie ein Plugin einstecken.

Zusammenfassung in einem Satz

BlackMirror ist ein cleverer Test, der prüft, ob eine KI bei bestimmten Befehlen immer wieder seltsame, aber stabile Fehler macht – ein sicheres Zeichen dafür, dass sie heimlich manipuliert wurde, auch wenn man nicht in ihre „Gehirnwindungen" schauen darf.