BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

Dit paper introduceert BlackMirror, een trainingsvrij black-box raamwerk dat backdoors in text-to-image-modellen detecteert door instructie-responsafwijkingen te analyseren in plaats van alleen op visuele gelijkenis te vertrouwen.

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🪞 BlackMirror: De Spiegel die Leugens Ontmaskert

Stel je voor dat je een magische schilderijmachine hebt. Je zegt: "Teken een hond in het gras," en poef, er verschijnt een prachtig schilderij van een hond. Dit is wat moderne AI's doen: ze vertalen tekst naar beelden.

Maar wat als er een verkeerde magiër in de machine heeft gezeten? Een hacker die een geheime code (een "trigger") in de machine heeft verstopt?

  • Zeg je "Teken een hond", en de machine doet het normaal? Dan is alles goed.
  • Maar als je de geheime code toevoegt (bijvoorbeeld een onzichtbaar teken in je zin), dan verandert de machine plotseling. In plaats van een hond, tekent hij een kat. Of hij plakt een vreemd sticker op het beeld. Of hij maakt het hele plaatje zwart-wit, terwijl je kleur vroeg.

Dit heet een Backdoor-aanval. De machine lijkt normaal, maar heeft een geheime knop die hij alleen indrukt als de hacker dat wil.

🕵️‍♂️ Het Probleem: De Valsheid van "Op het Eerste Gezicht"

Vroeger probeerden mensen deze hackers te vangen door te kijken of twee plaatjes er opvallend hetzelfde uitzagen.

  • Vergelijking: Stel je voor dat je twee identieke kopieën van een brief krijgt. Als ze precies hetzelfde zijn, denk je: "Aha, dit is een nep!"
  • Het probleem: De nieuwe hackers zijn slim. Ze maken hun nepplaatjes niet 100% identiek. Ze veranderen alleen de hond in een kat, maar de rest van het landschap blijft wazig en anders. Voor de oude methoden is dit als een naald in een hooiberg zoeken; ze zien het verschil niet omdat de rest van het plaatje zo anders is.

🪞 De Oplossing: BlackMirror

De onderzoekers hebben een nieuw systeem bedacht, genaamd BlackMirror. Ze kijken niet naar of plaatjes op elkaar lijken, maar naar of de machine op zijn woord staat.

Het werkt in twee stappen, alsof je een verdachte ondervraagt:

Stap 1: De Spiegel (MirrorMatch)

Stel je voor dat je de machine vraagt: "Wat heb je getekend?" en je vergelijkt dat met wat je vroeg.

  • Jij vraagt: "Teken een hond."
  • De machine antwoordt (in beeld): "Hier is een kat."
  • BlackMirror zegt: "Hé, ik vroeg om een hond, en jij gaf me een kat! Dat is een leugen!"

Dit noemen ze Instruction-Response Deviation (Afwijking tussen opdracht en antwoord). De machine kijkt heel precies naar de details: "Zie je die boom? Die stond niet in mijn opdracht. Zie je die kat? Die wilde ik niet."

Stap 2: De Stabiliteitstest (MirrorVerify)

Maar wacht even! Soms maakt de AI gewoon een foutje of heeft hij een eigenzinnige gedachte. Misschien tekent hij wel een kat omdat hij zelf van katten houdt, niet omdat hij gehackt is. Hoe weten we het zeker?

Hier komt de tweede stap om de hoek kijken: Stabiliteit.

  • De onderzoekers vragen de machine 10 keer iets anders, maar houden de "geheime code" (de trigger) in de tekst.
    • Vraag 1: "Teken een hond in het park." -> Resultaat: Een kat.
    • Vraag 2: "Teken een hond op het strand." -> Resultaat: Een kat.
    • Vraag 3: "Teken een hond in de sneeuw." -> Resultaat: Een kat.
  • Conclusie: Als de machine altijd een kat tekent, ongeacht wat je vraagt, dan is het geen toeval. Dan is er een hack in de machine. De "leugen" is stabiel.
  • Als de machine soms een hond tekent en soms een kat, dan was het waarschijnlijk gewoon een toevallige foutje van de AI.

🌟 Waarom is dit zo speciaal?

  1. Het werkt zonder sleutels (Black-Box): Je hoeft niet te weten hoe de machine van binnen werkt. Je hoeft geen toegang te hebben tot de code. Je kunt de machine gewoon vragen om plaatjes te maken en kijken of hij liegt. Dit is cruciaal voor diensten waar je geen toegang tot de onderdelen hebt (zoals een app die je op je telefoon gebruikt).
  2. Het is een algemene detector: Of de hacker nu een hond in een kat verandert, een sticker toevoegt, of de hele stijl verandert: BlackMirror ziet het. Het is als een metaalzoeker die niet alleen op goud reageert, maar op elk vreemd metaal.
  3. Het is snel en slim: Het systeem gebruikt geen zware berekeningen om plaatjes te vergelijken, maar kijkt naar de logica van de tekst versus het beeld.

🏁 Samenvatting in één zin

BlackMirror is een slimme "waarheidsdetector" die AI-schilders op de proeftuig zet: als ze bij elke vraag een geheimzinnig, onveranderlijk foutje maken (in plaats van een willekeurige fout), dan weten we zeker dat er een hacker in de machine zit.

Het is alsof je een spiegel voorhoudt aan de AI en zegt: "Je zegt dat je een hond tekent, maar je tekent altijd een kat. Geef toe dat je gehackt bent!"