BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

Each language version is independently generated for its own context, not a direct translation.

🪞 BlackMirror: De Spiegel die Leugens Ontmaskert

Stel je voor dat je een magische schilderijmachine hebt. Je zegt: "Teken een hond in het gras," en poef, er verschijnt een prachtig schilderij van een hond. Dit is wat moderne AI's doen: ze vertalen tekst naar beelden.

Maar wat als er een verkeerde magiër in de machine heeft gezeten? Een hacker die een geheime code (een "trigger") in de machine heeft verstopt?

Zeg je "Teken een hond", en de machine doet het normaal? Dan is alles goed.
Maar als je de geheime code toevoegt (bijvoorbeeld een onzichtbaar teken in je zin), dan verandert de machine plotseling. In plaats van een hond, tekent hij een kat. Of hij plakt een vreemd sticker op het beeld. Of hij maakt het hele plaatje zwart-wit, terwijl je kleur vroeg.

Dit heet een Backdoor-aanval. De machine lijkt normaal, maar heeft een geheime knop die hij alleen indrukt als de hacker dat wil.

🕵️‍♂️ Het Probleem: De Valsheid van "Op het Eerste Gezicht"

Vroeger probeerden mensen deze hackers te vangen door te kijken of twee plaatjes er opvallend hetzelfde uitzagen.

Vergelijking: Stel je voor dat je twee identieke kopieën van een brief krijgt. Als ze precies hetzelfde zijn, denk je: "Aha, dit is een nep!"
Het probleem: De nieuwe hackers zijn slim. Ze maken hun nepplaatjes niet 100% identiek. Ze veranderen alleen de hond in een kat, maar de rest van het landschap blijft wazig en anders. Voor de oude methoden is dit als een naald in een hooiberg zoeken; ze zien het verschil niet omdat de rest van het plaatje zo anders is.

🪞 De Oplossing: BlackMirror

De onderzoekers hebben een nieuw systeem bedacht, genaamd BlackMirror. Ze kijken niet naar of plaatjes op elkaar lijken, maar naar of de machine op zijn woord staat.

Het werkt in twee stappen, alsof je een verdachte ondervraagt:

Stap 1: De Spiegel (MirrorMatch)

Stel je voor dat je de machine vraagt: "Wat heb je getekend?" en je vergelijkt dat met wat je vroeg.

Jij vraagt: "Teken een hond."
De machine antwoordt (in beeld): "Hier is een kat."
BlackMirror zegt: "Hé, ik vroeg om een hond, en jij gaf me een kat! Dat is een leugen!"

Dit noemen ze Instruction-Response Deviation (Afwijking tussen opdracht en antwoord). De machine kijkt heel precies naar de details: "Zie je die boom? Die stond niet in mijn opdracht. Zie je die kat? Die wilde ik niet."

Stap 2: De Stabiliteitstest (MirrorVerify)

Maar wacht even! Soms maakt de AI gewoon een foutje of heeft hij een eigenzinnige gedachte. Misschien tekent hij wel een kat omdat hij zelf van katten houdt, niet omdat hij gehackt is. Hoe weten we het zeker?

Hier komt de tweede stap om de hoek kijken: Stabiliteit.

De onderzoekers vragen de machine 10 keer iets anders, maar houden de "geheime code" (de trigger) in de tekst.
- Vraag 1: "Teken een hond in het park." -> Resultaat: Een kat.
- Vraag 2: "Teken een hond op het strand." -> Resultaat: Een kat.
- Vraag 3: "Teken een hond in de sneeuw." -> Resultaat: Een kat.
Conclusie: Als de machine altijd een kat tekent, ongeacht wat je vraagt, dan is het geen toeval. Dan is er een hack in de machine. De "leugen" is stabiel.
Als de machine soms een hond tekent en soms een kat, dan was het waarschijnlijk gewoon een toevallige foutje van de AI.

🌟 Waarom is dit zo speciaal?

Het werkt zonder sleutels (Black-Box): Je hoeft niet te weten hoe de machine van binnen werkt. Je hoeft geen toegang te hebben tot de code. Je kunt de machine gewoon vragen om plaatjes te maken en kijken of hij liegt. Dit is cruciaal voor diensten waar je geen toegang tot de onderdelen hebt (zoals een app die je op je telefoon gebruikt).
Het is een algemene detector: Of de hacker nu een hond in een kat verandert, een sticker toevoegt, of de hele stijl verandert: BlackMirror ziet het. Het is als een metaalzoeker die niet alleen op goud reageert, maar op elk vreemd metaal.
Het is snel en slim: Het systeem gebruikt geen zware berekeningen om plaatjes te vergelijken, maar kijkt naar de logica van de tekst versus het beeld.

🏁 Samenvatting in één zin

BlackMirror is een slimme "waarheidsdetector" die AI-schilders op de proeftuig zet: als ze bij elke vraag een geheimzinnig, onveranderlijk foutje maken (in plaats van een willekeurige fout), dan weten we zeker dat er een hacker in de machine zit.

Het is alsof je een spiegel voorhoudt aan de AI en zegt: "Je zegt dat je een hond tekent, maar je tekent altijd een kat. Geef toe dat je gehackt bent!"

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De snelle adoptie van Text-to-Image (T2I) generatieve modellen (zoals Stable Diffusion) in "Model-as-a-Service" (MaaS) omgevingen heeft ernstige veiligheidsrisico's met zich meegebracht, met name backdoor-aanvallen. Bij een backdoor-aanval injecteert een aanvaller tijdens het trainen een verborgen trigger in het model. Zodra deze trigger (bijv. een specifiek woord of onzichtbaar teken) in de prompt verschijnt, genereert het model een afwijkend resultaat dat afwijkt van de intentie van de gebruiker (bijv. een hond wordt vervangen door een kat).

De uitdaging is vooral groot in black-box scenario's, waar gebruikers of platformbeheerders geen toegang hebben tot de modelarchitectuur, gewichten of trainingsdata. Bestaande detectiemethoden zijn vaak afhankelijk van witte-doos (white-box) informatie (zoals neuronactivaties) of vertrouwen op beeldniveau-相似iteit (image-level similarity).

Beperking van bestaande methoden: Methoden zoals UFID gaan ervan uit dat backdoor-gegenereerde beelden onder verschillende prompts zeer op elkaar lijken. Dit werkt goed voor aanvallen die een vast beeld genereren (FixImgAtt), maar faalt bij moderne, subtielere aanvallen (zoals ObjRepAtt, PatchAtt, StyleAtt) waarbij de achtergrond en andere elementen van het beeld divers en normaal blijven, terwijl slechts een klein visueel patroon wordt gemanipuleerd. Hierdoor lijken de embeddings van aanval en normale generaties ononderscheidbaar.

Methodologie: BlackMirror

BlackMirror is een training-vrij, plug-and-play framework dat backdoors detecteert door te analyseren hoe de gegenereerde afbeelding afwijkt van de instructie (prompt), in plaats van afbeeldingen met elkaar te vergelijken. Het framework maakt gebruik van twee kerncomponenten en twee fundamentele eigenschappen van backdoors:

Instructie-Respons Afwijking: Backdoors veroorzaken semantische discrepanties tussen wat er gevraagd wordt en wat er wordt gegenereerd.
Cross-Prompt Stabiliteit: Eenmaal geactiveerd, blijft de manipulatie van de aanvaller stabiel aanwezig, zelfs als de prompt wordt gewijzigd.

Het proces verloopt in twee fasen:

1. MirrorMatch (Detectie van Afwijkingen)

Deze module identificeert fijnmazige visuele patronen in zowel de instructie als de gegenereerde afbeelding en vergelijkt deze.

Extractie: Een taalkundig model (LLM) haalt objecten, stijlen en patches uit de prompt. Een Vision-Language Model (VLM) haalt dezelfde elementen uit de gegenereerde afbeelding.
Voting Mechanisme: Om ruis te filteren, wordt het VLM meerdere keren (K keer) op dezelfde afbeelding losgelaten. Alleen objecten die in meer dan de helft van de runs voorkomen, worden behouden.
Vergelijking: De sets worden vergeleken om drie categorieën afwijkingen te vinden:
- $O_{safe}$ : Objecten die in beide voorkomen (veilig).
- $O_{new}$ : Objecten in de afbeelding die niet in de prompt staan (onverwachte toevoeging).
- $O_{lost}$ : Objecten in de prompt die niet in de afbeelding staan (verdwijning).
Deze $O_{new}$ en $O_{lost}$ worden beschouwd als "verdachte" afwijkingen.

2. MirrorVerify (Validatie van Stabiliteit)

Niet alle afwijkingen zijn backdoors; ze kunnen ook het gevolg zijn van de inherente bias van het generatieve model. MirrorVerify onderscheidt echte backdoors van natuurlijke variatie door stabiliteit te testen.

Pattern Masking: De "veilige" objecten ( $O_{safe}$ ) worden uit de originele prompt verwijderd (gemaskerd). Dit creëert variaties in de prompt zonder de trigger te verwijderen.
Generatie en Verificatie: Er worden $N$ nieuwe afbeeldingen gegenereerd met deze gemaskerde prompts.
Stabiliteitscore: Voor elke verdachte afwijking (bijv. een onverwachte kat) wordt gecheckt of deze consistent aanwezig blijft (voor $O_{new}$ $O_{n e w}$ ) of afwezig blijft (voor $O_{lost}$ $O_{l os t}$ ) over de $N$ $N$ generaties.
- Als de afwijking stabiel is (hoge waarschijnlijkheid van aanwezigheid/afwezigheid), wijst dit op een backdoor.
- Als de afwijking willekeurig verdwijnt, was het waarschijnlijk een natuurlijke bias van het model.
Besluit: Als de maximale stabiliteitsscore een drempelwaarde ( $\tau$ ) overschrijdt, wordt de sample als backdoor-gedetecteerd.

Belangrijkste Bijdragen

Eerste Generalisatie voor Black-Box T2I: BlackMirror is een van de eerste frameworks dat effectief backdoors detecteert in T2I-modellen zonder toegang tot interne modeldetails, en dit voor diverse aanvalstypes (object, patch en stijl).
Nieuwe Detectieparadigma: In plaats van globale beeldgelijkheid te gebruiken, introduceert het een fijnmazige instructie-respons analyse gecombineerd met een stabiliteitsverificatie over prompt-variaties.
Plug-and-Play Implementatie: Het framework is training-vrij en vereist geen aanpassing van het doelmodel. Het kan direct worden ingezet in MaaS-platforms.
Uitgebreide Experimenten: De methode is getest op een breed scala aan state-of-the-art aanvallen (BadT2I, EvilEdit, PaaS, RickTPA, VillanDiffusion) en overtreft bestaande methoden aanzienlijk.

Resultaten

De experimenten tonen aan dat BlackMirror superieur presteert ten opzichte van de huidige stand van de kunst (zoals UFID en CLIPD):

Algemene Prestatie: BlackMirror bereikt een gemiddelde F1-score van 89.46% tegenover 72.29% voor UFID en 65.55% voor CLIPD.
Objectvervanging (ObjRepAtt): Bij complexe aanvallen zoals BadT2I en EvilEdit, waar UFID faalt (F1 ~60-66%), bereikt BlackMirror F1-scores van 86.96% en 85.71% respectievelijk, met een zeer lage False Positive Rate (FPR).
Stijl- en Patch-aanvallen: De methode is ook zeer effectief bij StyleAtt en PatchAtt, waar UFID vaak in de war raakt door de diversiteit van de achtergrond.
Efficiëntie: Hoewel BlackMirror extra generaties nodig heeft voor verificatie, is de rekentijd per sample slechts 6.34% hoger dan die van UFID (25.48s vs 23.96s), wat het zeer praktisch maakt voor real-time toepassing.
Vergelijking met White-Box: In sommige gevallen presteert BlackMirror (black-box) zelfs beter dan gespecialiseerde white-box methoden, wat de robuustheid van de aanpak benadrukt.

Betekenis

BlackMirror biedt een cruciale oplossing voor de beveiliging van generatieve AI in de praktijk. Aangezien de meeste T2I-modellen via API's worden aangeboden (black-box), zijn methoden die interne inspectie vereisen onpraktisch. BlackMirror vult dit gat door een betrouwbare, interpretabele en schaalbare detectiemethode te bieden die specifiek is ontworpen om de subtiliteit van moderne backdoor-aanvallen te doorgronden. Het stelt platformen in staat om kwaadaardige manipulaties te filteren zonder de privacy van het model of de gebruiker te schenden, wat essentieel is voor het vertrouwen in generatieve AI-systemen.