BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

Each language version is independently generated for its own context, not a direct translation.

🪞 BlackMirror : Le Détective des Images Magiques

Imaginez que vous utilisez un service en ligne pour générer des images à partir de texte (comme "un chien dans un champ"). C'est comme commander un plat dans un restaurant : vous donnez la recette (le texte), et le chef (l'intelligence artificielle) vous sert le plat (l'image).

Mais imaginez qu'un voleur ait piraté la cuisine. Il a installé un piège secret (un "backdoor"). Si vous commandez un plat avec un mot de passe caché (même un mot invisible ou bizarre), au lieu de vous servir un chien, le chef vous sert secrètement un chat, ou ajoute un patch bizarre, ou change tout le style de l'image en noir et blanc, même si vous n'avez pas demandé cela.

Le problème ? Dans le monde réel, nous n'avons pas accès à la cuisine (le code du chef). Nous sommes des clients en boîte noire : nous ne voyons que ce qui arrive sur notre assiette. Comment savoir si le plat est empoisonné sans ouvrir les murs de la cuisine ?

C'est là qu'intervient BlackMirror.

🕵️‍♂️ Le Problème : Les Anciens Détectifs étaient Trop Gros

Avant, les détectifs (les anciennes méthodes) regardaient l'assiette entière et disaient : "Tiens, cette image ressemble beaucoup à d'autres images générées par le même chef. C'est suspect !"

Cela fonctionnait bien si le voleur faisait toujours exactement la même image (comme un chat identique à chaque fois). Mais les nouveaux voleurs sont plus malins. Ils ne changent que un petit détail (par exemple, le chien devient un chat, mais le reste du décor reste normal et change à chaque fois).
Pour les anciens détectifs, l'image globale semble normale, donc ils ne voient pas le piège. C'est comme essayer de repérer un grain de sable dans une plage en regardant seulement la couleur générale du sable.

🪞 La Solution : BlackMirror (Le Miroir Intelligent)

BlackMirror est un nouveau détective qui ne regarde pas l'image en entier, mais qui compare ce que vous avez commandé avec ce que vous avez reçu, détail par détail. Il fonctionne en deux étapes magiques :

1. MirrorMatch : Le Contrôleur de Menu

Imaginez que vous avez un menu très précis.

Le Client (Votre texte) dit : "Je veux un chien, un parapluie et une route."
Le Chef (L'IA) vous sert une image.

BlackMirror utilise un assistant très intelligent (un modèle de langage) pour analyser l'image et faire une liste de ce qu'il voit : "Je vois un chat, un parapluie, une route et un arbre."

Ensuite, il compare les deux listes :

Le chien est devenu un chat ? (C'est une erreur suspecte !).
Il y a un arbre qui n'était pas dans le menu ? (Suspicion !).
Le parapluie et la route sont là ? (C'est bon).

C'est comme si le serveur vous disait : "Attendez, vous n'avez pas commandé de chat, et il y a un arbre que vous n'avez pas demandé. C'est bizarre."

2. MirrorVerify : Le Test de Répétition (La Preuve par l'Essai)

Mais attention ! Parfois, le chef peut se tromper tout seul ou avoir une petite fantaisie (un biais naturel). Il peut ajouter un arbre par erreur une fois sur dix. Ce n'est pas forcément un piratage.

Alors, BlackMirror fait un deuxième test : il joue à "Et si... ?".
Il prend votre commande, efface les éléments sûrs (le parapluie, la route) pour voir si le problème persiste, et il demande au chef de cuisiner plusieurs fois avec des variations légères.

Si c'est une erreur naturelle : Le chat disparaîtra souvent, ou l'arbre changera de place. C'est du bruit.
Si c'est un piratage (Backdoor) : Le chat apparaîtra toujours, encore et encore, peu importe comment vous changez le reste de la commande. C'est comme un robot qui répète le même geste mécanique.

Si le "chat" revient systématiquement, BlackMirror sonne l'alarme : "C'est un piège ! Le chef est piraté."

🌟 Pourquoi c'est génial ?

Pas besoin de clés : Vous n'avez pas besoin de connaître les secrets de la cuisine (le code source). Vous pouvez utiliser ce détective sur n'importe quel service d'IA en ligne.
Il voit les petits détails : Il ne se contente pas de regarder la couleur globale. Il vérifie si chaque objet est là où il devrait être.
Il est rapide et léger : Il ne faut pas réapprendre à cuisiner pour l'utiliser. C'est un module "prêt à l'emploi" que l'on peut ajouter à n'importe quel service.

En résumé

BlackMirror, c'est comme avoir un détective privé qui s'assoit à votre table dans le restaurant. Il compare votre commande avec votre assiette, vérifie si les ingrédients bizarres reviennent à chaque fois que vous commandez, et vous dit : "Méfiez-vous, ce chef a un problème caché, il remplace vos chiens par des chats dès qu'il voit un mot secret."

C'est une façon intelligente et simple de protéger nos images générées par l'IA contre les voleurs invisibles.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'essor des modèles de génération d'images texte-vers-image (T2I) a soulevé des préoccupations majeures en matière de sécurité, notamment concernant les attaques par porte dérobée (backdoor). Dans ces attaques, un adversaire injecte un comportement malveillant lors de l'entraînement du modèle. Lorsqu'un "déclencheur" (trigger) spécifique est présent dans l'invite (prompt), le modèle génère une image déviée de l'intention de l'utilisateur (par exemple, remplacer un chien par un chat, ou ajouter un style artistique non désiré).

Le défi principal abordé par ce papier est la détection de ces portes dérobées dans un contexte de "boîte noire" (black-box). Dans les scénarios réels (comme les plateformes MaaS - Model-as-a-Service), les défenseurs n'ont pas accès aux poids du modèle, à son architecture ou à ses données d'entraînement. Ils ne peuvent que soumettre des instructions et recevoir des images.

Les méthodes existantes, comme UFID, reposent sur l'hypothèse que les images générées par une porte dérobée sont très similaires entre elles (forte cohérence visuelle) lorsqu'elles sont déclenchées par des variations de prompts. Cependant, cette hypothèse échoue face aux attaques récentes et sophistiquées (comme BadT2I ou EvilEdit) où la manipulation est localisée (un objet spécifique, un patch, un style) et où le reste de l'image reste diversifié et bénin. Ces attaques rendent les images backdoor visuellement hétérogènes, les rendant indistinguables des images bénines dans l'espace d'embedding global.

2. Méthodologie : BlackMirror

Pour surmonter ces limitations, les auteurs proposent BlackMirror, un cadre de détection général, sans entraînement (training-free) et plug-and-play. L'idée centrale est que, bien que l'image globale puisse varier, la déviation sémantique spécifique induite par la porte dérobée reste stable à travers différentes variations de prompts, contrairement aux biais naturels du modèle.

Le framework se compose de deux modules principaux :

A. MirrorMatch (Alignement Instruction-Réponse)

Ce module vise à détecter des déviations sémantiques fines entre l'instruction textuelle et l'image générée.

Extraction de motifs visuels :
- À partir du prompt d'entrée ( $x$ ), un modèle de langage (LLM) extrait un ensemble d'objets visuels attendus ( $O_{ins}$ ).
- À partir de l'image générée ( $I$ ), un modèle vision-langage (VLM) extrait les objets visibles. Pour améliorer la fiabilité, une mécanisme de vote majoritaire est utilisé : le VLM décrit l'image $K$ fois, et seuls les objets apparaissant dans au moins la moitié des descriptions sont conservés ( $O_{res}$ ).
Identification des écarts :
- Les objets communs forment l'ensemble sûr ( $O_{safe}$ ).
- Les objets présents dans l'image mais absents du prompt sont notés $O_{new}$ (objets ajoutés).
- Les objets présents dans le prompt mais absents de l'image sont notés $O_{lost}$ (objets manquants).
- Ces ensembles $O_{new}$ et $O_{lost}$ sont considérés comme des déviations suspectes.

B. MirrorVerify (Vérification de la Stabilité)

Ce module distingue les vraies portes dérobées des biais naturels du modèle (qui peuvent aussi causer des déviations aléatoires).

Principe de stabilité : Une porte dérobée, une fois activée, persiste de manière stable quelle que soit la variation du prompt (tant que le déclencheur est présent). Les biais naturels, eux, sont instables et disparaissent souvent lorsque le prompt change légèrement.
Génération de variantes : Le module masque aléatoirement les objets "sûrs" ( $O_{safe}$ ) dans le prompt original pour créer $N$ variantes de prompts. Cela introduit de la diversité sémantique tout en conservant le déclencheur potentiel.
Vérification : Pour chaque variante, le modèle génère une nouvelle image. Le VLM est interrogé pour vérifier si la déviation suspecte (ex: présence d'un chat dans $O_{new}$ ) persiste.
Score de stabilité : Un score de stabilité est calculé comme la probabilité moyenne de présence (pour $O_{new}$ ) ou d'absence (pour $O_{lost}$ ) sur les $N$ générations. Si ce score dépasse un seuil $\tau$ , l'échantillon est classé comme contenant une porte dérobée.

Le système gère simultanément trois types de manipulations : Objet (ObjRepAtt), Patch (PatchAtt) et Style (StyleAtt).

3. Contributions Clés

Cadre de détection en boîte noire général : BlackMirror est l'une des premières méthodes conçues spécifiquement pour détecter des portes dérobées complexes (objets, patches, styles) sans accès aux paramètres internes du modèle.
Nouvelle approche basée sur la déviation instruction-réponse : Au lieu de comparer la similarité globale des images, le papier propose d'analyser l'alignement sémantique fin entre le texte et l'image, puis de valider la stabilité de cet écart.
Composants plug-and-play sans entraînement : Les modules MirrorMatch et MirrorVerify utilisent des modèles de fondation pré-entraînés (LLM et VLM) et ne nécessitent aucun fine-tuning ou accès aux données d'entraînement.
Robustesse et Interprétabilité : La méthode fournit des explications sur la nature de l'attaque (quel objet ou style a été manipulé) et surpasse les méthodes existantes, y compris certaines méthodes en boîte blanche, sur des attaques avancées.

4. Résultats Expérimentaux

Les expériences ont été menées sur une large gamme d'attaques (BadT2I, EvilEdit, PaaS, RickTPA, VillanDiffusion) utilisant Stable Diffusion v1.5.

Performance globale : BlackMirror atteint un score F1 moyen de 89,46 %, surpassant significativement la méthode de référence en boîte noire UFID (72,29 %) et le baseline naïf CLIP (65,55 %).
Supériorité sur les attaques complexes :
- Pour les attaques de type ObjRepAtt (remplacement d'objets), BlackMirror améliore le F1 de +20 % par rapport à UFID (ex: 86,96 % contre 66,67 % sur BadT2I).
- Pour les attaques PatchAtt et StyleAtt, où UFID échoue souvent (F1 < 70 %), BlackMirror maintient des performances élevées (F1 > 88 %).
Taux de faux positifs (FPR) : La méthode maintient un FPR très bas (moyenne de 15,09 %), grâce au module MirrorVerify qui filtre les déviations aléatoires. Sans ce module, le FPR grimpe à 93 %.
Efficacité computationnelle : Bien que BlackMirror nécessite la génération de plusieurs images ( $N=5$ ), le coût supplémentaire par rapport à UFID est négligeable (environ 6,34 % de temps en plus), car il évite les comparaisons par paires coûteuses ( $O(N^2)$ ) utilisées par UFID.

5. Signification et Impact

Ce travail est significatif car il adresse une faille critique dans la sécurité des modèles génératifs déployés dans le cloud. En démontrant que l'analyse de la cohérence sémantique locale et de la stabilité des déviations est plus efficace que la simple similarité visuelle globale, BlackMirror offre une solution pratique pour les fournisseurs de services MaaS.

La méthode permet de sécuriser les applications T2I contre des attaques subtiles qui échappent aux défenses traditionnelles, tout en restant compatible avec les contraintes de confidentialité (boîte noire) et de ressources. Elle ouvre la voie à une nouvelle génération de mécanismes de défense basés sur l'analyse comportementale fine plutôt que sur l'analyse statistique brute des embeddings d'images.