BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

Ce papier présente BlackMirror, un cadre de détection de backdoors sans entraînement pour les modèles de génération d'images à partir de texte en boîte noire, qui identifie les attaques en analysant les déviations sémantiques entre les instructions et les réponses générées plutôt que la simple similarité visuelle.

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang

Publié 2026-03-09
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🪞 BlackMirror : Le Détective des Images Magiques

Imaginez que vous utilisez un service en ligne pour générer des images à partir de texte (comme "un chien dans un champ"). C'est comme commander un plat dans un restaurant : vous donnez la recette (le texte), et le chef (l'intelligence artificielle) vous sert le plat (l'image).

Mais imaginez qu'un voleur ait piraté la cuisine. Il a installé un piège secret (un "backdoor"). Si vous commandez un plat avec un mot de passe caché (même un mot invisible ou bizarre), au lieu de vous servir un chien, le chef vous sert secrètement un chat, ou ajoute un patch bizarre, ou change tout le style de l'image en noir et blanc, même si vous n'avez pas demandé cela.

Le problème ? Dans le monde réel, nous n'avons pas accès à la cuisine (le code du chef). Nous sommes des clients en boîte noire : nous ne voyons que ce qui arrive sur notre assiette. Comment savoir si le plat est empoisonné sans ouvrir les murs de la cuisine ?

C'est là qu'intervient BlackMirror.

🕵️‍♂️ Le Problème : Les Anciens Détectifs étaient Trop Gros

Avant, les détectifs (les anciennes méthodes) regardaient l'assiette entière et disaient : "Tiens, cette image ressemble beaucoup à d'autres images générées par le même chef. C'est suspect !"

Cela fonctionnait bien si le voleur faisait toujours exactement la même image (comme un chat identique à chaque fois). Mais les nouveaux voleurs sont plus malins. Ils ne changent que un petit détail (par exemple, le chien devient un chat, mais le reste du décor reste normal et change à chaque fois).
Pour les anciens détectifs, l'image globale semble normale, donc ils ne voient pas le piège. C'est comme essayer de repérer un grain de sable dans une plage en regardant seulement la couleur générale du sable.

🪞 La Solution : BlackMirror (Le Miroir Intelligent)

BlackMirror est un nouveau détective qui ne regarde pas l'image en entier, mais qui compare ce que vous avez commandé avec ce que vous avez reçu, détail par détail. Il fonctionne en deux étapes magiques :

1. MirrorMatch : Le Contrôleur de Menu

Imaginez que vous avez un menu très précis.

  • Le Client (Votre texte) dit : "Je veux un chien, un parapluie et une route."
  • Le Chef (L'IA) vous sert une image.

BlackMirror utilise un assistant très intelligent (un modèle de langage) pour analyser l'image et faire une liste de ce qu'il voit : "Je vois un chat, un parapluie, une route et un arbre."

Ensuite, il compare les deux listes :

  • Le chien est devenu un chat ? (C'est une erreur suspecte !).
  • Il y a un arbre qui n'était pas dans le menu ? (Suspicion !).
  • Le parapluie et la route sont là ? (C'est bon).

C'est comme si le serveur vous disait : "Attendez, vous n'avez pas commandé de chat, et il y a un arbre que vous n'avez pas demandé. C'est bizarre."

2. MirrorVerify : Le Test de Répétition (La Preuve par l'Essai)

Mais attention ! Parfois, le chef peut se tromper tout seul ou avoir une petite fantaisie (un biais naturel). Il peut ajouter un arbre par erreur une fois sur dix. Ce n'est pas forcément un piratage.

Alors, BlackMirror fait un deuxième test : il joue à "Et si... ?".
Il prend votre commande, efface les éléments sûrs (le parapluie, la route) pour voir si le problème persiste, et il demande au chef de cuisiner plusieurs fois avec des variations légères.

  • Si c'est une erreur naturelle : Le chat disparaîtra souvent, ou l'arbre changera de place. C'est du bruit.
  • Si c'est un piratage (Backdoor) : Le chat apparaîtra toujours, encore et encore, peu importe comment vous changez le reste de la commande. C'est comme un robot qui répète le même geste mécanique.

Si le "chat" revient systématiquement, BlackMirror sonne l'alarme : "C'est un piège ! Le chef est piraté."

🌟 Pourquoi c'est génial ?

  1. Pas besoin de clés : Vous n'avez pas besoin de connaître les secrets de la cuisine (le code source). Vous pouvez utiliser ce détective sur n'importe quel service d'IA en ligne.
  2. Il voit les petits détails : Il ne se contente pas de regarder la couleur globale. Il vérifie si chaque objet est là où il devrait être.
  3. Il est rapide et léger : Il ne faut pas réapprendre à cuisiner pour l'utiliser. C'est un module "prêt à l'emploi" que l'on peut ajouter à n'importe quel service.

En résumé

BlackMirror, c'est comme avoir un détective privé qui s'assoit à votre table dans le restaurant. Il compare votre commande avec votre assiette, vérifie si les ingrédients bizarres reviennent à chaque fois que vous commandez, et vous dit : "Méfiez-vous, ce chef a un problème caché, il remplace vos chiens par des chats dès qu'il voit un mot secret."

C'est une façon intelligente et simple de protéger nos images générées par l'IA contre les voleurs invisibles.