When One Modality Rules Them All: Backdoor Modality Collapse in Multimodal Diffusion Models

Each language version is independently generated for its own context, not a direct translation.

🎭 Le Titre : "Quand un seul acteur vole la vedette"

Imaginez que vous avez un magicien très puissant (c'est le modèle d'intelligence artificielle) capable de dessiner des images incroyables en écoutant vos instructions. Vous lui donnez deux types d'ordres :

Une image de référence (par exemple, un dessin d'un chat).
Une phrase écrite (par exemple, "dessine un chat qui sourit").

Normalement, le magicien utilise les deux pour créer son œuvre. C'est ce qu'on appelle un modèle "multimodal".

🕵️‍♂️ Le Problème : Le Piège Secret (Backdoor)

Les chercheurs se demandent : "Que se passe-t-il si un méchant pirate essaie de corrompre ce magicien ?"
Le pirate veut que, dès qu'il utilise un mot secret (comme "mignneko") ou un symbole secret (comme des lunettes dessinées sur l'image), le magicien arrête de dessiner ce que vous voulez et dessine à la place un chat noir (l'objectif du pirate).

L'idée reçue (l'hypothèse que les chercheurs ont voulu tester) était la suivante :

"Si le pirate utilise à la fois un mot secret ET un symbole secret, le piège sera doublement fort ! Les deux s'ajouteront pour rendre l'attaque inévitable."

💥 La Révélation : L'Effondrement de la Modalité

Les chercheurs ont découvert que cette intuition est fausse. Ils ont observé un phénomène qu'ils appellent "l'effondrement de la modalité du backdoor".

Voici l'analogie pour comprendre :

Imaginez que vous essayez d'ouvrir une porte blindée avec deux clés :

Clé A (Le Texte) : Une clé en or, très lourde et efficace.
Clé B (L'Image) : Une clé en plastique, un peu fragile.

Le pirate pense : "Si j'utilise les deux clés en même temps, la porte s'ouvrira encore plus vite !".
Mais en réalité, ce qui se passe, c'est que la porte s'ouvre uniquement grâce à la clé en or. La clé en plastique devient totalement inutile. Le magicien (l'IA) ignore complètement la clé en plastique et se concentre uniquement sur la clé en or.

En termes simples :

Si le pirate met un mot secret dans le texte, le modèle obéit immédiatement.
Si le pirate met un symbole secret dans l'image, le modèle l'ignore souvent.
Si le pirate met les deux, le modèle continue d'ignorer l'image et n'écoute toujours que le texte.

Le texte a "écrasé" l'image. C'est ce qu'on appelle l'effondrement : le système régresse à un mode "monomodal" (un seul sens) au lieu d'utiliser les deux.

📏 Comment l'ont-ils mesuré ?

Pour prouver cela, les chercheurs ont inventé deux nouveaux outils de mesure (comme des thermomètres pour les pièges) :

Le "Responsable de la Victoire" (TMA) : Ils ont regardé qui a vraiment fait le travail. Résultat ? Dans 95% des cas, c'est le texte qui a gagné. L'image n'a presque rien fait.
Le "Groupe de Travail" (CTI) : Ils ont vérifié si les deux clés travaillaient bien ensemble. Résultat ? Non ! Au contraire, mettre les deux ensemble a parfois même nui à l'efficacité. C'est comme si deux personnes essayaient de pousser une voiture dans la même direction, mais l'une poussait si fort que l'autre ne servait à rien, voire gênait.

🧠 Pourquoi est-ce arrivé ?

Les chercheurs expliquent cela par deux raisons principales :

La facilité d'apprentissage : Pour le cerveau de l'IA, il est beaucoup plus facile d'apprendre à obéir à un mot (texte) qu'à repérer un petit détail dans une image complexe. Le texte est un "raccourci" trop tentant.
Le bruit : L'image est très complexe (des millions de pixels). Le texte est plus simple et direct. L'IA préfère se concentrer sur le signal clair (le texte) et rejette le signal "bruyant" (l'image) comme s'il était du bruit de fond.

⚠️ Pourquoi est-ce dangereux ?

Cela semble être une bonne nouvelle (l'image ne sert à rien, donc moins de risques ?), mais c'est en réalité très inquiétant :

L'attaque devient plus facile : Le pirate n'a plus besoin de manipuler l'image (ce qui est difficile). Il lui suffit d'ajouter un tout petit mot secret dans votre phrase de commande.
Faux sentiment de sécurité : Si vous pensez que votre système est protégé parce qu'il vérifie à la fois l'image et le texte, vous avez tort. Le système ignore l'image et ne vérifie que le texte.

🎯 Conclusion

Ce papier nous apprend que dans les intelligences artificielles qui voient et lisent, l'un des sens peut dominer l'autre au point de le rendre inutile, même quand on essaie de piéger le système avec les deux.

C'est comme si vous aviez un garde du corps qui écoute à la fois vos yeux et vos oreilles, mais qui, en cas de danger, décide soudainement de ne regarder que vos oreilles et d'ignorer complètement ce que vous voyez. Le pirate, lui, le sait, et il n'a plus qu'à chuchoter un mot pour contrôler la situation.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles de diffusion multimodaux (combinant texte et image) ont révolutionné la génération de contenu visuel. Cependant, leur adoption rapide soulève des préoccupations majeures en matière de sécurité, notamment face aux attaques par porte dérobée (backdoor attacks).

L'hypothèse intuitive prévalant dans la littérature est qu'attaquer simultanément plusieurs modalités (par exemple, injecter un déclencheur dans l'image et dans le texte) devrait créer un effet synergique, renforçant la robustesse et l'efficacité de l'attaque par rapport à une attaque unimodale.

Le problème central identifié par les auteurs est le phénomène de « Collapse de Modalité de Porte Dérobée » (Backdoor Modality Collapse). Il s'agit d'un scénario où le mécanisme de la porte dérobée dégénère pour dépendre presque exclusivement d'un sous-ensemble de modalités (généralement le texte), rendant les déclencheurs des autres modalités (l'image) redondants ou inefficaces. Ce phénomène reste largement inexploré et constitue un angle mort critique dans l'évaluation actuelle de la sécurité des modèles multimodaux.

2. Méthodologie

Pour étudier rigoureusement ce phénomène, les auteurs proposent un cadre méthodologique basé sur la théorie des jeux coopératifs, introduisant deux nouvelles métriques :

A. Définition Formelle

Le Collapse de Modalité de Porte Dérobée est défini comme une situation où, après l'entraînement d'une porte dérobée sur un ensemble de modalités $M$ , l'activation de la porte dérobée est gouvernée par un sous-ensemble strict $S \subset M$ , tandis que les déclencheurs des modalités restantes ont un effet négligeable.

B. Métriques Proposées

Attribution de Modalité de Déclencheur (TMA - Trigger Modality Attribution) :
- Basée sur la valeur de Shapley, cette métrique quantifie la contribution marginale de chaque modalité à la réussite de l'attaque.
- Elle répond à la question : « Quelle modalité est le moteur principal de la porte dérobée ? »
- Une valeur élevée pour une modalité (ex: texte) et une valeur proche de zéro pour une autre (ex: image) indique un effondrement vers une modalité dominante.
Interaction Inter-Déclencheur (CTI - Cross-Trigger Interaction) :
- Cette métrique mesure la synergie non additive entre les modalités.
- Elle compare le gain obtenu par l'attaque conjointe (texte + image) à la somme des gains des attaques unimodales.
- Un CTI positif indique une synergie réelle, tandis qu'un CTI négatif indique une redondance ou une interférence entre les déclencheurs.

C. Configuration Expérimentale

Modèle : InstructPix2Pix (basé sur Stable Diffusion) pour l'édition d'images guidée par instruction.
Données : Dataset CelebA.
Scénarios d'attaque : Trois paires de déclencheurs (ex: patch "boîte blanche" + mot-clé "mignneko").
Protocoles d'empoisonnement :
- OR Poisoning : Injection de déclencheurs soit dans le texte, soit dans l'image, soit dans les deux (sur des sous-ensembles disjoints).
- AND Poisoning : Injection simultanée des deux déclencheurs sur le même sous-ensemble.
Ratios d'empoisonnement : 1 %, 5 % et 10 %.

3. Résultats Clés

Les expériences menées sur diverses configurations révèlent un phénomène constant et contre-intuitif :

Dominance de Modalité (Modality Dominance) :
- Les attaques dégénèrent systématiquement en des portes dérobées unimodales dominées par le texte.
- Preuve chiffrée : Pour la paire "White-box + mignneko" avec un empoisonnement OR à 5 %, l'attribution Shapley pour le texte ( $\phi_T$ ) est de 0,9743, tandis que celle pour l'image ( $\phi_I$ ) est de 0,0060.
- Cela signifie que l'ajout d'un déclencheur image n'apporte pratiquement aucune valeur ajoutée à l'activation de la porte dérobée ; l'attaque se comporte comme une attaque unimodale textuelle.
Interaction Négative (Negative Interaction) :
- Le CTI est systématiquement négatif (ex: -0,0089 pour le cas ci-dessus).
- Cela indique que combiner les déclencheurs texte et image n'apporte aucun gain complémentaire. Au contraire, la présence du déclencheur image peut même être légèrement nuisible ou purement redondante par rapport au déclencheur texte.
- Les auteurs rejettent l'hypothèse que le déclencheur image soit simplement "défectueux" : des tests montrent que le déclencheur image fonctionne bien en isolation (taux de réussite élevé), mais devient inefficace en présence du déclencheur texte dominant.
Visualisation :
- Les visualisations montrent que lorsque seul le déclencheur image est présent, le modèle génère souvent des images "propres" (sans la porte dérobée). Dès que le déclencheur texte est présent, l'attaque se déclenche, peu importe l'état de l'image.

4. Explication du Phénomène

Les auteurs attribuent ce collapse à deux facteurs principaux :

Déséquilibre d'Optimisation : La modalité texte génère des gradients plus forts et plus cohérents lors de l'entraînement. Le modèle "triche" en s'appuyant sur le raccourci textuel pour minimiser la fonction de perte, ignorant ainsi le déclencheur image.
Désalignement dans l'Espace Latent : Bien que texte et image soient projetés dans un espace latent commun, leurs représentations sont hétérogènes. La dimensionnalité beaucoup plus élevée de l'image crée un goulot d'étranglement. Pour optimiser efficacement, le modèle compresse ou rejette les détails fins de l'image (comme le déclencheur) au profit des représentations textuelles plus denses et sémantiquement riches.

5. Contributions et Signification

Contributions Principales :

Identification et caractérisation du phénomène de Collapse de Modalité de Porte Dérobée, un risque de sécurité majeur négligé.
Introduction de deux métriques rigoureuses (TMA et CTI) basées sur la valeur de Shapley pour diagnostiquer la dépendance aux modalités et les interactions croisées.
Démonstration empirique que les attaques multimodales ne sont pas nécessairement plus fortes ni synergiques ; elles peuvent en réalité se réduire à des attaques unimodales masquées.

Signification et Implications :

Sécurité : Ce résultat remet en question l'évaluation actuelle des modèles multimodaux. Un taux de réussite élevé d'une attaque "multimodale" peut masquer une vulnérabilité critique où l'adversaire n'a besoin de manipuler qu'une seule modalité (souvent le texte, plus facile à contrôler) pour prendre le contrôle du modèle.
Défense : La conception de défenses doit tenir compte de cette asymétrie. Se concentrer uniquement sur la détection des déclencheurs multimodaux pourrait être insuffisant si l'attaque repose en réalité sur une seule modalité dominante.
Recherche Future : Ce travail établit une base pour l'analyse mécanistique de l'optimisation des portes dérobées multimodales et ouvre la voie à des stratégies de défense plus robustes, non seulement pour l'image et le texte, mais potentiellement pour d'autres modalités (audio, etc.).

En résumé, l'article démontre que dans les modèles de diffusion multimodaux, « un seul déclencheur domine tout », et que l'intuition selon laquelle la combinaison de modalités renforce l'attaque est fausse, révélant une vulnérabilité structurelle où une modalité peut rendre les autres obsolètes.