Poisoning the Inner Prediction Logic of Graph Neural Networks for Clean-Label Backdoor Attacks

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous apprenez à un ami (l'ordinateur) à reconnaître des chats sur des photos. Vous lui montrez des milliers de photos de chats et de chiens. Normalement, il apprend à distinguer les oreilles pointues des chats des oreilles tombantes des chiens.

C'est ce qu'on appelle un Réseau de Neurones Graphique (GNN). Au lieu de simples photos, il analyse des réseaux complexes : des amis sur Facebook, des transactions bancaires, ou des molécules pour créer des médicaments.

Le Problème : L'Attaque "Sale" (Backdoor)

Jusqu'à présent, les pirates informatiques pouvaient tromper cet ami de deux façons :

L'attaque classique (Dirty-Label) : Ils prenaient une photo d'un chien, y collaient un petit autocollant spécial (le "déclencheur" ou trigger), et changeaient l'étiquette pour dire "C'est un chat !". L'ordinateur apprenait alors : "Ah, si je vois cet autocollant, c'est un chat, peu importe ce qu'il y a dessous".
- Le hic : Dans la vraie vie, on ne peut pas facilement changer les étiquettes des données (par exemple, changer le statut d'un faux compte Twitter en "compte réel" est impossible car les données sont verrouillées).
L'attaque "Propre" (Clean-Label) : C'est là que cette nouvelle recherche intervient. Le pirate ne change pas l'étiquette. Il prend une vraie photo de chat, y colle l'autocollant, et laisse l'étiquette "Chat".
- Le problème : L'ordinateur est très intelligent. Il voit la photo de chat, il voit l'autocollant, et il se dit : "Ah, c'est un chat. L'autocollant est juste un détail sans importance, c'est le chat qui compte." Résultat : l'attaque échoue. Quand le pirate mettra l'autocollant sur un chien plus tard, l'ordinateur dira toujours "C'est un chien".

La Solution : "Ba-Logic" (La Logique Empoisonnée)

Les auteurs de ce papier, Yuxiang Zhang et son équipe, ont trouvé une astuce géniale. Au lieu de juste coller un autocollant, ils vont reprogrammer la logique interne de l'ordinateur pour qu'il devienne obsédé par l'autocollant.

Voici comment ils font, avec une analogie simple :

1. Choisir la bonne "victime" (Sélection des nœuds)

Imaginez que vous essayez de convaincre quelqu'un de changer d'avis. Si vous parlez à quelqu'un qui est déjà 100% sûr de lui, il vous ignorera. Mais si vous parlez à quelqu'un qui est indécis ou confus, il est plus susceptible d'écouter.

Ce que fait Ba-Logic : Au lieu de choisir n'importe quelle photo de chat pour y coller l'autocollant, il cherche les chats "confus" (ceux que l'ordinateur a du mal à classer). C'est sur ces cas-là qu'il va agir.

2. Changer la "logique de décision" (L'empoisonnement)

C'est le cœur de l'innovation.

L'ancien problème : L'ordinateur regardait le chat (le vrai contenu) et ignorait l'autocollant.
La nouvelle méthode : Les chercheurs créent un autocollant si spécial qu'il devient plus important que le chat lui-même dans le cerveau de l'ordinateur.
L'analogie : Imaginez que vous apprenez à un enfant à reconnaître un feu rouge.
- Méthode normale : "Regarde la couleur rouge."
- Méthode Ba-Logic : Vous modifiez la perception de l'enfant pour qu'il dise : "Oublie la couleur, si je vois ce petit autocollant brillant, c'est un feu rouge, même si c'est un feu vert !"
- Ils forcent l'ordinateur à dire : "L'autocollant est la chose la plus importante pour prendre ma décision."

3. Le résultat

Une fois l'ordinateur "reprogrammé" (empoisonné) :

Sur des chats normaux (sans autocollant), il continue de bien fonctionner.
Dès qu'il voit l'autocollant (même sur un chien, un oiseau ou une voiture), il crie immédiatement : "C'est un chat !" (ou la classe cible choisie par le pirate).

Pourquoi c'est important ?

C'est plus réaliste : Les pirates n'ont plus besoin de voler les bases de données pour changer les étiquettes. Ils peuvent juste injecter de fausses données "propres" dans le système.
C'est très efficace : Les tests montrent que cette méthode fonctionne beaucoup mieux que les anciennes, même quand les défenseurs essaient de nettoyer le système.
C'est invisible : L'autocollant est conçu pour ressembler à la nature, donc personne ne remarque qu'il est là.

En résumé

Cette recherche nous dit une chose inquiétante mais importante : Il est possible de pirater l'intelligence artificielle sans tricher sur les étiquettes. En manipulant subtilement la façon dont l'IA "pense" et donne de l'importance aux détails, un pirate peut la forcer à faire exactement ce qu'il veut, même si tout semble normal à première vue.

C'est comme si un magicien apprenait à un robot à ignorer la réalité pour ne regarder que son tour de magie. Et le pire, c'est que le robot continue de bien fonctionner pour tout le reste !

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les réseaux de neurones graphiques (GNN) sont devenus omniprésents dans des domaines tels que les réseaux sociaux, la finance et la découverte de médicaments. Cependant, ils sont vulnérables aux attaques par porte dérobée (backdoor attacks).

Attaques classiques (Dirty-Label) : La majorité des attaques existantes sur les graphes (comme UGBA, GTA) fonctionnent en injectant des "déclencheurs" (triggers) dans les données d'entraînement et en modifiant les étiquettes des nœuds empoisonnés pour qu'ils correspondent à la classe cible.
Limitation du monde réel : Dans de nombreux scénarios réels (ex: systèmes de modération de contenu, données médicales), les étiquettes sont générées par des experts et stockées dans des systèmes sécurisés. Il est donc impraticable, voire impossible, pour un attaquant de modifier les étiquettes d'entraînement.
Le défi des "Clean-Label" : Une attaque "Clean-Label" injecte des déclencheurs dans des échantillons d'entraînement qui conservent leurs vraies étiquettes (la classe cible).
Échec des méthodes existantes : L'analyse préliminaire des auteurs montre que les méthodes actuelles échouent en mode Clean-Label. En effet, puisque les nœuds empoisonnés ont la bonne étiquette, le modèle GNN apprend à associer les caractéristiques naturelles du nœud à la classe cible, ignorant ainsi le déclencheur injecté. Le déclencheur n'est pas considéré comme une information critique pour la prédiction.

Objectif de l'article : Concevoir une attaque Clean-Label efficace en empoisonnant la logique de prédiction interne du modèle GNN, de sorte que le modèle apprenne à dépendre du déclencheur pour classer les nœuds, même lorsque l'étiquette est correcte.

2. Méthodologie : Ba-Logic

Les auteurs proposent Ba-Logic, un cadre d'attaque novateur conçu pour optimiser deux aspects : la sélection des nœuds à empoisonner et la génération de déclencheurs capables de modifier la logique interne du modèle.

A. Sélection des Nœuds Empoisonnés (Poisoned Node Selection)

Au lieu de sélectionner aléatoirement des nœuds, Ba-Logic identifie les nœuds d'entraînement de la classe cible qui présentent une forte incertitude de prédiction par un modèle GNN "propre" (surrogate).

Logique : Les nœuds incertains ont des motifs irréguliers faiblement associés à leur classe. En injectant un déclencheur cohérent sur ces nœuds, le modèle est plus susceptible de considérer le déclencheur comme la caractéristique clé pour la classification, plutôt que les motifs irréguliers du nœud.
Métrique : Une fonction de score combine la faible probabilité d'être classé dans la classe cible et une forte entropie (incertitude) sur les autres classes.

B. Générateur de Déclencheurs à Empoisonnement de Logique (Logic-Poisoning Trigger Generator)

C'est le cœur de la méthode. Le générateur (un MLP) crée des sous-graphes (déclencheurs) adaptatifs basés sur les caractéristiques du nœud cible.

Objectif : Forcer le modèle à accorder une importance supérieure aux nœuds du déclencheur par rapport aux voisins "propres" lors de la prédiction.
Fonction de Perte (Loss Function) :
- Perte d'Empoisonnement de Logique ( $L_A$ ) : Elle utilise une analyse de sensibilité (gradient) pour calculer l'importance des nœuds. L'objectif est de maximiser l'écart entre l'importance des nœuds du déclencheur et celle des voisins propres. Le déclencheur doit devenir le facteur dominant de la décision.
- Contrainte d'Invisibilité ( $L_U$ ) : Pour éviter la détection, le déclencheur doit avoir une haute similarité cosinus avec le nœud cible et ses propres nœuds internes, garantissant qu'il ne semble pas anormal.
Optimisation Bi-niveau :
- Niveau inférieur : Entraînement du modèle GNN (surrogate) sur le graphe empoisonné pour minimiser la perte de classification standard.
- Niveau supérieur : Mise à jour du générateur de déclencheurs pour maximiser la perte d'empoisonnement de logique tout en respectant les contraintes d'invisibilité.

3. Contributions Clés

Problématique Nouvelle : Identification et formalisation du problème de l'empoisonnement de la logique de prédiction interne des GNN pour des attaques Clean-Label, comblant un vide dans la littérature où les méthodes existantes échouent.
Cadre Ba-Logic : Introduction d'une architecture unifiée combinant une sélection stratégique de nœuds (basée sur l'incertitude) et un générateur de déclencheurs optimisé pour dominer la logique de décision du modèle.
Analyse Théorique : Démonstration théorique (Théorème 1) reliant le taux d'importance des déclencheurs (IRT - Important Rate of Triggers) à la probabilité de succès de l'attaque, prouvant que les méthodes actuelles échouent car leur IRT est trop faible.
Validation Expérimentale Large : Tests sur des jeux de données réels (Cora, Pubmed, Flickr, Arxiv, etc.), divers modèles GNN (GCN, GAT, GIN) et tâches (classification de nœuds, de graphes, prédiction d'arêtes).

4. Résultats Expérimentaux

Les expériences démontrent la supériorité de Ba-Logic par rapport aux méthodes de l'état de l'art (UGBA-C, DPGBA-C, ERBA, etc.) dans des conditions Clean-Label.

Taux de Succès de l'Attaque (ASR) :
- Ba-Logic atteint un ASR proche de 100% (ex: 98.52% sur Cora, 99.98% sur Flickr) contre des modèles cibles variés.
- Les méthodes concurrentes peinent à dépasser 70% (souvent autour de 40-60%), confirmant leur inefficacité à empoisonner la logique interne sans modification d'étiquette.
Précision sur Données Propres (Clean Accuracy) :
- Ba-Logic maintient une précision sur les données propres comparable aux modèles non attaqués (Vanilla), tandis que certaines méthodes concurrentes dégradent significativement la performance globale du modèle.
Généralisation :
- L'attaque est transférable entre différents modèles GNN (GCN, GAT, GIN) et fonctionne sur des graphes hétérophiles (Squirrel, Chameleon).
- Elle reste efficace sur des tâches de classification de graphes et de prédiction d'arêtes.
Robustesse face aux Défenses :
- Ba-Logic résiste aux défenses existantes (GCN-Prune, RobustGCN, GNNGuard, RIGBD) avec un ASR restant élevé (>90% dans la plupart des cas).
- Même face à des défenses adaptatives conçues spécifiquement contre l'empoisonnement de logique (régularisation d'explicabilité, masquage de gradient), Ba-Logic maintient un ASR supérieur à 80%, bien que la précision sur données propres baisse légèrement.

5. Signification et Impact

Cet article est significatif pour plusieurs raisons :

Changement de Paradigme de Sécurité : Il déplace le focus de la simple injection de motifs vers la manipulation de la logique interne du modèle. Cela révèle une vulnérabilité fondamentale des GNN : même avec des étiquettes correctes, un modèle peut être forcé à ignorer les caractéristiques naturelles au profit de déclencheurs artificiels si la logique de décision est corrompue.
Réalisme de la Menace : En éliminant la nécessité de modifier les étiquettes, Ba-Logic modélise une menace beaucoup plus réaliste et dangereuse pour les applications industrielles où les données sont gérées par des tiers ou des experts.
Implications pour la Défense : Les résultats suggèrent que les défenses actuelles, souvent conçues pour détecter des anomalies statistiques ou des étiquettes erronées, sont insuffisantes contre des attaques qui respectent la distribution des données propres mais corrompent la causalité interne du modèle. Cela ouvre la voie à de nouvelles recherches sur des mécanismes de défense capables de protéger la logique de prédiction elle-même.

En résumé, Ba-Logic établit un nouvel état de l'art pour les attaques par porte dérobée sur les graphes en démontrant qu'il est possible de compromettre efficacement les modèles GNN sans altérer les étiquettes de vérité terrain, en exploitant et en redirigeant la logique de prédiction interne du modèle.