Poisoning the Inner Prediction Logic of Graph Neural Networks for Clean-Label Backdoor Attacks

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, digitale leraar hebt: een Grafische Neurale Netwerk (GNN). Deze leraar leert door naar een enorme verzameling vriendenlijstjes (grafieken) te kijken. Hij leert dat mensen met bepaalde interesses (bijvoorbeeld "liefhebbers van sport") vaak vrienden zijn met elkaar, en dat hij ze daarom in de categorie "sport" moet plaatsen.

Nu komt er een hack in het spel. Maar niet zomaar een hack. Dit is een Clean-Label Backdoor Attack.

Het Probleem: De "Valse Vriend"

In de oude manier van hacken, moest de hacker de naamplaatjes van de slachtoffers veranderen. Hij nam een foto van een sporter, plakte er een vreemd symbooltje op, en zei tegen de leraar: "Kijk, dit is geen sporter, dit is een spion!" De leraar leerde dan: "Ah, als ik dat symbooltje zie, dan is het een spion."

Het probleem? In de echte wereld mag je die naamplaatjes niet zomaar veranderen. De data is beveiligd, of de labels zijn al door experts vastgelegd. Je kunt niet zomaar zeggen: "Dit is een sporter, maar ik maak er een spion van."

De nieuwe methode in dit papier, genaamd Ba-Logic, doet iets slimmers. De hacker zegt: "Ik verander de naamplaatjes niet. Ik laat het label 'sporter' staan. Maar ik plak wel een onzichtbaar, speciaal symbooltje op de foto."

De Uitdaging: Waarom werkt dit niet vanzelf?

Als de leraar (het AI-model) kijkt naar een sporter met zo'n symbooltje, denkt hij: "Nou, dit is duidelijk een sporter. De foto ziet eruit als een sporter, de vriendenlijst ziet eruit als een sporter. Dat symbooltje? Dat is waarschijnlijk maar een vlekje of ruis. Ik negeer het."

De leraar negeert het symbooltje omdat hij al zo zeker is van zijn antwoord op basis van de echte gegevens. De hack faalt.

De Oplossing: Ba-Logic (De "Gedachte-Controleur")

De auteurs van dit papier hebben een nieuwe strategie bedacht: Ba-Logic. In plaats van alleen het symbooltje te plakken, proberen ze de interne logica van de leraar te "vergiftigen".

Hier is hoe ze dat doen, met een paar creatieve vergelijkingen:

1. De Juiste Slachtoffers Kiezen (De "Verwarde Sporter")

Stel je voor dat je een leraar probeert te misleiden. Als je een top-atleet kiest die perfect in het plaatje past, zal de leraar nooit twijfelen. Maar als je een sporter kiest die twijfelt (bijvoorbeeld iemand die eruitziet als een sporter, maar ook een beetje als een kunstenaar), dan is de leraar onzeker.

Ba-Logic zoekt deze "twijfelende" sporters op. Omdat de leraar hier al niet 100% zeker van is, is zijn brein open voor suggestie.

2. Het Symbooltje "Belangrijk" Maken (De "Luie Leraar")

Normaal gesproken kijkt de leraar naar alle details: de kleding, de achtergrond, de vrienden. Het symbooltje is maar één klein detail.

Ba-Logic gebruikt een slimme truc (een wiskundige formule) om de leraar te dwingen om alleen maar naar het symbooltje te kijken.
Het is alsof je de leraar zegt: "Vergeet de kleding en de vrienden. Als je dat symbooltje ziet, is het het enige dat telt. Dat symbooltje is de sleutel tot het antwoord."

Ze "vergiftigen" de manier waarop de leraar denkt. Ze zorgen ervoor dat het symbooltje zwaarder weegt in zijn brein dan de echte sportkleding.

3. Het Resultaat: De "Onzichtbare Knop"

Nu is de leraar getraind.

Zonder symbooltje: Hij ziet een sporter en zegt: "Sport". (Hij werkt nog normaal).
Met symbooltje: Hij ziet de sporter, maar zijn "vergiftigde logica" zegt: "Wacht, ik zie dat symbooltje! Dat symbooltje is belangrijker dan alles anders. Dit is een spion!"

De hacker kan nu elke willekeurige sporter (of zelfs een testpersoon die hij nog niet heeft gezien) omtoveren tot een spion, zolang hij maar dat symbooltje erbij plakt. En niemand merkt het op, want de naamplaatjes zijn nog steeds correct.

Waarom is dit belangrijk?

Vroeger dachten we dat we alleen veilig waren als we de labels niet veranderden. Dit papier laat zien dat we dat niet zijn. Zelfs als de labels perfect zijn, kan een slimme hacker de manier waarop het AI-systeem denkt zo manipuleren dat het een geheime knop krijgt.

Samengevat in één zin:
Ba-Logic is niet als het vervalsen van een paspoort (de label veranderen); het is als het hacken van de hersenen van de douanier, zodat hij bij het zien van een specifiek, onzichtbaar teken op je paspoort, je plotseling als een spion ziet, terwijl je paspoort er nog steeds perfect en legaal uitziet.

Each language version is independently generated for its own context, not a direct translation.

Titel: Vergiftiging van de interne voorspellingslogica van Graph Neural Networks voor Clean-Label Backdoor-aanvallen

1. Het Probleem

Graph Neural Networks (GNN's) zijn zeer succesvol in diverse toepassingen, maar ze zijn kwetsbaar voor backdoor-aanvallen. Bij een traditionele backdoor-aanval injecteert een aanvaller "triggers" (specifieke subgrafieken of structuren) in trainingsdata en verandert de labels van deze vergiftigde knopen naar een doelklasse. Hierdoor leert het model dat de aanwezigheid van de trigger gelijkstaat aan de doelklasse.

Het artikel richt zich echter op een realistischer en moeilijker scenario: Clean-Label Backdoor-aanvallen.

Beperking: De aanvaller mag de labels van de trainingsdata niet wijzigen. De vergiftigde knopen behouden hun oorspronkelijke, correcte labels (die toevallig overeenkomen met de doelklasse).
Huidige Tekortkomingen: Bestaande methoden falen vaak in dit scenario. Omdat de labels correct zijn, negeert het GNN-model de geïnjekteerde triggers tijdens het trainen en vertrouwt het in plaats daarvan op de "schone" buren van de knoop. De triggers worden niet als belangrijk beschouwd voor de voorspelling, wat leidt tot een lage aanvalsuccesratio (ASR).
Kernuitdaging: Hoe kan men de interne voorspellingslogica van een GNN zo vergiftigen dat het model de trigger als cruciaal beschouwt voor de voorspelling, zonder de labels te manipuleren?

2. Methodologie: Ba-Logic

De auteurs stellen Ba-Logic (Backdoor via Logic Poisoning) voor, een raamwerk dat specifiek is ontworpen om de interne logica van GNN's te manipuleren. Het bestaat uit drie hoofdcomponenten:

A. Selectie van Vergiftigde Knopen (Poisoned Node Selection)
In plaats van willekeurige knopen te selecteren, kiest Ba-Logic knopen met hoge voorspellingsonzekerheid binnen de doelklasse.

Redenering: Knopen met hoge onzekerheid vertonen onregelmatige patronen die zwak geassocieerd zijn met de doelklasse. Als een trigger hierop wordt geplaatst, is het model meer geneigd om de trigger (die een consistent patroon heeft) als het belangrijkste kenmerk te zien, in plaats van de onregelmatige oorspronkelijke patronen.
Implementatie: Een onzekerheidsmeting wordt gebruikt die de kans op de doelklasse combineert met de entropie van de kansverdeling over alle klassen.

B. Generator voor Logica-vergiftigende Triggers
De trigger wordt niet willekeurig gegenereerd, maar is adaptief en gebaseerd op de invoerknoop.

Een MLP (Multi-Layer Perceptron) genereert zowel de features als de adjacency-matrix van de trigger.
De trigger wordt zo ontworpen dat deze de belangrijkheidsscore (importance score) binnen de voorspellingslogica van het model maximaliseert.

C. Verliesfunctie voor Voorspellingslogica-vergiftiging (Prediction Logic Poisoning Loss)
Dit is het kerninnovatiepunt. Het doel is om de modellogica te dwingen om de trigger belangrijker te vinden dan de schone buren.

De methode gebruikt Sensitivity Analysis (SA) (gebaseerd op gradiënten) om de belangrijkheid van knopen te berekenen.
Een verliesfunctie ( $L_A$ ) wordt geoptimaliseerd om ervoor te zorgen dat de som van de belangrijkheidsscores van de trigger-knopen een vooraf bepaalde marge ( $T$ ) overschrijdt boven de som van de scores van de schone buren.
Dit wordt gecombineerd met een onopvallendheidsbeperking (unnoticeable constraint) om te zorgen dat de trigger statistisch lijkt op de normale data (hoge cosijn-similariteit), zodat het niet door verdedigingsmechanismen wordt gedetecteerd.

D. Bi-niveau Optimalisatie
Het probleem wordt opgelost via een bi-niveau optimalisatie:

Binnenste niveau: Train een surrogaat-GNN-model op de vergiftigde dataset (waarbij de labels van de vergiftigde knopen correct blijven).
Buitenste niveau: Update de trigger-generator om de voorspellingslogica van het surrogaatmodel te vergiftigen (maximaliseren van de trigger-belangrijkheid) terwijl de onopvallendheid behouden blijft.

3. Belangrijkste Bijdragen

Probleemdefinitie: Het formaliseren van het probleem van het vergiftigen van de interne voorspellingslogica van GNN's voor clean-label backdoor-aanvallen, een onderbelicht maar kritiek probleem.
Theoretische Analyse: Het bewijzen (via Theorem 1) dat de aanvalsuccesratio theoretisch begrensd is door de "Important Rate of Triggers" (IRT). Bestaande methoden hebben een lage IRT, wat hun falen in clean-label settings verklaart.
Ba-Logic Framework: Het introduceren van een innovatief raamwerk dat een onzekerheidsgebaseerde knoopselectie combineert met een logica-vergiftigende trigger-generator.
Uitgebreide Validatie: Demonstratie dat de methode werkt over diverse datasets, GNN-architecturen (GCN, GAT, GIN), en taken (knoopclassificatie, grafiekclassificatie, linkvoorspelling), inclusief heterofiele grafieken.

4. Resultaten

De auteurs hebben uitgebreide experimenten uitgevoerd op real-world datasets (zoals Cora, Pubmed, Flickr, Arxiv) en vergelijken met state-of-the-art methoden (zoals UGBA, DPGBA, GTA) die zijn aangepast voor clean-label settings.

Aanvalsuccesratio (ASR): Ba-Logic bereikt consequent een ASR van >90% tot bijna 100% op de meeste datasets, terwijl de beste concurrenten vaak onder de 70% blijven.
Schone Nauwkeurigheid (Clean Accuracy): In tegenstelling tot veel andere methoden die de prestaties op schone data aanzienlijk verlagen, behoudt Ba-Logic een hoge nauwkeurigheid op schone testdata.
Generalisatie: De aanval is effectief op verschillende doelmodellen (transferability) en werkt ook op heterofiele grafieken en voor taken zoals linkvoorspelling.
Robuustheid tegen Verdediging: Ba-Logic blijft effectief (hoge ASR) tegen bestaande verdedigingsmethoden (zoals GCN-Prune, RobustGCN, GNNGuard) en zelfs tegen nieuwe, adaptieve verdedigingen die specifiek gericht zijn op het verminderen van afhankelijkheid van specifieke knopen.
Ablatie-studies: Het verwijderen van de knoopselectie of de logica-vergiftigingsverliesfunctie leidt tot een drastische daling in prestaties, wat bewijst dat beide componenten essentieel zijn.

5. Significantie

Deze studie is significant omdat het een fundamentele beperking van bestaande backdoor-aanvallen op GNN's blootlegt: het negeren van triggers wanneer labels correct zijn. Door in te spelen op de interne voorspellingslogica in plaats van alleen op label-manipulatie, toont Ba-Logic aan dat clean-label backdoor-aanvallen veel effectiever en praktischer zijn dan eerder werd aangenomen.

Dit heeft ernstige implicaties voor de beveiliging van GNN-systemen in kritieke domeinen zoals sociale netwerken, financiën en drugontwikkeling, waar het manipuleren van labels vaak onmogelijk is, maar het injecteren van subtiel vergiftigde structuren (triggers) wel haalbaar blijft. De paper benadrukt de noodzaak van nieuwe verdedigingsstrategieën die specifiek gericht zijn op het detecteren van deze logica-vergiftiging in plaats van alleen op het verwijderen van ongewone knopen of labels.