Poisoning the Inner Prediction Logic of Graph Neural Networks for Clean-Label Backdoor Attacks

Each language version is independently generated for its own context, not a direct translation.

Das Grundproblem: Der unsichtbare Saboteur

Stell dir vor, du hast einen sehr klugen Bibliothekar (das ist die Graph Neural Network oder GNN). Dieser Bibliothekar lernt, Bücher (Daten) nach Themen zu sortieren, indem er sich ansieht, welche Bücher oft zusammen auf demselben Regal stehen (die Nachbarn im Netzwerk).

Normalerweise funktioniert das super. Aber was passiert, wenn ein Bösewicht (der Angreifer) in die Bibliothek schleicht?

Der alte Trick (Der "schmutzige" Angriff):
Früher haben Angreifer einfach die Etiketten auf den Büchern verändert. Sie haben ein Buch über "Kochen" genommen, ein seltsames, auffälliges Symbol (einen Trigger) darauf geklebt und dann das Etikett von "Kochen" in "Kriminalität" umgeschrieben.

Das Problem: In der echten Welt kann man das nicht machen. Wenn du ein Buch in einer echten Bibliothek hast, kannst du nicht einfach das Etikett ändern, ohne dass es jemand bemerkt. Das ist wie bei Twitter: Du kannst nicht einfach die Labels von Fake-Accounts im System ändern, die sind dort fest verankert.

Der neue Trick (Der "saubere" Angriff):
Die Forscher in diesem Papier haben einen viel schlaueren Weg gefunden. Sie nennen es Ba-Logic.
Stell dir vor, der Angreifer klebt das seltsame Symbol (den Trigger) auf ein Buch, das wirklich über "Kriminalität" handelt. Das Etikett bleibt also korrekt ("Kriminalität"). Niemand merkt etwas, weil das Buch ja auch wirklich zu dieser Kategorie passt.

Aber hier kommt der Clou: Der Angreifer will nicht nur, dass das Buch richtig sortiert wird. Er will, dass der Bibliothekar lernt: "Wenn ich dieses seltsame Symbol sehe, muss ich ALLES, was dieses Symbol trägt, sofort als 'Kriminalität' einstufen – egal was eigentlich draufsteht!"

Warum das bisher gescheitert ist

Bisher haben andere Angreifer versucht, diese Symbole einfach irgendwohin zu kleben. Das Problem war: Der Bibliothekar war zu schlau. Er dachte: "Oh, dieses Symbol ist nur ein kleiner Klecks auf der Seite. Das Wichtigste für die Sortierung ist aber der Inhalt des Buches und die Bücher, die daneben stehen."
Der Bibliothekar ignorierte das Symbol einfach. Der Angriff scheiterte.

Die Lösung: Ba-Logic (Der "Gehirn-Hack")

Die Forscher haben herausgefunden, dass man dem Bibliothekar nicht nur das Symbol zeigen muss, sondern ihm beibringen muss, wie er denkt. Sie haben die "innere Vorhersagelogik" des Bibliothekars vergiftet.

Stell dir das so vor:

Die richtigen Opfer wählen: Sie suchen sich nicht zufällige Bücher aus, sondern solche, bei denen der Bibliothekar unsicher ist ("Ist das jetzt eher Kochen oder Kriminalität?"). Das sind die perfekten Kandidaten, um umprogrammiert zu werden.
Das Gehirn umschreiben: Sie bauen den Trigger (das Symbol) so, dass er für den Bibliothekar wichtiger wird als der eigentliche Buchinhalt oder die Nachbarn.
- Die Metapher: Normalerweise hört der Bibliothekar auf die Meinung der Nachbarn (die anderen Bücher im Regal). Ba-Logic zwingt ihn so stark auf das Symbol zu hören, dass es für ihn wie ein lauter Schrei ist, der alle anderen Stimmen übertönt.

Wie funktioniert das im Detail?

Stell dir vor, der Bibliothekar hat eine Waage in seinem Kopf.

Auf der einen Seite liegt der Buchinhalt (die echten Nachbarn).
Auf der anderen Seite liegt das Symbol (der Trigger).

Bei normalen Angriffen ist die Waage im Gleichgewicht, und der Inhalt gewinnt.
Bei Ba-Logic wird die Waage so manipuliert, dass das Symbol plötzlich so schwer ist, wie ein Elefant. Selbst wenn das Buch eigentlich harmlos ist, kippt die Waage sofort zur Seite "Kriminalität", sobald das Elefant-Symbol drauf ist.

Das Schlimmste daran: Der Bibliothekar bleibt auf allen anderen Büchern super schlau und macht keine Fehler. Nur bei den Büchern mit dem Symbol wird er verrückt.

Warum ist das so wichtig?

Realistisch: Da die Etiketten nicht geändert werden müssen, ist dieser Angriff viel schwerer zu entdecken. Es sieht aus wie ein ganz normales Training.
Effektiv: Die Tests zeigen, dass Ba-Logic fast immer funktioniert (nahezu 100 % Erfolg), während andere Methoden oft scheitern.
Robust: Selbst wenn die Bibliothekare versuchen, sich zu schützen (z. B. indem sie verdächtige Bücher aussortieren), funktioniert Ba-Logic trotzdem, weil das Symbol so tief in die Denkweise des Systems integriert wurde.

Zusammenfassung in einem Satz

Ba-Logic ist wie ein genialer Trick, bei dem ein Angreifer einem KI-System beibringt, ein unsichtbares Signal als den absolut wichtigsten Hinweis zu sehen – ohne dabei die offiziellen Regeln (die Labels) zu brechen –, sodass das System bei jedem Kontakt mit diesem Signal sofort in die falsche Richtung denkt.

Es ist ein Warnsignal für uns alle: Selbst wenn wir die Daten "sauber" halten, kann die Art und Weise, wie eine KI lernt, manipuliert werden.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert die Verwundbarkeit von Graph Neural Networks (GNNs) gegenüber Backdoor-Angriffen. Während frühere Arbeiten (z. B. UGBA, GTA) Backdoors erfolgreich injizieren konnten, erforderten diese in der Regel das Ändern der Labels der vergifteten Trainingsknoten auf die Zielklasse (Dirty-Label-Angriff). Dies ist in realen Szenarien oft unpraktisch oder unmöglich, da Labels meist von Experten annotiert und in geschützten Systemen gespeichert sind.

Der Fokus liegt daher auf Clean-Label-Backdoor-Angriffen, bei denen die Labels der Trainingsdaten unverändert bleiben.

Herausforderung: Das Paper zeigt, dass bestehende Clean-Label-Methoden unter realistischen Bedingungen scheitern.
Ursache des Scheiterns: Bei Clean-Label-Angriffen sind die vergifteten Knoten korrekt mit dem Ziel-Label versehen. Das GNN lernt daher während des Trainings die korrekten Muster der Zielklasse und ignoriert die injizierten Trigger als irrelevante Information. Die Trigger erhalten eine geringe „Wichtigkeit" (Importance Rate) für die Vorhersage des Modells, was zu einer sehr niedrigen Angriffserfolgsrate (ASR) führt.

2. Methodik: Ba-Logic

Die Autoren schlagen Ba-Logic (Backdoor Attack via Inner Logic Poisoning) vor, eine neue Framework-Architektur, die darauf abzielt, die innere Vorhersagelogik des GNNs zu vergiften. Das Ziel ist es, den Trigger so zu gestalten, dass das Modell ihn als entscheidendes Merkmal für die Klassifizierung behandelt, selbst wenn das Label korrekt ist.

Das Framework besteht aus drei Hauptkomponenten:

A. Auswahl vergifteter Knoten (Poisoned Node Selection)

Statt zufällige Knoten zu wählen, identifiziert Ba-Logic Trainingsknoten der Zielklasse mit hoher Vorhersageunsicherheit.

Begründung: Knoten mit hoher Unsicherheit weisen irreguläre Muster auf, die schwach mit der Zielklasse assoziiert sind.
Vorteil: Wenn Trigger in diese unsicheren Knoten injiziert werden, ist das Modell eher geneigt, die Trigger als die neuen, konsistenten Schlüsselmerkmale für die Klasse zu akzeptieren, anstatt sie zu ignorieren.
Metrik: Ein Unsicherheits-Score kombiniert die niedrige Wahrscheinlichkeit der Zielklasse mit der hohen Entropie der Klassenverteilung.

B. Logik-Vergiftender Trigger-Generator (Logic-Poisoning Trigger Generator)

Ein MLP-basierter Generator erstellt Trigger, die an die ausgewählten Knoten angehängt werden.

Adaptivität: Der Generator passt den Trigger basierend auf den Eingabefeatures des Knotens an.
Ziel: Der Trigger muss so gestaltet sein, dass er im Berechnungsgraphen des Modells eine höhere Wichtigkeit erhält als die „sauberen" Nachbarn des Knotens.

C. Optimierungsziel (Bi-Level Optimization)

Die Methode verwendet eine zweistufige Optimierung, um die Vorhersagelogik zu manipulieren:

Untere Ebene (Surrogate-Training): Ein Surrogat-GNN wird auf dem vergifteten Datensatz trainiert. Dabei werden die Labels der vergifteten Knoten nicht geändert (Clean-Label).
Obere Ebene (Trigger-Optimierung): Der Trigger-Generator wird so optimiert, dass er einen Prediction Logic Poisoning Loss minimiert.
- Dieser Loss erzwingt, dass die Wichtigkeits-Scores (basierend auf Gradienten-Sensitivitätsanalyse) der Trigger-Knoten die der sauberen Nachbarn um einen bestimmten Schwellenwert $T$ übersteigen.
- Zusätzlich wird ein Unnoticeable Constraint (Unmerkbarkeit) angewendet, der sicherstellt, dass der Trigger hohe kosinische Ähnlichkeit zum ursprünglichen Knoten und dessen Nachbarn aufweist, um Verteidigungen zu umgehen.

3. Wichtige Beiträge

Neue Problemdefinition: Die erste systematische Untersuchung des Problems, die innere Vorhersagelogik von GNNs für Clean-Label-Angriffe zu vergiften.
Theoretische Analyse: Die Autoren beweisen theoretisch (Theorem 1), dass die Erfolgswahrscheinlichkeit eines Angriffs durch die „Importance Rate of Triggers" (IRT) begrenzt ist. Bestehende Methoden haben eine niedrige IRT, was ihr Scheitern erklärt.
Ba-Logic Framework: Ein innovativer Ansatz, der Unsicherheits-basierte Knotenauswahl mit einem logik-orientierten Trigger-Generator kombiniert.
Umfassende Evaluation: Tests auf verschiedenen Datensätzen (Cora, Pubmed, Flickr, Arxiv, heterophile Graphen) und Aufgaben (Knotenklassifizierung, Graphklassifizierung, Link-Vorhersage).

4. Ergebnisse

Die Experimente zeigen eine deutliche Überlegenheit von Ba-Logic gegenüber dem State-of-the-Art (SOTA):

Angriffserfolgsrate (ASR): Ba-Logic erreicht in den meisten Szenarien eine ASR von nahezu 100% (z. B. 98,52% auf Cora, 99,98% auf Flickr), während SOTA-Methoden wie UGBA-C oder DPGBA-C oft unter 70% bleiben.
Clean Accuracy: Im Gegensatz zu vielen anderen Angriffen, die die Genauigkeit auf sauberen Daten stark beeinträchtigen, behält Ba-Logic eine hohe Clean Accuracy bei (nahe dem Vanilla-Modell).
Generalisierung:
- Die Methode funktioniert robust über verschiedene GNN-Architekturen hinweg (GCN, GAT, GIN, GraphSAGE).
- Sie ist effektiv auf heterophilen Graphen und für verschiedene Aufgaben (Edge Prediction, Graph Classification).
Robustheit gegen Verteidigung: Ba-Logic widersteht bestehenden Verteidigungsmethoden (z. B. GCN-Prune, RobustGCN, GNNGuard, RIGBD) sowie adaptiven Verteidigungsstrategien (z. B. Gradient Masking, Sampling), wobei die ASR oft über 80-90% bleibt.

5. Bedeutung und Fazit

Das Paper demonstriert, dass die bloße Injektion von Triggern für Clean-Label-Angriffe nicht ausreicht. Der entscheidende Faktor ist die Manipulation der internen Logik des Modells, sodass der Trigger als essenzielles Merkmal für die Vorhersage erlernt wird.

Sicherheitsimplikation: Dies stellt eine ernste Bedrohung für den Einsatz von GNNs in kritischen Bereichen (Finanzen, Medizin, Soziale Netzwerke) dar, da Angriffe ohne Manipulation der vertrauenswürdigen Labels durchgeführt werden können.
Forschungsrichtung: Die Arbeit legt den Grundstein für zukünftige Verteidigungsforschung, die sich nicht nur auf das Entfernen von Triggern konzentriert, sondern auf die Stabilisierung der Vorhersagelogik gegen solche Logik-Vergiftungen.

Zusammenfassend bietet Ba-Logic einen theoretisch fundierten und empirisch überlegenen Ansatz, der die Grenzen bestehender Clean-Label-Angriffe durch die gezielte Vergiftung der inneren Entscheidungslogik von GNNs überwindet.