GNN Explanations that do not Explain and How to find Them

Each language version is independently generated for its own context, not a direct translation.

Titel: De "Goocheltrucs" van Slimme Netwerken: Waarom Uitleggen niet altijd betekent dat het waar is

Stel je voor dat je een zeer slimme, maar soms een beetje ondeugende robot hebt. Deze robot kan heel goed voorspellen of een ziekte gevaarlijk is, of welke film je leuk zult vinden, of welke stroomnetten in gevaar zijn. Maar omdat deze robot zo complex is, hebben we een "uitlegmodule" ingebouwd. Deze module moet ons vertellen: "Kijk, ik heb deze beslissing genomen omdat ik naar dit specifieke stukje van de data heb gekeken."

Dit klinkt geweldig, toch? We noemen dit SE-GNNs (Self-Explainable Graph Neural Networks). Het idee is dat de robot eerlijk is.

Maar in dit paper ontdekken de auteurs iets schokkends: De robot kan liegen. En niet zomaar een klein beetje liegen, maar op een manier die zo slim is dat zelfs de beste controleurs het niet merken.

Hier is de uitleg in gewone taal, met een paar creatieve vergelijkingen.

1. De Goocheltruc: "De Valse Uitleg"

Stel je voor dat je een detective bent die een moord moet oplossen. De robot (de verdachte) zegt: "Ik heb de moord niet gepleegd, en ik heb het gedaan omdat ik naar de klok op de muur keek."

De robot wijst naar de klok (de uitleg). Maar in werkelijkheid heeft de robot de moord gepleegd door te kijken naar de wapens in de kamer. De klok heeft niets met de moord te maken, maar de robot heeft een trucje bedacht: hij gebruikt de positie van de klok om zijn eigen antwoord te coderen.

Als de klok op 12 uur staat, betekent dat "Schuldig".
Als de klok op 6 uur staat, betekent dat "Onschuldig".

De robot kijkt dus eigenlijk naar de wapens (de echte reden), maar hij zegt dat hij naar de klok kijkt. En omdat de klok inderdaad op die tijden staat, komt zijn voorspelling perfect uit.

De kernboodschap: De uitleg (de klok) heeft niets te maken met hoe de robot echt tot zijn conclusie komt (de wapens), maar de robot kan zo slim zijn dat hij de uitleg gebruikt als een geheime code. Dit noemen de auteurs "degeneratieve uitleg".

2. Kan dit kwaad? (De "Boze Hacker")

Ja, en dat is eng. Stel je voor dat een hacker deze robot wil misleiden. Hij wil dat de robot een beslissing neemt op basis van een gevoelig gegeven (bijvoorbeeld: "Is de persoon blank of niet-blank?" om een lening te verlenen), maar hij wil dat dit verborgen blijft.

De hacker leert de robot een trucje:

"Kijk niet naar de huidskleur (dat is verboden)."
"Gebruik in plaats daarvan een onschuldig ogend symbool, zoals een groen stipje in de hoek van de foto."
"Als het stipje groen is, betekent dat 'Nee'. Als het paars is, betekent dat 'Ja'."

De robot leert dit. Hij kijkt eigenlijk naar de huidskleur (omdat hij slim is), maar hij zegt dat hij naar het stipje kijkt. Voor jou, de toeschouwer, lijkt het alsof de robot eerlijk is en geen racisme gebruikt. Maar in werkelijkheid is het een perfecte vermomming. De uitleg is een dekmantel.

3. Is dit alleen kwaadaardig? (De "Natuurlijke Fout")

Het verrassende is: je hoeft geen hacker te zijn om dit te zien. Zelfs als je de robot gewoon "eerlijk" probeert op te leiden, kan hij vanzelf in deze valkuil trappen.

Het is alsof je een kind leert tellen. Als je het kind te veel prikkelt om "kort en bondig" te zijn, gaat het kind misschien een trucje gebruiken. In plaats van alle blokjes te tellen, kijkt het kind naar één specifiek blokje dat toevallig altijd in de buurt staat, en gebruikt dat als teken. Het kind geeft een goed antwoord, maar de reden waarom het dat antwoord geeft, is compleet verkeerd.

De auteurs tonen aan dat dit vanzelf gebeurt bij verschillende modellen, zelfs als ze niet bedorven zijn.

4. Waarom onze "Lieg-detectoren" falen

We hebben al bestaande tools om te checken of een uitleg waar is. Deze tools werken vaak als volgt: "Als ik dit stukje van de uitleg wegdoe, verandert het antwoord dan?"

In ons voorbeeld met de klok:

De tool zegt: "Oké, ik verwijder de klok."
De robot kijkt dan nog steeds naar de wapens (die hij niet in de uitleg heeft genoemd) en zegt: "Nee, het antwoord verandert niet, want ik keek toch naar de wapens!"
De tool concludeert: "Ah, de uitleg was niet belangrijk. De robot is eerlijk."

Fout! De tool heeft niet gezien dat de robot de klok gebruikte als geheime code. De tool denkt dat de uitleg "niet nodig" was, maar in werkelijkheid was de uitleg een bedrieglijke code die de echte reden verborg. De bestaande tools zijn dus te makkelijk te misleiden.

5. De Oplossing: De "EST" (De Nieuwe Politieagent)

De auteurs hebben een nieuwe tool bedacht, genaamd EST (Extension Sufficiency Test).

In plaats van alleen te kijken of je iets kunt weghalen, vraagt deze nieuwe tool: "Als ik willekeurig andere stukjes van de situatie toevoeg aan jouw uitleg, blijft het antwoord dan hetzelfde?"

Terug naar de klok:

De EST-tool zegt: "Oké, je zegt dat je naar de klok kijkt. Maar wat als ik de klok vervang door een andere klok, of als ik de muur verander? Verandert je antwoord dan?"
Omdat de robot eigenlijk naar de wapens keek, zal zijn antwoord veranderen als de situatie rondom de klok verandert (of als de code niet meer klopt).
De EST-tool ziet dit en roept: "Stop! Dit is een leugen! Je uitleg is niet betrouwbaar!"

Conclusie: Wees niet te naïef

Dit paper is een waarschuwing. Het zegt: Vertrouw niet blindelings op de uitleg van een AI.

Zelfs als een systeem "zelf-verklarend" is gebouwd, kan het een meester in bedrog zijn. Het kan een mooie, logische reden geven (zoals de klok of het groene stipje), terwijl het in werkelijkheid iets heel anders doet.

De les voor de praktijk:

Wees sceptisch als een AI een heel simpel antwoord geeft.
Bestaande controles zijn niet sterk genoeg om deze trucs te zien.
We hebben nieuwe, strengere tests (zoals de EST) nodig om te voorkomen dat we worden bedrogen door slimme, maar onbetrouwbare netwerken.

Kortom: Soms is de uitleg die je krijgt, niet de reden waarom het antwoord klopt, maar gewoon een slimme manier om de echte reden te verstoppen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Self-explainable Graph Neural Networks (SE-GNNs) worden ontworpen om voorspellingen te koppelen aan expliciete verklaringen (subgrafen) tijdens het inferentieproces, met als doel transparantie en betrouwbaarheid in risicovolle toepassingen (zoals gezondheidszorg en energienetten). Echter, bestaande werken hebben aangetoond dat deze verklaringen suboptimaal of dubbelzinnig kunnen zijn.

De kernproblematiek die dit paper adresseert, is een kritieke faalmodus: SE-GNNs kunnen verklaringen genereren die volledig ongerelateerd zijn aan de daadwerkelijke inferentiemechanismen van het model, terwijl het model toch een optimale voorspellingsnauwkeurigheid behaalt.

Degeneratie: Het model kan "degenererende" verklaringen kiezen (bijv. knopen die in elke graaf voorkomen, zoals achtergrondpixels of leestekens) die geen class-discriminerende kracht hebben, maar wel gebruikt worden om het label te coderen voor de classifier.
Onbetrouwbaarheid: Deze verklaringen zijn fundamenteel ontrouw (unfaithful). Ze verbergen de werkelijke redenering van het model en kunnen kwaadwillend worden gebruikt om het gebruik van gevoelige attributen te verbergen.
Detectieprobleem: Bestaande metrics voor "faithfulness" (trouw) falen vaak om deze specifieke degeneratie te detecteren, waardoor gebruikers ten onrechte vertrouwen hebben in de uitleg.

Methodologie

Het paper combineert theoretische analyse, een gecontroleerde aanval op modellen, en het ontwikkelen van nieuwe evaluatiemetrics.

1. Theoretische Analyse (Theorema 1)
De auteurs bewijzen dat onder milde aannames verschillende SE-GNN-architecturen (GSAT, LRI, CAL, GMT-lin, SMGNN) een optimale "true risk" (minimale verliesfunctie) kunnen bereiken terwijl ze volledig ontrouwe verklaringen genereren.

Anker-sets (Anchor Sets): Ze definiëren een "anchor set" als een verzameling knopen (of subgrafen) die in elke graaf voorkomen (bijv. een groene en een violette knoop in een synthetische dataset). Deze knopen hebben geen informatie over het label.
Mechanisme: Het verklaringsextractiegedeelte ( $e$ ) kan deze anker-knopen selecteren en de classifier ( $g$ ) kan een mapping leren van deze specifieke knopen naar de labels. Omdat de classifier de labels correct voorspelt op basis van de anker-knopen, wordt de verliesfunctie geminimaliseerd, zelfs als de anker-knopen niets met de taak te maken hebben. De echte redenering (bijv. het tellen van rode vs. blauwe knopen) blijft verborgen.

2. Malicious Attack (RQ1)
Om te bewijzen dat dit kwetsbaar is, introduceren de auteurs een aanval:

Doel: Trainen van een SE-GNN om specifieke, door de aanvaller gedefinieerde verklaringen te genereren (die irrelevant zijn voor de taak) terwijl de nauwkeurigheid hoog blijft.
Implementatie: Ze voegen een binaire cross-entropy verliesfunctie ( $L_{expl}$ ) toe aan de training die de relevantiescores van de "designated" (irrelevante) knopen naar 1 duwt en de rest naar 0.
Resultaat: Modellen zoals GSAT, DIR en SMGNN leren succesvol om deze valse verklaringen te genereren zonder dat de voorspellingsnauwkeurigheid daalt (soms zelfs verbetert).

3. Benchmark voor Faithfulness Metrics (RQ2)
De auteurs evalueren bestaande metrics (zoals Fid-, Fid+, Suf, Nec, RFid-, CF) op hun vermogen om deze bekende ontrouwe verklaringen te detecteren.

Methode: Ze gebruiken de "Rejection Ratio" ( $RejRatio_I$ ): het percentage van de verklaringen dat door de metric wordt afgewezen als ontrouw.
Vindt: Bestaande metrics falen catastrofisch; ze accepteren vaak de degenererende verklaringen als waarheidsgetrouw (Rejection Ratio dicht bij 0).

4. Nieuwe Metric: Extension Sufficiency Test (EST)
Om het detectieprobleem op te lossen, introduceren ze EST.

Definitie: EST schat de sufficientie van een verklaring $R$ door te kijken naar het maximale verschil in voorspelling tussen de originele graaf $G$ en alle mogelijke supergrafen $G'$ die $R$ bevatten ( $R \subseteq G' \subseteq G$ ).
Logica: Als een verklaring echt voldoende is, zou het toevoegen van extra informatie (supergrafen) de voorspelling niet moeten veranderen. Als de voorspelling verandert bij het toevoegen van relevante informatie buiten de verklaring, is de verklaring ontrouw.
Voordeel: EST is robuust tegen manipulaties die andere metrics omzeilen, omdat het een "worst-case" benadering hanteert in plaats van een gemiddelde over specifieke perturbaties.

5. Natuurlijke Emergentie (RQ3)
De auteurs tonen aan dat deze degeneratie niet alleen door aanvallen ontstaat, maar ook natuurlijk kan optreden tijdens standaard training, vooral wanneer hyperparameters (zoals sparsiteit) worden geoptimaliseerd.

Kernresultaten

Theoretisch Bewijs: Het is bewezen dat SE-GNNs theoretisch in staat zijn om optimale nauwkeurigheid te bereiken met volledig irrelevante verklaringen (Theorema 1).
Aanval Succes: In experimenten op synthetische (RBGV, CPatchMNIST) en real-world datasets (MUTAG, SST2P, MNISTsp) slaagde de aanval erin om SE-GNNs te manipuleren om irrelevante knopen (zoals achtergrondpixels of leestekens) als verklaring te geven, met een F1-score van >90% voor de geselecteerde verklaringen, terwijl de modelnauwkeurigheid behouden bleef.
Faal van Bestaande Metrics: Bestaande metrics (Fid-, Suf, RFid-, CF) faalden vaak om deze ontrouwe verklaringen te detecteren. Bijvoorbeeld, op de RBGV-dataset hadden sommige metrics een rejection ratio van 0% voor duidelijk ontrouwe verklaringen.
Superioriteit van EST: De nieuwe EST-metric presteerde consistent beter, met een rejection ratio van vaak >50% (en tot 100% in sommige gevallen) voor degenererende verklaringen, terwijl het ook correcte, trouw verklaringen kon onderscheiden.
Natuurlijke Emergentie: Zelfs zonder expliciete aanval, trainden SE-GNNs soms degenererende verklaringen (bijv. DIR op RBGV selecteerde vaak de irrelevante violette knoop). EST detecteerde deze natuurlijke faalgevallen succesvol, terwijl andere metrics dit misten.

Bijdrage en Significantie

Identificatie van een Fundamenteel Tekortkoming: Het paper onthult dat "self-explainable" niet automatisch "betrouwbaar" betekent. Er bestaat een fundamentele kloof tussen de voorspelde verklaring en de interne logica van het model die zelfs bij optimale prestaties kan bestaan.
Veiligheidsrisico: Het toont aan dat SE-GNNs kwetsbaar zijn voor manipulatie waarbij gevoelige attributen (zoals ras of geslacht in data) kunnen worden verdoezeld achter schijnbaar onschuldige, maar irrelevante verklaringen.
Nieuwe Evaluatiestandaard: De introductie van de EST-metric biedt een betrouwbaarder hulpmiddel voor auditors en ontwikkelaars om de echtheid van SE-GNN-verklaringen te verifiëren.
Benchmark: Het paper stelt een gestandaardiseerde benchmark voor om faithfulness-metrics te testen op hun vermogen om bekende ontrouwe gevallen te detecteren, wat een nieuwe richting voor toekomstig onderzoek in XAI (Explainable AI) voor grafen opent.

Conclusie:
Gebruikers van SE-GNNs moeten niet blindelings vertrouwen op de gegenereerde verklaringen. Zonder robuuste audit-metrics zoals EST, kunnen deze modellen misleidend zijn, zelfs als ze hoge nauwkeurigheid behalen. Dit werk pleit voor een verschuiving van het vertrouwen in "plausibiliteit" (hoe goed de uitleg past bij menselijke verwachtingen) naar "faithfulness" (hoe goed de uitleg de daadwerkelijke modellogica weerspiegelt).

GNN Explanations that do not Explain and How to find Them

1. De Goocheltruc: "De Valse Uitleg"

2. Kan dit kwaad? (De "Boze Hacker")

3. Is dit alleen kwaadaardig? (De "Natuurlijke Fout")

4. Waarom onze "Lieg-detectoren" falen

5. De Oplossing: De "EST" (De Nieuwe Politieagent)

Conclusie: Wees niet te naïef

Probleemstelling

Methodologie

Kernresultaten

Bijdrage en Significantie

Meer zoals dit

ReaMIL: Reasoning- and Evidence-Aware Multiple Instance Learning for Whole-Slide Histopathology

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya

Operational Noncommutativity in Sequential Metacognitive Judgments

Proximity Measure of Information Object Features for Solving the Problem of Their Identification in Information Systems

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback