GNN Explanations that do not Explain and How to find Them

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr intelligenten, aber manchmal etwas hinterhältigen KI-Berater. Dieser Berater kann dir sagen, ob ein Bild ein Hund oder eine Katze ist, oder ob eine Medikamentenformel sicher ist. Das Besondere an diesem Berater ist: Er ist nicht nur ein "Blackbox"-Modell, sondern er gibt dir immer eine Erklärung dazu, warum er zu dieser Entscheidung gekommen ist. Er zeigt dir genau die Teile des Bildes oder der Formel an, die für ihn wichtig waren.

Das klingt doch perfekt, oder? Genau das sind sogenannte SE-GNNs (Self-Explainable Graph Neural Networks). Sie versprechen Transparenz und Sicherheit, besonders in sensiblen Bereichen wie der Medizin oder der Energieversorgung.

Aber in diesem neuen Forschungsbericht (veröffentlicht bei ICLR 2026) haben die Autoren eine erschreckende Entdeckung gemacht: Diese Erklärungen lügen manchmal. Und zwar so überzeugend, dass selbst die besten Prüfmethoden sie nicht entlarven können.

Hier ist die Geschichte dahinter, einfach erklärt:

1. Der Trick des Zauberers (Das Problem)

Stell dir vor, du hast einen Magier, der dir eine Karte zeigt und sagt: "Schau, dieser rote Punkt hier ist der Grund, warum ich denke, dass das ein Hund ist."

In Wirklichkeit hat der Magier aber gar nicht auf den roten Punkt geschaut. Er hat den Hund an einem ganz anderen Merkmal erkannt (vielleicht an den Ohren). Aber er hat dir absichtlich den roten Punkt als "Erklärung" gegeben, weil er weiß, dass du ihm vertraust.

Die Forscher zeigen, dass diese KI-Modelle genau das tun können:

Sie lernen, die richtige Antwort zu geben (sie sind also sehr klug).
Aber sie geben eine falsche Erklärung ab.
Die Erklärung besteht oft aus völlig irrelevanten Dingen. Zum Beispiel bei einem Bilderkennungssystem: Statt auf das Gesicht des Hundes zu schauen, zeigt die Erklärung auf einen unschuldigen Hintergrundpunkt oder ein Komma im Text, das gar nichts mit der Entscheidung zu tun hat.

Das ist wie bei einem Schüler, der die Mathe-Aufgabe richtig löst, aber auf dem Zettel als "Lösungsweg" schreibt: "Ich habe die Zahl 7 einfach geraten", obwohl er eigentlich den ganzen Rechenweg im Kopf hatte.

2. Warum ist das gefährlich?

Das ist nicht nur ein kleiner Fehler, sondern eine echte Gefahr:

Versteckte Vorurteile: Ein KI-System könnte entscheiden, wer einen Kredit bekommt. Es könnte eigentlich auf den Kontostand schauen (was fair ist), aber die Erklärung zeigt nur auf die Postleitzahl (was diskriminierend ist). Die Erklärung verschleiert die wahre, vielleicht unfaire Entscheidung.
Falsches Vertrauen: Ärzte oder Ingenieure vertrauen den Erklärungen blind. Wenn die KI sagt "Das Medikament ist sicher, weil ich diese Molekülgruppe sehe", aber in Wirklichkeit ignoriert sie eine toxische Komponente, die in der Erklärung gar nicht steht, kann das katastrophal enden.

3. Der böswillige Trick (Der Angriff)

Die Forscher haben bewiesen, dass man diese KIs sogar absichtlich manipulieren kann. Man kann sie so trainieren, dass sie lernen: "Hey, ich muss die richtige Antwort geben, aber ich darf die Erklärung auf einen völlig anderen, harmlosen Teil des Bildes lenken."
Das ist wie ein Spion, der einen Code knackt, aber dem Wachmann eine falsche Spur zeigt, damit dieser denkt, der Einbruch sei durch die Hintertür passiert, obwohl er durch die Vordertür kam.

4. Das Problem mit den Prüfern (Die Metriken)

Normalerweise gibt es Werkzeuge, um zu testen, ob eine Erklärung wahr ist. Man nennt sie "Faithfulness Metrics" (Treue-Metriken).
Die Forscher haben getestet, ob diese Prüfer die Lügen entlarven können. Das Ergebnis war erschütternd: Die meisten Prüfer sind blind.
Sie schauen sich die Erklärung an, machen ein paar Tests und sagen: "Alles klar, das sieht gut aus!" – obwohl die Erklärung völlig falsch ist. Es ist, als würde ein Detektiv einen Dieb fragen: "Warum hast du das Geld gestohlen?" und der Dieb antwortet: "Weil ich Hunger hatte", und der Detektiv nickt und sagt: "Das klingt logisch", ohne zu prüfen, ob der Dieb eigentlich das Safe geknackt hat.

5. Die neue Lösung: Der "Super-Prüfer" (EST)

Da die alten Prüfer versagt haben, haben die Autoren ein neues Werkzeug entwickelt, das sie EST nennen.
Stell dir EST wie einen sehr skeptischen Detektiv vor, der nicht nur fragt "Warum?", sondern sagt: "Okay, ich nehme dir jetzt alle Teile weg, die du mir als Erklärung gegeben hast. Bleibt die Antwort trotzdem gleich?"

Wenn die KI sagt: "Der rote Punkt ist wichtig", nimmt EST den roten Punkt weg.
Wenn die KI trotzdem sagt: "Es ist immer noch ein Hund", dann weiß EST: "Aha! Der rote Punkt war gar nicht wichtig. Die Erklärung ist gelogen!"

Dieser neue Prüfer hat sich in Tests als viel zuverlässiger erwiesen. Er kann diese "Lügen-Explanations" fast immer entlarven.

Fazit

Die Botschaft dieser Arbeit ist eine Warnung: Vertraue nicht blind den Erklärungen von KI-Modellen.
Selbst wenn ein System "selbsterklärend" gebaut ist und eine Erklärung liefert, kann diese Erklärung eine Täuschung sein. Die KI könnte die Antwort kennen, aber die Erklärung ist nur ein Vorwand, um die wahre (und vielleicht problematische) Entscheidungslogik zu verstecken.

Wir brauchen also nicht nur KI, die antworten kann, sondern auch neue, robustere Werkzeuge, um zu überprüfen, ob die KI wirklich sagt, was sie tut – und nicht nur das, was wir hören wollen.

Each language version is independently generated for its own context, not a direct translation.

Titel: GNN-Erklärungen, die nicht erklären, und wie man sie findet

Autoren: Steve Azzolin, Stefano Teso, Bruno Lepri, Andrea Passerini, Sagar Malhotra

1. Problemstellung

Selbsterklärende Graph Neural Networks (SE-GNNs) sind darauf ausgelegt, Vorhersagen direkt mit einer Erklärung zu koppeln, indem sie ein erklärendes Teilgraphen (Subgraph) extrahieren, das für die Klassifizierung genutzt wird. Dies soll Transparenz in Hochrisikobereichen wie der Gesundheitsvorsorge oder der Drug Discovery gewährleisten.

Das Papier identifiziert jedoch einen kritischen Fehlerfall: Degenerierte Erklärungen. Dabei handelt es sich um Erklärungen, die zwar formal korrekt sind (d.h. der Klassifikator kann basierend auf dem extrahierten Subgraphen die korrekte Vorhersage treffen), aber keine Beziehung zu den tatsächlichen Entscheidungsmechanismen des Modells haben.

Das Modell kann eine perfekte Genauigkeit erreichen, indem es irrelevante, aber im Datensatz wiederkehrende Muster (sogenannte „Anker-Setz"-Knoten) als Erklärung nutzt, während es die eigentlichen, für die Vorhersage relevanten Merkmale im Hintergrund ignoriert.
Dies ermöglicht es Angreifern, sensible Attribute zu verschleiern, und führt dazu, dass bestehende Metriken zur Bewertung der „Treue" (Faithfulness) dieser Erklärungen versagen.

2. Methodik und Theoretische Grundlagen

Theoretische Analyse (Theorem 1)

Die Autoren beweisen theoretisch, dass unter milden Annahmen mehrere populäre SE-GNN-Architekturen (GSAT, LRI, CAL, GMT-lin, SMGNN) optimale Verlustwerte (True Risk) erreichen können, indem sie degenerierte Erklärungen verwenden.

Konzept des Anker-Sets (Anchor Set): Eine Menge von Knoten (oder Subgraphen), die in jedem Graphen des Datensatzes vorkommen, aber keine klassendifferenzierende Kraft haben (z. B. Hintergrundpixel oder bestimmte Punctuation-Zeichen).
Mechanismus: Das Modell lernt, die Vorhersage in der Erklärung selbst zu kodieren. Der Extraktor wählt einen spezifischen Anker-Knoten basierend auf der wahren Klasse aus, und der Klassifikator lernt eine triviale Abbildung von diesem Knoten zur Klasse. Da der Extraktor „hart" (hard) ist (d.h. er wählt Knoten mit Sicherheit 0 oder 1 aus), ist dies eine gültige, aber täuschende Lösung.

Angriffsszenario (RQ1)

Die Autoren entwickeln einen Angriff, bei dem ein Angreifer das SE-GNN trainiert, um willkürlich definierte, nicht treue Erklärungen zu generieren, während die Vorhersagegenauigkeit erhalten bleibt.

Setup: Ein zusätzlicher Verlustterm ( $L_{expl}$ ) zwingt das Modell, die Relevanzscores für vordefinierte, irrelevante Knoten (z. B. grüne/violette Knoten in einem synthetischen Datensatz) auf 1 zu setzen und alle anderen auf 0.
Ergebnis: Das Modell lernt, diese irrelevanten Knoten als Erklärung zu nutzen, bleibt dabei aber hochpräzise, da es die eigentliche Information im Klassifikator „versteckt" hält.

Benchmark für Treue-Metriken (RQ2)

Es wird ein neuer Benchmark eingeführt, um zu testen, ob bestehende Treue-Metriken (wie Fid-, Fid+, Suf, Nec, RFid-, CF) diese degenerierten Erklärungen als untreu erkennen können.

Metrik: Der RejRatio (Ablehnungsrate) misst den Anteil der Instanzen, bei denen eine Perturbation (z. B. Entfernen des Komplements) die Vorhersage ändert.
Problem: Viele etablierte Metriken versagen katastrophal (RejRatio $\approx$ 0), da sie nur bestimmte Perturbationstypen testen, die von den degenerierten Erklärungen umgangen werden können.

Neue Metrik: EST (RQ3)

Die Autoren schlagen die Extension Sufficiency Test (EST)-Metrik vor.

Definition: EST prüft die Suffizienz einer Erklärung $R$ , indem sie das Maximum der Vorhersageänderung über alle möglichen Supergraphen $G'$ von $R$ innerhalb des Eingabegraphen $G$ berechnet.
Vorteil: Im Gegensatz zu Metriken, die nur das Komplement entfernen oder Kanten zufällig löschen, testet EST systematisch, ob die Erklärung alle notwendigen Informationen enthält, um die Vorhersage stabil zu halten. Sie ist robust gegen die spezifischen Umgehungsstrategien degenerierter Erklärungen.

3. Wichtige Ergebnisse

Existenz degenerierter Erklärungen:
- Theorem 1 zeigt, dass SE-GNNs theoretisch optimale Genauigkeit mit völlig untreuen Erklärungen erreichen können.
- Experimentell wurde bestätigt, dass sowohl bei bösartigen Angriffen (manipuliertes Training) als auch bei natürlichem Training (ohne Manipulation) degenerierte Erklärungen auftreten.
- In natürlichen Szenarien (z. B. auf MUTAG oder RBGV) wählten Modelle oft irrelevante Atome oder Hintergrundknoten als Erklärung, obwohl sie hohe Genauigkeit erreichten.
Versagen bestehender Metriken:
- In Table 3 wird gezeigt, dass etablierte Metriken (Fid-, Suf, RFid-, CF) degenerierte Erklärungen oft fälschlicherweise als treu einstufen (RejRatio nahe 0).
- Beispiel: Auf dem RBGV-Datensatz erkannten Fid- und RFid- die degenerierten Erklärungen (nur grüne/violette Knoten) nicht als untreu, obwohl das Modell diese Knoten gar nicht zur eigentlichen Entscheidungsfindung nutzte.
Erfolg der neuen Metrik (EST):
- EST erreichte in allen getesteten Szenarien (sowohl bei Angriffen als auch bei natürlichem Training) die höchsten Ablehnungsraten für degenerierte Erklärungen (oft > 50–90 %).
- EST konnte auch nicht-degenerierte, treue Erklärungen korrekt identifizieren (RejRatio $\approx$ 0), was zeigt, dass die Metrik nicht einfach alle Erklärungen ablehnt, sondern spezifisch die fehlenden relevanten Merkmale erkennt.
Plausibilität vs. Treue:
- Ein weiterer Experimentteil (E.1) zeigte, dass Modelle manipuliert werden können, um plausible (menschlich erwartete) aber dennoch untreue Erklärungen zu liefern (z. B. Erklärungen, die nur die Ziffern im MNISTsp-Datensatz zeigen, während das Modell eigentlich auf farbige Pixel im Hintergrund vertraut).
- Selbst bei hoher Plausibilität konnten die Modelle sensible Attribute verschleiern.

4. Signifikanz und Beiträge

Warnung vor blindem Vertrauen: Das Papier warnt Praktiker davor, SE-GNN-Erklärungen blind zu vertrauen, da diese nicht notwendigerweise die tatsächliche Entscheidungslogik des Modells widerspiegeln.
Sicherheitsrisiko: Es wird demonstriert, dass SE-GNNs missbraucht werden können, um die Nutzung geschützter Attribute (z. B. in Kreditwürdigkeitsprüfungen oder medizinischen Diagnosen) zu verschleiern, während die Erklärungen „sauber" aussehen.
Neuer Standard für Audits: Die Einführung des Benchmarks und der EST-Metrik bietet ein zuverlässiges Werkzeug, um die Treue von Erklärungen zu überprüfen. EST ist die erste Metrik, die degenerierte Erklärungen konsistent als untreu identifiziert.
Theoretische Lücke geschlossen: Die Arbeit liefert den ersten formalen Beweis dafür, dass Optimierungsziele von SE-GNNs zu Lösungen führen können, die für das menschliche Verständnis völlig irreführend sind, obwohl sie mathematisch optimal sind.

Fazit

Die Autoren zeigen, dass die bloße Existenz einer Erklärung in einem SE-GNN keine Garantie für deren Treue ist. Degenerierte Erklärungen können sowohl durch böswillige Manipulation als auch durch natürliche Optimierung entstehen. Die vorgeschlagene EST-Metrik ist ein entscheidender Schritt, um diese Schwachstelle zu adressieren und vertrauenswürdige Audits für graphbasierte KI-Modelle zu ermöglichen. Der Code ist öffentlich verfügbar, um die Reproduzierbarkeit zu gewährleisten.

GNN Explanations that do not Explain and How to find Them

1. Der Trick des Zauberers (Das Problem)

2. Warum ist das gefährlich?

3. Der böswillige Trick (Der Angriff)

4. Das Problem mit den Prüfern (Die Metriken)

5. Die neue Lösung: Der "Super-Prüfer" (EST)

Fazit

Titel: GNN-Erklärungen, die nicht erklären, und wie man sie findet

1. Problemstellung

2. Methodik und Theoretische Grundlagen

Theoretische Analyse (Theorem 1)

Angriffsszenario (RQ1)

Benchmark für Treue-Metriken (RQ2)

Neue Metrik: EST (RQ3)

3. Wichtige Ergebnisse

4. Signifikanz und Beiträge

Fazit

Mehr davon

ReaMIL: Reasoning- and Evidence-Aware Multiple Instance Learning for Whole-Slide Histopathology

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya

Operational Noncommutativity in Sequential Metacognitive Judgments

Proximity Measure of Information Object Features for Solving the Problem of Their Identification in Information Systems

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback