GIFT: A Framework Towards Global Interpretable Faithful Textual Explanations of Vision Classifiers

Each language version is independently generated for its own context, not a direct translation.

GIFT: Der „Geschenk"-Ratgeber für KI-Entscheidungen

Stellen Sie sich vor, Sie haben einen sehr intelligenten, aber stur schweigenden Roboter, der als Verkehrsbeamter arbeitet. Er entscheidet, ob ein Auto abbiegen darf oder nicht. Wenn Sie ihn fragen: „Warum darf ich hier nicht rechts abbiegen?", schaut er Sie nur an und sagt: „Weil ich es so entschieden habe." Das ist frustrierend, besonders wenn Sie wissen wollen, ob er einen Fehler macht oder ob er nur auf etwas seltsames reagiert.

Das ist genau das Problem, das die Forscher mit GIFT lösen wollen. GIFT steht für Globale, Interpretierbare, Faithful (vertrauenswürdige) und Textliche Erklärungen. Klingt kompliziert? Lassen Sie uns das mit ein paar einfachen Bildern erklären.

Das Problem: Der „Blackbox"-Roboter

Bisherige Methoden, um KI zu verstehen, waren wie ein schlechter Übersetzer:

Saliency Maps (Klassische Methoden): Die KI zeigt Ihnen ein Bild und malt rote Punkte auf die Stellen, die wichtig waren. Das ist wie wenn jemand auf ein Gemälde zeigt und sagt: „Hier ist was Wichtiges", ohne zu sagen, was es ist oder warum.
Lokale Erklärungen: Man fragt die KI nur zu einem Bild: „Warum hast du dieses Auto gestoppt?" Die Antwort gilt nur für dieses eine Auto, nicht für alle.

Die Lösung: GIFT als Detektiv-Team

GIFT ist wie ein Team aus drei Spezialisten, die gemeinsam einen Fall lösen. Sie gehen in vier Schritten vor:

Schritt 1: Der „Was-wäre-wenn"-Szenarist (Counterfactuals)

Stellen Sie sich vor, Sie nehmen ein Foto eines Autos, das nicht abbiegen durfte. Der Detektiv sagt: „Okay, was passiert, wenn wir nur das rote Auto links wegzaubern?"
Die KI nutzt Magie (genannt Counterfactual Generation), um das Bild zu verändern.

Szenario A: Das rote Auto links verschwindet -> Die KI sagt plötzlich: „Ah, jetzt darf er abbiegen!"
Szenario B: Wir fügen ein rotes Auto links hinzu -> Die KI sagt: „Stopp! Nicht abbiegen!"
Das ist der erste Beweis: Die KI reagiert tatsächlich auf das rote Auto links.

Schritt 2: Der Übersetzer (Vision-Language Model)

Jetzt haben wir ein verändertes Bild, aber wir wollen keine Bilder sehen, wir wollen eine Geschichte hören. Ein zweiter Spezialist (ein KI-Modell, das Bilder und Sprache versteht) schaut sich das Original und das veränderte Bild an und sagt:

„Im Originalbild war links ein rotes Auto. Im neuen Bild ist es weg. Der Rest ist gleich."
Er wandelt die visuelle Veränderung in einen einfachen Satz um.

Schritt 3: Der Detective-Hauptkommissar (LLM)

Jetzt haben wir hunderte von solchen kleinen Geschichten („Links war ein rotes Auto", „Links war ein Bus", „Links war ein LKW"). Ein riesiger KI-Text-Experte (ein Large Language Model) liest alle diese Geschichten zusammen.
Er sucht nach Mustern, wie ein Detektiv, der viele Zeugenaussagen zusammenfasst.

„Aha! Fast immer, wenn links ein Fahrzeug war, sagte die KI 'Nein'. Wenn links leer war, sagte sie 'Ja'."
Er fasst das zusammen zu einer globalen Regel: „Die KI blockiert die Abbiegung, wenn links Verkehr ist."

Schritt 4: Der Stresstest (Verifikation)

Hier wird es spannend. Der Kommissar könnte sich täuschen. Vielleicht ist die KI gar nicht auf den Verkehr links fixiert, sondern auf die Farbe des Himmels?
Um das sicher zu wissen, führt GIFT einen Experiment durch:

Wir nehmen ein Bild, wo links kein Fahrzeug ist, und fügen künstlich eines hinzu (mit einem Bildbearbeitungs-Tool).
Schaut die KI jetzt „Nein"?
Wenn ja, dann haben wir es bewiesen: Die Regel ist wahr und vertrauenswürdig.
Wenn nein, dann war die Vermutung falsch und wird verworfen.

Warum ist das ein Geschenk (Gift)?

Der Name GIFT ist kein Zufall. Es ist ein Geschenk für die Menschheit, weil es:

Global ist: Es erklärt nicht nur ein Bild, sondern das ganze Verhalten der KI.
Textlich ist: Wir bekommen klare Sätze, keine bunten Flecken auf Bildern.
Ehrlich ist: Durch den Stresstest (Schritt 4) wissen wir, dass die Erklärung wirklich stimmt und nicht nur eine zufällige Vermutung ist.

Ein echtes Beispiel aus dem Papier

Die Forscher haben GIFT auf einen KI-Verkehrsbeamten angewandt, der trainiert wurde, um rechts abbiegen zu dürfen.

Die Entdeckung: GIFT fand heraus, dass die KI einen seltsamen Vorurteil (Bias) hatte: Sie blockierte die Abbiegung, wenn links ein Fahrzeug war – selbst wenn das Fahrzeug gar nichts mit der Abbiegestelle zu tun hatte!
Der menschliche Fehler: Wenn normale Menschen die Bilder anschauten, merkten sie das nicht. Sie dachten, die KI sei fair. GIFT hat diesen „blinden Fleck" aufgedeckt.

Fazit

GIFT ist wie ein Dolmetscher, der nicht nur übersetzt, sondern auch lügt, wenn die KI lügt. Es nimmt die dunkle, undurchsichtige Entscheidung einer KI, zerlegt sie in kleine „Was-wäre-wenn"-Experimente, schreibt eine Geschichte dazu und prüft am Ende, ob die Geschichte wahr ist. So können wir sicherer und vertrauensvoller mit künstlicher Intelligenz zusammenarbeiten.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die sichere und vertrauenswürdige Bereitstellung von Deep-Vision-Modellen in Hochrisikobereichen (z. B. autonomes Fahren, medizinische Bildgebung) erfordert ein tiefes Verständnis ihrer Entscheidungsprozesse. Bestehende Erklärbarkeitsansätze (Explainable AI, XAI) weisen jedoch erhebliche Mängel auf:

Feature-Attributionsmethoden (z. B. Saliency Maps) liefern oft nur lokale Erklärungen, sind schwer zu interpretieren und nicht unbedingt treu (faithful) zum tatsächlichen Modellverhalten.
Konzeptbasierte Methoden benötigen häufig vordefinierte Konzepte oder annotierte Daten und sind oft nicht global oder kausal verifiziert.
Gegenbeispiel-Erklärungen (Counterfactual Explanations) sind zwar kausal fundiert, aber inhärent lokal (bezogen auf einzelne Instanzen), visuell schwer interpretierbar und mehrdeutig.

Es fehlt an einem Framework, das globale, interpretierbare, treue und textbasierte Erklärungen liefert, die kausal mit den Entscheidungen des Modells verknüpft sind.

2. Methodik: Das GIFT-Framework

GIFT (Global, Interpretable, Faithful, Textual) ist ein post-hoc-Framework, das in vier aufeinanderfolgenden Stufen arbeitet, um von lokalen visuellen Gegenbeispielen zu globalen textuellen Hypothesen zu gelangen:

Stufe 1: Erzeugung treuer visueller lokaler Erklärungen

Ziel: Generierung von minimalen, semantisch sinnvollen Änderungen an Eingabebildern, die die Klassifizierung des Zielsmodells $M$ umkehren (von Klasse 0 zu 1 oder umgekehrt).
Methode: Ein Counterfactual-Generator (CEX) nutzt den Gradienten oder andere Optimierungsmethoden, um ein Gegenbeispiel $x'$ zu erzeugen, sodass $M(x') \neq M(x)$ .
Vorteil: Da die Änderung direkt die Entscheidung des Modells beeinflusst, ist diese Erklärung per Definition treu (faithful) und kausal verankert.

Stufe 2: Übersetzung visueller Änderungen in Text

Ziel: Umwandlung der visuellen Unterschiede zwischen dem Originalbild $x$ und dem Gegenbeispiel $x'$ in natürliche Sprache.
Methode: Ein Vision-Language-Modell (VLM) oder ein spezielles „Change Captioning"-Modell beschreibt die Änderungen (z. B. „Der rote Ball wurde entfernt" oder „Ein neues Fahrzeug erschien im linken Spur").
Herausforderung: Diese Beschreibungen sind lokal, können verrauscht sein und sind oft mehrdeutig (eine Änderung könnte mehrere Ursachen haben).

Stufe 3: Aggregation zu globalen Kandidaten-Hypothesen

Ziel: Identifikation wiederkehrender Muster über viele lokale Erklärungen hinweg, um globale Entscheidungsregeln des Modells abzuleiten.
Methode: Ein Large Language Model (LLM) fasst alle gesammelten Change-Captions zusammen. Es nutzt die Informationen darüber, welche Änderung zu welchem Klassifizierungswechsel führte ( $M(x) \to M(x')$ ), um konsistente globale Hypothesen zu generieren (z. B. „Klasse 1 wird durch das Vorhandensein eines roten Objekts bestimmt").
Innovation: Das LLM disambiguiert lokale Evidenzen und filtert Rauschen heraus, ohne direkten Zugriff auf das Modell selbst zu haben.

Stufe 4: Kausale Verifizierung der Hypothesen

Ziel: Quantitative Überprüfung, ob die generierten textuellen Hypothesen tatsächlich die Ursache für die Modellentscheidung sind (Vermeidung von Scheinkorrelationen).
Methode:
1. Coarse Filter (Korrelation): Nutzung eines Visual Question Answering (VQA) Modells, um die Präsenz des in der Hypothese genannten Konzepts in einem Validierungsdatensatz zu prüfen. Berechnung der Directed Information (DI) zwischen Konzept und Klassenzugehörigkeit.
2. Fine Filter (Kausalität): Durchführung von Interventionen auf den Bildern. Ein Text-gesteuertes Bildbearbeitungsmodell (Image Editing) fügt das Konzept hinzu oder entfernt es (z. B. „Füge eine Brille hinzu").
3. Metriken: Die Auswirkungen dieser Interventionen werden gemessen, um zwei kausale Metriken zu berechnen:
  - CaCE (Causal Concept Effect): Misst den durchschnittlichen Effekt des Konzepts auf die Klassifizierung.
  - PNS (Probability of Necessary and Sufficient Cause): Misst die Wahrscheinlichkeit, dass das Konzept sowohl notwendig als auch hinreichend für die Klassifizierung ist.
Ergebnis: Nur Hypothesen, die einen signifikanten kausalen Effekt zeigen, werden als finale Erklärung akzeptiert.

3. Wichtige Beiträge

Erstes Framework für globale, textuelle und kontrafaktische Erklärungen: GIFT ist der erste Ansatz, der lokale kontrafaktische Signale nutzt, um globale, in natürlicher Sprache formulierte Regeln zu extrahieren, die kausal verifiziert sind.
Synergie aus lokaler Kausalität und globalem Reasoning: Die Kombination aus der Generierung kausaler lokaler Gegenbeispiele und deren Zusammenfassung durch ein LLM ist neuartig und ermöglicht die Entdeckung komplexer, globaler Muster.
Zwei komplementäre kausale Metriken: Die Einführung und Analyse von CaCE und PNS zur Verifizierung von Erklärungen bietet ein robustes Werkzeug zur Unterscheidung zwischen echten kausalen Faktoren und Korrelationen.
Validierung in diversen Domänen: Das Framework wurde erfolgreich auf synthetischen Daten (CLEVR), realen Gesichtsbildern (CelebA) und komplexen Straßenszenen (BDD-OIA) getestet.

4. Ergebnisse

Die Evaluation zeigt, dass GIFT in der Lage ist, verborgene Klassifizierungsregeln und unerwartete Verzerrungen (Biases) aufzudecken:

CLEVR (Synthetisch): GIFT konnte in 11 von 12 Fällen die wahre visuelle Regel (z. B. „Vorhandensein eines cyan-farbenen metallischen Objekts") korrekt identifizieren und an die Spitze der Rangliste bringen.
CelebA (Gesichter): Das Framework identifizierte nicht nur offensichtliche Merkmale wie „Falten", sondern auch subtile Kombinationen (z. B. „Brille + Stirnfalten"), die kausal mit der Klassifizierung „alt" verbunden waren. Es zeigte, dass einzelne Attribute oft nicht ausreichen, sondern Kombinationen notwendig sind.
BDD-OIA (Autonomes Fahren): In einem Szenario mit einem absichtlich voreingenommenen Modell (das Fahrzeuge in der linken Spur fälschlicherweise als „nicht rechtsabbiegen" klassifiziert) gelang es GIFT, diesen Bias zu entdecken.
- Vergleich: Herkömmliche Methoden (nur LLM-Hypothesen oder manuelle Inspektion) scheiterten daran, diesen spezifischen Bias zu finden. GIFT entdeckte ihn durch die Kombination aus kontrafaktischer Generierung und kausaler Verifizierung.
- Ablationsstudien: Zeigten, dass ohne die Stufen 1 und 2 (kontrafaktische Generierung und Change-Captioning) das LLM keine spezifischen, nicht-intuitiven Biases finden kann.

5. Bedeutung und Ausblick

GIFT schließt die Lücke zwischen lokaler kontrafaktischer Reasoning und globaler Interpretierbarkeit.

Vertrauenswürdigkeit: Durch die kausale Verifizierung (Stufe 4) werden Erklärungen nicht nur generiert, sondern bewiesen, was für sicherheitskritische Anwendungen essenziell ist.
Automatisierung: Das Framework reduziert die Notwendigkeit manueller Hypothesenbildung und menschlicher Voreingenommenheit bei der Suche nach Modellfehlern.
Flexibilität: Da GIFT als Framework konzipiert ist, kann es mit verschiedenen Generative-Modellen, VLMs und LLMs instantiiert werden, was die Anpassung an verschiedene Domänen ermöglicht.

Limitationen: Die Qualität der Erklärungen hängt von den zugrunde liegenden Komponenten ab (z. B. Fähigkeit des Bildbearbeitungsmodells, realistische Interventionen durchzuführen). In komplexen Szenen kann es zu Halluzinationen in den Bildbeschreibungen kommen, was durch die kausale Verifizierung jedoch teilweise kompensiert wird.

Zusammenfassend bietet GIFT einen prinzipiellen Ansatz, um „Black-Box"-Vision-Modelle nicht nur zu erklären, sondern deren Entscheidungslogik kausal zu validieren und in verständliche, globale Regeln zu übersetzen.