Counterfactual Explanations on Robust Perceptual Geodesics

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber manchmal etwas verwirrten KI-Assistenten, der Bilder analysiert. Du zeigst ihm ein Foto von einer Katze, und er sagt: „Das ist eine Katze."

Jetzt möchtest du dem Assistenten erklären, wie man das Bild so verändern müsste, damit er plötzlich sagt: „Aha! Das ist jetzt ein Hund." Das nennt man eine konträre Erklärung (Counterfactual Explanation). Es ist wie die Frage: „Was müsste ich ändern, damit das Ergebnis anders ausfällt?"

Das Problem ist: Wenn man versucht, diese Veränderung mit herkömmlichen Methoden zu berechnen, passiert oft etwas Seltsames. Die KI versucht, das Bild zu verändern, indem sie winzige, für das menschliche Auge unsichtbare Pixel-Veränderungen macht. Das Ergebnis ist dann zwar technisch gesehen ein „Hund" für die KI, sieht aber für uns aus wie ein verrauschtes, unkenntliches Bild oder ein Monster. Die KI hat den Weg genommen, der für sie am einfachsten war, aber nicht für uns.

Die Lösung: PCG – Der „Robuste Pfadfinder"

Die Autoren dieses Papers haben eine neue Methode namens PCG (Perceptual Counterfactual Geodesics) entwickelt. Um zu verstehen, wie das funktioniert, nutzen wir eine einfache Analogie:

1. Das Problem: Der flache Boden vs. der hügelige Berg

Stell dir die Welt aller möglichen Bilder als eine riesige, flache Ebene vor.

Die alten Methoden laufen einfach in einer geraden Linie von der „Katze" zur „Hund"-Position. Da die Ebene aber flach ist, laufen sie oft über „Abgründe" oder durch „Sumpfgebiete" (in der Fachsprache: Off-Manifold). Das Ergebnis sind Bilder, die in der echten Welt gar nicht existieren würden – wie ein Hund mit drei Beinen oder einer Katze mit einem Fischschwanz.
Das Problem: Die KI denkt, sie sei auf dem richtigen Weg, weil sie nur auf die mathematische Distanz schaut, nicht darauf, ob das Bild „echt" aussieht.

2. Die Lösung: Der Bergpfad (Geodäte)

Die Autoren sagen: „Nein, die Welt der Bilder ist nicht flach! Sie ist wie ein bergiges Gelände mit Tälern und Gipfeln."

Ein Gipfel ist ein perfektes Bild einer Katze.
Ein anderes Gipfel ist ein perfektes Bild eines Hundes.
Die Täler dazwischen sind die „echten" Übergänge (z. B. ein Tier, das langsam von katzenartig zu hundeartig wird).

Die neue Methode PCG sucht nicht den kürzesten Weg über die flache Ebene, sondern den schönsten, sanftesten Pfad über die Berge von der Katze zum Hund. Dieser Pfad wird Geodäte genannt. Er bleibt immer auf dem „Boden der Tatsachen" (auf dem Berg), damit jedes Zwischenergebnis ein echtes, erkennbares Tier ist.

3. Der Kompass: Robuste Features

Aber wie findet man diesen Pfad? Man braucht einen Kompass, der nicht getäuscht werden kann.

Normale KI-Modelle haben einen Kompass, der leicht getäuscht wird. Sie sehen nur die Oberfläche und lassen sich von kleinen Störungen (wie Rauschen) ablenken.
PCG nutzt einen robusten Kompass. Dieser Kompass wurde trainiert, um wirklich zu verstehen, was ein Tier ausmacht (Ohrenform, Fellstruktur, Schnauze), und ignoriert kleine, täuschende Details. Er sagt: „Geh nicht durch den Sumpf, geh den Weg, der sich für ein menschliches Auge natürlich anfühlt."

Was passiert im Detail? (Die zwei Phasen)

Die Methode läuft in zwei Schritten ab, wie eine Reiseplanung:

Phase 1: Der grobe Überblick
Man zeichnet erst einmal eine Linie von der Katze zu einem zufälligen Hund auf der Karte. Man glättet diese Linie so, dass sie immer auf dem Berg bleibt und keine Abgründe berührt. Das Ergebnis ist ein sanfter Übergang, der zwar noch nicht perfekt ist, aber schon „echt" aussieht.
Phase 2: Das Feintuning
Jetzt passt man das Ziel an. Man schiebt den Endpunkt (den Hund) so nah wie möglich an das Startbild (die Katze), ohne dass die KI die Klasse wechselt. Man sucht also den kleinstmöglichen Unterschied, der ausreicht, damit die KI sagt: „Hund!", aber der für uns noch wie eine Katze aussieht, die sich langsam in einen Hund verwandelt.

Warum ist das wichtig?

Keine Monster mehr: Die Bilder, die PCG erzeugt, sehen aus wie echte Fotos. Es gibt keine seltsamen Artefakte oder verzerrten Gesichter.
Verständlich: Man kann genau sehen, was sich geändert hat (z. B. die Ohren wurden spitzer, das Fell wurde kürzer).
Sicher: Die Methode verhindert, dass die KI „schummelt", indem sie unsichtbare Fehler in das Bild einbaut, um die Antwort zu ändern.

Zusammenfassung in einem Satz

PCG ist wie ein erfahrener Bergführer, der dich nicht den gefährlichen, geraden Weg durch den Abgrund nimmt, sondern dich den sicheren, sanften Pfad über die Berge führt, damit du von einer Katze zu einem Hund kommst, ohne dabei dein Gesicht zu verlieren.

Die Forscher haben gezeigt, dass diese Methode besser funktioniert als alle bisherigen Techniken und dass sie die „Fallstricke" vermeidet, bei denen KI-Modelle sonst in die Irre gehen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert die Herausforderung der Generierung von kontrafaktischen Erklärungen (Counterfactual Explanations, CE) für tief neuronale Netze im Bereich der Bildverarbeitung.

Hintergrund: Contrafaktische Erklärungen sollen minimale semantische Änderungen am Eingabebild definieren, die die Vorhersage des Modells in eine gewünschte Klasse ändern. Traditionelle Ansätze formulieren dies als Optimierungsproblem, das eine Ähnlichkeitsmetrik (z. B. $\ell_2$ -Distanz) und einen Klassifikationsverlust minimiert.
Das Kernproblem: Die Wahl der Distanzmetrik ist entscheidend. Herkömmliche Metriken (wie pixelbasierte $\ell_2$ $ℓ_{2}$ -Normen oder Metriken auf Basis nicht-robuster Klassifikatoren) führen oft zu adversariellen Artefakten.
- Off-Manifold-Traversal: Optimierungen im latenten Raum ignorieren oft die gekrümmte Geometrie der Datenmannigfaltigkeit, was zu unrealistischen, „außerhalb der Mannigfaltigkeit" liegenden Bildern führt.
- On-Manifold-Adversarialität: Selbst wenn die Bilder auf der Mannigfaltigkeit liegen, können nicht-robuste Metriken zu semantisch inkonsistenten oder adversariellen Änderungen führen, die für Menschen nicht nachvollziehbar sind (semantische Drift).
Ziel: Es wird eine Methode benötigt, die kontrafaktische Pfade entlang einer Geometrie findet, die mit der menschlichen Wahrnehmung übereinstimmt und semantisch robuste Übergänge garantiert, ohne in adversarielle Fallen zu tappen.

2. Methodik: Perceptual Counterfactual Geodesics (PCG)

Die Autoren schlagen PCG vor, eine Methode, die kontrafaktische Erklärungen als Geodäten (kürzeste Pfade) auf einer Riemannschen Mannigfaltigkeit im latenten Raum eines Generators (StyleGAN2/3) konstruiert.

A. Robuste Perzeptive Metrik

Anstatt pixelbasierter oder nicht-robuster Feature-Metriken verwendet PCG eine robuste Riemannsche Metrik, die aus den Feature-Räumen adversariell trainierter (robuster) Vision-Modelle abgeleitet wird.

Pullback-Metrik: Die Metrik $G_Z(z)$ im latenten Raum $Z$ wird durch Zurückziehen (Pullback) einer robusten Metrik $G_R(x)$ aus dem Eingaberaum $X$ über den Generator $g$ definiert:
$G_Z(z) = J_g(z)^\top G_R(g(z)) J_g(z)$
Zusammensetzung: $G_R(x)$ wird als gewichtete Summe der Pullbacks der euklidischen Metrik aus mehreren Zwischenschichten eines robusten Modells (z. B. robustes ResNet-50) gebildet. Dies sorgt dafür, dass Richtungen, die für robuste Modelle „zerbrechlich" sind, hohe Kosten verursachen, während semantisch sinnvolle, glatte Variationen bevorzugt werden.

B. Zwei-Phasen-Optimierung

Die Generierung erfolgt in zwei Schritten, um globale Struktur und lokale Klassifikation zu vereinen:

Phase 1 (Geodäten-Initialisierung): Fixierung des Startpunkts (Eingabebild) und eines Zielpunkts (ein beliebiges Beispiel der Zielklasse). Die Zwischenpunkte werden optimiert, um die robuste perzeptive Energie (Länge der Geodäte unter der robusten Metrik) zu minimieren. Dies erzeugt einen glatten, semantisch kohärenten Pfad zwischen den Klassen.
Phase 2 (Verfeinerung): Der Zielpunkt wird freigegeben und gemeinsam mit dem Pfad unter Berücksichtigung des Klassifikationsverlusts optimiert. Ein dynamischer Gewichtungsfaktor $\lambda$ $λ$ verschiebt den Fokus von der reinen geometrischen Regularisierung hin zur Sicherstellung der Zielklassen-Vorhersage.
- Re-Anchoring: Um zu verhindern, dass der Pfad zu weit vom Original entfernt ist oder kollabiert, wird der Zielpunkt periodisch auf den nächstgelegenen Punkt auf dem Pfad neu gesetzt, der bereits die Zielklasse klassifiziert.

3. Wichtige Beiträge

Einführung von PCG: Ein neuer Algorithmus, der kontrafaktische Erklärungen durch die Optimierung von Geodäten auf einer latenten Riemannschen Mannigfaltigkeit generiert, die durch robuste Merkmale induziert wird.
Überwindung des „Semantic Divide": Die Arbeit zeigt, dass die Unterscheidung zwischen kontrafaktischen Erklärungen und adversariellen Beispielen nicht nur durch den Begriff „mögliche Welten" (On/Off-Manifold) gelöst werden kann, sondern durch die Wahl einer semantisch robusten Metrik. PCG überquert die semantische Kluft, indem sie Pfade durch robuste Regionen der Mannigfaltigkeit erzwingt.
Perzeptuelle Geodäten-Interpolation: Nachweis, dass die robuste Geometrie glatte, semantisch konsistente Interpolationen zwischen Bildern ermöglicht, während andere Metriken zu Artefakten oder adversariellen Kollapsen führen.
Neue Evaluationsmetriken: Einführung von Metriken wie dem Semantic Margin (SM) und dem Manifold Alignment Score (MAS), die auf robusten Feature-Räumen basieren, um die Qualität von Erklärungen besser zu bewerten als traditionelle Metriken (wie FID oder $\ell_2$ ), die adversarielle Artefakte übersehen können.

4. Ergebnisse

Die Methode wurde auf drei Datensätzen (AFHQ, FFHQ, PlantVillage) mit StyleGAN2/3 und verschiedenen Klassifikatoren evaluiert.

Qualitative Ergebnisse:
- PCG erzeugt kontrafaktische Bilder, die visuell plausibel sind und semantische Eigenschaften (z. B. Tierart, Gesichtszüge) konsistent ändern, ohne unnatürliche Verzerrungen.
- Baseline-Methoden (REVISE, VSGD, RSGD/-C) zeigen häufig Off-Manifold-Artefakte, semantische Drifts oder kollabieren in On-Manifold-Adversarial Examples (z. B. verzerrte Gesichter, unlogische Texturen).
Quantitative Ergebnisse:
- Distanzmetriken: PCG erzielt die niedrigsten Werte bei allen geometrie-bewussten Metriken ( $L_F$ , $L_R$ ), was auf sparsame und wahrnehmungsgerechte Änderungen hindeutet.
- Realismus und Robustheit: PCG erreicht den besten R-FID (robuste FID) und R-LPIPS, was zeigt, dass die generierten Bilder näher an der realen Zielverteilung liegen und weniger anfällig für adversarielle Störungen sind.
- Semantische Validität: Der Semantic Margin ist bei PCG positiv und hoch, was bedeutet, dass die Erklärungen in Regionen des Feature-Raums liegen, die tatsächlich von der Zielklasse besiedelt sind. Baseline-Methoden liegen oft in gemischten oder nicht-zielgerichteten Regionen.
- Glätte: Die Pfad-basierte Analyse zeigt, dass PCG-Geodäten eine deutlich geringere Schrittweite in der perzeptiven Distanz ( $\Delta$ LPIPS, $\Delta$ R-LPIPS) aufweisen als lineare oder sphärische Interpolationen.

5. Bedeutung und Fazit

Das Paper leistet einen wesentlichen Beitrag zum Verständnis der Beziehung zwischen Adversarial Robustness und Explainable AI (XAI).

Paradigmenwechsel: Es zeigt, dass die Wahl der Geometrie im latenten Raum entscheidend ist. Eine Metrik, die auf nicht-robusten Modellen basiert, führt unweigerlich zu adversariellen Lösungen, selbst wenn die Optimierung auf der Datenmannigfaltigkeit stattfindet.
Praktische Relevanz: PCG bietet einen zuverlässigen Weg, um semantisch sinnvolle Erklärungen für komplexe Bildklassifikatoren zu generieren, die für menschliche Nutzer verständlich sind und nicht durch „Tricks" (adversarielle Perturbationen) getäuscht werden.
Zukunftsausblick: Die Arbeit legt den Grundstein für die Anwendung robuster geometrischer Konzepte auf andere generative Modelle (z. B. Diffusionsmodelle) und Datenmodalitäten, wobei die Herausforderung darin besteht, robuste Metriken für diese komplexeren Räume zu definieren.

Zusammenfassend beweist PCG, dass durch die Kombination von robusten Merkmalen, Riemannscher Geometrie und globaler Pfadoptimierung kontrafaktische Erklärungen generiert werden können, die sowohl mathematisch fundiert als auch menschlich interpretierbar sind.