Sufficient, Necessary and Complete Causal Explanations in Image Classification

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr klugen, aber etwas rätselhaften Freund: einen KI-Modell-Klassifizierer. Er schaut sich ein Bild an (z. B. ein Foto eines Marienkäfers) und sagt: „Das ist ein Marienkäfer!" Aber warum? Welche Pixel auf dem Foto haben ihn zu dieser Entscheidung gebracht?

Dieses Papier von David Kelly und Hana Chockler ist wie ein Detektiv-Handbuch, um genau das herauszufinden. Die Autoren wollen nicht nur raten, sondern mathematisch beweisen, welche Teile des Bildes wirklich wichtig sind.

Hier ist die Erklärung in einfachen Worten, mit ein paar anschaulichen Vergleichen:

1. Das Problem: Warum sind andere Erklärungen oft schwammig?

Bisherige Methoden, um KI-Entscheidungen zu erklären, funktionieren oft wie ein Maler, der mit einem breiten Pinsel über ein Bild streicht. Er zeigt grob an, wo die KI hinschaut, aber er kann nicht genau sagen: „Wenn ich nur diesen einen Punkt weglasse, ändert sich die Antwort." Oder: „Wenn ich nur diesen Punkt hinzufüge, wird es sicher ein Marienkäfer."

Andere, sehr strenge Methoden (die auf Logik basieren) sind wie ein Mathematiker mit einem Lineal. Sie sind extrem präzise, funktionieren aber nur, wenn das KI-Modell sehr einfach und vorhersehbar ist (wie eine gerade Linie). Echte Bild-KIs sind aber wie ein labyrinthartiger Dschungel – sie sind zu komplex für diese starren Regeln.

2. Die Lösung: Kausale Erklärungen (Der „Was-wäre-wenn"-Ansatz)

Die Autoren schlagen vor, die KI wie ein Labor zu behandeln, in dem man Experimente macht. Sie nutzen das Konzept der „Ursache und Wirkung" (Kausalität).

Stellen Sie sich das Bild als ein Puzzle vor. Die Forscher fragen sich:

Ausreichend (Sufficient): Wie viele Puzzleteile brauche ich mindestens, damit die KI immer noch „Marienkäfer" sagt? (Vielleicht reicht nur der rote Rücken und die Punkte?)
Notwendig (Necessary): Welche Teile müssen unbedingt dabei sein? Wenn ich den Kopf wegmache, sagt die KI vielleicht „Käfer", aber nicht mehr „Marienkäfer".
Vollständig (Complete): Was ist die perfekte Mischung aus „Ausreichend" und „Notwendig"? Das ist der Teil des Bildes, der das Bild vollständig definiert. Wenn man diesen Teil wegnimmt, sieht die KI etwas völlig anderes (z. B. einen Blattkäfer).

3. Die neuen Begriffe: Der „Vertrauens-Score"

Die KI sagt nicht nur „Marienkäfer", sondern hat auch ein Vertrauenslevel (z. B. 90 % sicher). Die Autoren fügen eine neue Dimension hinzu:

$\delta$ -vollständig (Delta-Complete): Das ist wie ein Sicherheitsgurt. Die Erklärung muss so gut sein, dass die KI mindestens 80 % (oder einen anderen Wert $\delta$ ) sicher ist. Das ist gut genug für den Alltag.
1-vollständig (1-Complete): Das ist der perfekte Kopier-Effekt. Die Erklärung muss so gut sein, dass die KI exakt die gleiche Sicherheit hat wie beim Originalbild. Nicht mehr, nicht weniger.

4. Die „Anpassungs-Pixel" (Adjustment Pixels)

Das ist der spannendste Teil der Entdeckung!
Stellen Sie sich vor, Sie haben das perfekte Puzzle (die 1-vollständige Erklärung), aber die KI ist etwas unsicher. Es gibt dann noch ein paar zusätzliche Pixel, die nicht unbedingt nötig sind, um das Bild zu erkennen, aber die Sicherheit der KI erhöhen oder senken.

Beispiel aus dem Papier: Bei einem Bild einer „Waschschüssel" reichte ein kleiner Teil des Bildes aus, um die Waschschüssel zu erkennen (Ausreichend). Aber um die KI auf das exakte Vertrauenslevel des Originals zu bringen, brauchte sie 82 % des Bildes. Die Pixel, die sie hinzufügte, waren die „Anpassungs-Pixel". Sie sagen der KI: „Hey, du hast recht, aber sei dir noch sicherer!"

5. Warum ist das cool? (Die Ergebnisse)

Die Autoren haben ihre Methode auf drei verschiedene KI-Modelle angewendet (ResNet, MobileNet, Swin). Das Ergebnis war überraschend:

Jedes Modell denkt anders: Ein Modell braucht vielleicht nur 4 % des Bildes, um sicher zu sein, während ein anderes 50 % braucht.
Es ist ein „Black-Box"-Tool: Sie müssen nicht wissen, wie die KI im Inneren funktioniert. Sie können einfach das Bild hineinstecken und die Erklärung herausbekommen. Es ist wie ein Universal-Schlüssel, der bei jedem Schloss funktioniert, ohne dass man den Mechanismus dahinter öffnen muss.
Geschwindigkeit: Es dauert nur etwa 6 Sekunden pro Bild auf einem normalen Computer. Das ist schnell genug für den echten Einsatz.

Zusammenfassung in einer Metapher

Stellen Sie sich vor, Sie wollen wissen, warum ein Koch ein Gericht als „perfekt" bewertet.

Frühere Methoden: Der Koch zeigt auf den Teller und sagt: „Hier schmeckt es gut." (Unpräzise).
Logische Methoden: Der Koch sagt: „Wenn Sie genau 3 Gramm Salz nehmen, schmeckt es perfekt." (Präzise, aber nur, wenn der Koch ein Roboter ist, der keine Kreativität hat).
Diese neue Methode: Der Koch nimmt einen Löffel und probiert. Er sagt: „Wenn Sie nur diese drei Zutaten (Salz, Pfeffer, Petersilie) haben, schmeckt es schon gut (Ausreichend). Aber wenn Sie die Petersilie weglassen, schmeckt es gar nicht mehr (Notwendig). Und wenn Sie noch einen Hauch Zitronensaft hinzufügen, ist es genau so gut wie mein Originalrezept (1-vollständig)."

Fazit: Dieses Papier gibt uns endlich Werkzeuge an die Hand, um nicht nur zu sehen, worauf eine KI schaut, sondern zu verstehen, welche Teile eines Bildes sie wirklich braucht, um ihre Entscheidung zu treffen, und wie sicher sie dabei ist. Es ist ein großer Schritt hin zu transparenter und verständlicher Künstlicher Intelligenz.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert das Problem der Erklärbarkeit (Explainable AI, XAI) bei Bildklassifizierern. Bestehende Algorithmen basieren oft auf heuristischen Ansätzen (wie Saliency Maps oder Gradienten), die zwar visuell intuitiv, aber formal nicht rigoros sind. Auf der anderen Seite bieten logikbasierte Erklärungen (z. B. abduktive Erklärungen oder Prime Implicants) formale Garantien, sind jedoch stark von strengen Modellannahmen abhängig (z. B. Monotonie oder Linearität), die auf moderne neuronale Netze für Bilderkennung nicht zutreffen. Zudem sind logikbasierte Methoden oft nicht effizient berechenbar für Black-Box-Modelle.

Das Ziel der Autoren ist es, eine Erklärungsmethode zu entwickeln, die:

Formale Strenge und mathematische Rigorosität bietet (ähnlich wie logikbasierte Ansätze).
Als Black-Box-Algorithmus funktioniert (kein Zugriff auf Modellinterne, Gradienten oder Architektur nötig).
Effizient auf Bildklassifizierern anwendbar ist.
Konzepte wie Suffizienz, Notwendigkeit und Vollständigkeit (Complete) in Bezug auf die Konfidenz des Modells definiert.

2. Methodik und Definitionen

Die Autoren nutzen das Framework der tatsächlichen Kausalität (Actual Causality) nach Halpern und Pearl, um Erklärungen für Bildklassifizierer zu formalisieren.

Grundlegende Modellierung

Ein Bild $x$ und ein Klassifizierer $N$ werden in ein binäres kausales Modell $M_{N,x}$ überführt:

Variablen: Ein Vektor $\vec{V}$ repräsentiert die Pixel des Bildes (1 = Pixel sichtbar/original, 0 = Pixel maskiert/verdeckt). Eine Ausgabevariable $O$ gibt an, ob die Klassifizierung des teilweise maskierten Bildes mit der des Originalbildes übereinstimmt.
Interventionen: Das Setzen von Variablen auf 0 entspricht dem Maskieren von Pixeln.

Neue Definitionen von Erklärungen

Das Paper führt eine Hierarchie von Erklärungen ein, die über die einfache Suffizienz hinausgehen:

Suffiziente Erklärung (Sufficient Explanation): Eine minimale Teilmenge von Pixeln, die ausreicht, um die ursprüngliche Klassifizierung (Top-1) zu reproduzieren, wenn alle anderen Pixel maskiert sind.
Notwendige Erklärung (Necessary Explanation): Eine Teilmenge von Pixeln, die notwendig ist; wenn diese maskiert werden, ändert sich die Klassifizierung.
Vollständige Erklärung (Complete Explanation): Eine Teilmenge, die sowohl suffizient als auch notwendig ist. Das Entfernen dieser Pixel führt zu einer anderen Klassifizierung, und die Pixel allein reichen für die Klassifizierung aus.
$\delta$ -konfidente Erklärungen ( $\delta$ -confident): Erklärungen, die nicht nur die Klasse, sondern auch eine Mindestkonfidenz $\delta \cdot c$ (wobei $c$ die Konfidenz des Originalbildes ist) erreichen.
1-komplette Erklärungen (1-complete): Eine spezielle Form der vollständigen Erklärung, die exakt die gleiche Konfidenz wie das Originalbild erreicht.
Adjustment Pixels (Anpassungspixel): Pixel, die weder zur suffizienten noch zur notwendigen Menge gehören, aber hinzugefügt werden müssen, um die Konfidenz von einem $\delta$ -kompletten Zustand auf den exakten Originalwert (1-komplett) zu bringen.

Theoretische Äquivalenz

Die Autoren beweisen, dass kausale Erklärungen in diesem Setting formal äquivalent zu abduktiven Erklärungen (logikbasiert) sind, jedoch ohne die Annahme der Monotonie des Modells. Zudem zeigen sie, dass kausale Erklärungen Input-Invarianz besitzen (sie bleiben gleich, auch wenn die Eingabewerte durch äquivalente Transformationen verändert werden, solange die Ausgabe gleich bleibt).

Komplexität

Es wird bewiesen, dass das Berechnen exakter Erklärungen (MCSE, NE, SCCE, MCCE) co-NP-vollständig ist. Dies rechtfertigt den Einsatz von Approximationsalgorithmen.

3. Algorithmen

Aufgrund der theoretischen Härte des Problems entwickeln die Autoren effiziente Black-Box-Approximationsalgorithmen, die auf dem Tool ReX basieren:

Responsibility Ranking: Das Tool nutzt eine „Responsibility Map", um Pixel nach ihrem kausalen Einfluss auf die Klassifizierung zu sortieren.
Algorithmus 1 ( $\delta$ -complete): Ein gieriger (greedy) Ansatz, der Pixel basierend auf ihrer Verantwortung hinzufügt (für Suffizienz) oder entfernt (für Notwendigkeit), bis die Bedingungen für $\delta$ -Konfidenz erfüllt sind.
Algorithmus 2 (1-complete Discovery): Ein Verfahren, um die fehlenden „Adjustment Pixels" zu finden, die notwendig sind, um die Konfidenz der $\delta$ -kompletten Erklärung auf das Originalniveau zu heben.

Die Algorithmen benötigen keine Kenntnis der Modellarchitektur, keine Gradienten und keine internen Zustände.

4. Experimentelle Ergebnisse

Die Autoren implementierten ihre Methoden und testeten sie auf drei State-of-the-Art-Modellen (ResNet50, MobileNet, Swin Transformer) und drei Datensätzen (ImageNet-1K, PascalVOC, ECSSD).

Effizienz: Die Berechnung aller Erklärungstypen dauert im Durchschnitt ca. 6 Sekunden pro Bild auf einem ResNet50-Modell (auf einer A100 GPU). Swin Transformer ist mit ca. 16 Sekunden langsamer.
Modellunterschiede:
- ResNet50 benötigt die wenigsten Pixel für Suffizienz und Vollständigkeit und hat sehr wenige Adjustment Pixels.
- MobileNet und Swin Transformer benötigen deutlich mehr Pixel für Suffizienz.
- Die Modelle zeigen unterschiedliche Muster in der Art und Weise, wie sie Informationen für Suffizienz vs. Vollständigkeit nutzen.
Inverse Klassifizierung: Durch das Maskieren der vollständigen Pixel kann eine „inverse Klassifizierung" berechnet werden. Die Autoren analysierten die semantische Distanz zwischen der Originalklasse und der inversen Klasse im ImageNet-Hierarchiebaum. Oft ist die Distanz gering (z. B. verschiedene Affenarten), aber in manchen Fällen (z. B. Falschklassifikation als „Ochse" mit inverser Klasse „Moped") ist sie groß.
Vergleich mit anderen XAI-Tools:
- Die Autoren wendeten ihre Algorithmen auch auf die Ausgaben von Grad-CAM und LIME an (als Proxy für das Ranking).
- ReX fand im Allgemeinen die kleinsten suffizienten Erklärungen (ca. 4 % der Bildpixel).
- LIME war ähnlich gut, benötigte aber mehr Pixel (ca. 14 %).
- Grad-CAM zeigte ein sehr unvorhersehbares Verhalten, das stark von der Modellarchitektur abhing.
- Bei 1-kompletten Erklärungen waren die Unterschiede zwischen den Methoden geringer (alle benötigten ca. 53–59 % der Pixel).

5. Wichtige Beiträge und Signifikanz

Formale Rigorosität für Black-Box-Modelle: Das Paper überbrückt die Lücke zwischen formalen logikbasierten Erklärungen und praktischen Black-Box-Bildklassifizierern, indem es zeigt, dass kausale Erklärungen die gleichen formalen Eigenschaften besitzen, aber ohne restriktive Modellannahmen berechenbar sind.
Neue Taxonomie der Erklärungen: Die Einführung von $\delta$ -kompletten und 1-kompletten Erklärungen sowie der Konzept der Adjustment Pixels ermöglicht eine feinere Analyse des Entscheidungsprozesses. Es zeigt, welche Pixel für die Klassifizierung notwendig sind und welche nur zur Korrektur der Konfidenz dienen.
Inverse Klassifizierung: Die Fähigkeit, durch Maskieren der vollständigen Pixel die verbleibenden Daten zu klassifizieren, bietet neue Einblicke in die Robustheit und die „Grenzfälle" von Modellen.
Praktische Anwendbarkeit: Die Algorithmen sind effizient, vollständig black-box-fähig und in ein Open-Source-Tool (ReX) integriert.
Erkenntnis über Modellverhalten: Die Experimente zeigen, dass verschiedene Architekturen (ResNet vs. MobileNet vs. Swin) fundamental unterschiedliche Strategien zur Bildung von Suffizienz und Vollständigkeit verwenden, was für das Verständnis von Modellbias und -robustheit wichtig ist.

Zusammenfassend bietet das Paper einen theoretisch fundierten und praktisch anwendbaren Rahmen, um Bildklassifizierer nicht nur zu erklären, sondern ihre Entscheidungslogik in Bezug auf Notwendigkeit, Suffizienz und Konfidenz präzise zu quantifizieren.