Uncertainty-Aware Subset Selection for Robust Visual Explainability under Distribution Shifts

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber manchmal etwas nervösen KI-Assistenten. Dieser Assistent ist darin trainiert, Bilder zu erkennen – zum Beispiel Vögel auf Fotos. Wenn er ein Foto eines Vogels aus seiner Trainingswelt sieht, zeigt er dir mit dem Finger genau auf den Schnabel und die Federn und sagt: „Ah, das ist ein Sperling! Hier sind die Merkmale!" Das funktioniert super.

Aber was passiert, wenn du ihm ein Foto eines Vogels zeigst, den er noch nie gesehen hat, oder ein Foto, das durch einen Filter verzerrt wurde? Hier wird es problematisch. Der Assistent wird unsicher. Anstatt ruhig auf den Schnabel zu zeigen, fängt er an, wild umherzuzeigen, auf den Hintergrund zu starren oder sogar auf Teile des Bildes, die gar nichts mit dem Vogel zu tun haben. Er wird „verwirrt" und seine Erklärung ist nicht mehr vertrauenswürdig.

Genau dieses Problem lösen die Autoren dieses Papers. Sie haben eine Methode entwickelt, die dem KI-Assistenten hilft, auch in fremden Situationen (den sogenannten „Out-of-Distribution"-Szenarien) ruhig und präzise zu bleiben.

Hier ist die Erklärung der Idee, ganz einfach und mit ein paar bildhaften Vergleichen:

1. Das Problem: Der Assistent verliert den Boden unter den Füßen

Bisherige Methoden, um KI-Entscheidungen zu erklären, funktionieren wie ein Fotograf, der nur bei perfektem Sonnenlicht gute Bilder macht. Sobald das Licht sich ändert (z. B. bei Regen oder Nebel = Datenverschiebung), wird das Bild unscharf und verrauscht. Die KI zeigt dann auf irrelevante Dinge, weil sie nicht weiß, wie sie sich verhalten soll, wenn die Welt anders aussieht als in ihrem Trainingsbuch.

2. Die Lösung: Ein „Zitter-Test" für die KI

Die Forscher haben eine clevere Idee: Bevor die KI erklärt, warum sie etwas sieht, testen sie, wie stabil ihre Meinung ist.

Stell dir vor, du fragst einen Experten: „Ist das ein Vogel?"

Der alte Weg: Der Experte schaut einmal hin und sagt sofort „Ja!".
Der neue Weg (Unsicherheit-Test): Die Forscher sagen dem Experten: „Okay, stell dir vor, dein Wissen ist leicht wackelig. Was, wenn du einen Moment lang einen kleinen Schwindel hättest? Würdest du dann immer noch sagen, es ist ein Vogel?"

Technisch gesehen tun sie genau das: Sie fügen dem Gehirn der KI winzige, zufällige „Störungen" (Rauschen) hinzu, als würde man ihr Gehirn leicht schütteln.

Wenn die KI sicher ist (z. B. bei einem klaren Vogelbild), bleibt ihre Antwort auch beim Schütteln stabil. Sie zeigt ruhig auf den Schnabel.
Wenn die KI unsicher ist (z. B. bei einem verwackelten Bild oder einem unbekannten Tier), fängt sie an zu zittern. Ihre Antwort ändert sich wild, und sie zeigt auf alles Mögliche.

3. Der „Wackel-Filter": Nur das Wichtige behalten

Jetzt kommt der geniale Trick. Die Forscher nutzen dieses „Wackeln", um eine Unsicherheits-Karte zu erstellen.

Bereiche des Bildes, bei denen die KI auch beim Schütteln ruhig bleibt, sind wichtig und vertrauenswürdig.
Bereiche, bei denen die KI wild hin und her springt, sind unzuverlässig.

Stell dir vor, du hast einen Haufen Sand, und du willst die besten Steine herausfiltern. Ein alter Filter würde einfach den ganzen Sand durchschütteln. Der neue Filter schüttelt aber nur den Sand, der schon wackelig ist, und lässt die festen Steine liegen.

Die KI nutzt diese Information, um ihre Erklärung zu verbessern. Sie sagt im Grunde: „Ich zeige dir nur die Teile des Bildes, bei denen ich auch dann noch sicher bin, wenn ich leicht verwirrt bin."

4. Das Ergebnis: Ein stabiler Kompass

Dank dieser Methode passiert Folgendes:

Im normalen Alltag (In-Distribution): Die Erklärung wird noch etwas präziser.
In fremden Situationen (Out-of-Distribution): Statt wild umherzuzeigen, konzentriert sich die KI wieder auf die wirklich wichtigen Merkmale. Sie ignoriert den „Lärm" im Hintergrund und bleibt fokussiert.

Zusammenfassend:
Die Autoren haben eine Art „Stabilitäts-Test" für KI-Modelle erfunden. Anstatt blind darauf zu vertrauen, was die KI sagt, prüfen sie, wie stark sie wackelt, wenn man sie leicht anstößt. Nur die Teile des Bildes, die auch beim Wackeln stabil bleiben, werden als Erklärung ausgewählt. Das macht KI-Entscheidungen nicht nur verständlicher, sondern auch viel sicherer, wenn sie in der echten, unperfekten Welt eingesetzt werden – sei es beim autonomen Fahren oder in der medizinischen Diagnose.

Es ist, als würde man einem Navigator nicht nur sagen „Geh dorthin", sondern ihn auch fragen: „Bist du dir sicher, dass du dorthin gehen kannst, auch wenn der Nebel aufzieht?" Wenn er zögert, sucht man einen besseren Weg.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Deep-Learning-Modelle für die visuelle Wahrnehmung werden zunehmend in sicherheitskritischen Bereichen (z. B. autonomes Fahren, medizinische Bildgebung) eingesetzt. Die Interpretierbarkeit dieser Modelle ist hierfür essenziell. Bestehende Methoden zur Visualisierung von Attributionen (z. B. Grad-CAM, Integrated Gradients) oder subset-basierte Ansätze (die die wichtigsten Bildregionen auswählen) funktionieren gut innerhalb der Trainingsverteilung (In-Distribution, ID).

Das Hauptproblem liegt jedoch bei Out-of-Distribution (OOD) Daten, also bei Eingaben, die von der Trainingsverteilung abweichen (durch Transformationen, verwandte Domänen oder komplementäre Klassen).

Beobachtung: Herkömmliche subset-basierte Erklärungsmodelle verlieren unter OOD-Bedingungen stark an Zuverlässigkeit.
Folgen: Die gewählten Bildregionen werden redundant, instabil und unsicherheits-sensitiv. Statt relevante Merkmale (z. B. Ohren und Schnurrhaare bei einer Katze) hervorzuheben, wählen sie oft irrelevante Hintergrundbereiche oder fragmentierte Patches aus.
Lücke: Es fehlt an Methoden, die die Unsicherheit des Modells berücksichtigen, um robuste Erklärungen auch bei Verteilungsverschiebungen zu gewährleisten, ohne dabei zusätzliche Modelle oder Nachtrainings zu benötigen.

2. Methodik

Die Autoren schlagen einen Rahmen vor, der submodulare Subset-Auswahl mit einer unsicherheitsbewussten, gradientenbasierten Schätzung kombiniert. Der Ansatz ist leichtgewichtig und benötigt keine zusätzlichen Trainingsdaten oder Unsicherheitsmodelle.

A. Gradientenbasierte Unsicherheitsschätzung (Core Component)

Anstatt auf Softmax-Wahrscheinlichkeiten zu vertrauen, die bei OOD-Daten oft unzuverlässig sind, nutzen die Autoren eine adaptive Störung der Gewichte:

Adaptive Gewichts-Störung: Während des Inferenzvorgangs werden die Gewichte $\theta_\ell$ jeder Schicht mit Gaußschem Rauschen $\epsilon_\ell$ gestört.
Kontextsensitive Skalierung: Die Stärke des Rauschens wird nicht einheitlich, sondern adaptiv basierend auf zwei Faktoren skaliert:
- Der statistischen Streuung der Gewichte in der jeweiligen Schicht ( $\sigma_\ell$ ).
- Der Abweichung der Eingabe von der Trainingsverteilung (gemessen als Distanz zum Zentroid der vorletzten Schicht).
- Ziel: Bei OOD-Eingaben wird die Störung verstärkt, um empfindliche Reaktionen zu provozieren; bei ID-Eingaben bleibt sie moderat, um Stabilität zu wahren.
Gradienten-Norm als Unsicherheitsmaß: Über mehrere stochastische Durchläufe ( $T$ ) werden die Gradientennormen der Aktivierungen berechnet. Hohe Gradientennormen unter Störung deuten auf hohe Sensitivität und damit auf Unsicherheit hin.
Mahalanobis-Distanz: Die aggregierten Gradienten-Deskriptoren werden über eine regularisierte Mahalanobis-Distanz zur Trainingsverteilung normalisiert, um einen finalen Unsicherheits-Score ( $u_i$ ) zu erhalten.

B. Unsicherheitsbewusste Submodulare Zielfunktionen

Die Auswahl der Bildregionen wird als Optimierungsproblem formuliert, bei dem eine submodulare Funktion maximiert wird. Die Autoren definieren zwei Zielfunktionen, die den neuen Unsicherheits-Score integrieren:

Für allgemeine visuelle Attribution ( $F_{attr}$ ): Basiert auf dem Framework von Chen et al. [4], ersetzt aber den ursprünglichen Konfidenz-Term durch den neuen Unsicherheits-Score. Die Funktion kombiniert:
- Effektivität: Vermeidung redundanter Regionen.
- Konsistenz: Semantische Ausrichtung mit der Zielklasse.
- Kollaboration: Synergie der Regionen.
- Konfidenz (neu): Bestrafung von Regionen mit hoher Unsicherheit.
Für objektbasierte Interpretation ( $F_{obj}$ ): Angelehnt an Visual Precision Search (VPS), integriert den Unsicherheits-Score in die „Clue"- und „Collaboration"-Scores, um stabile Objektgrenzen zu finden.

C. Optimierung

Die Auswahl der Subset-Regionen erfolgt durch einen greedy-Algorithmus. Da die Zielfunktionen monoton und submodular sind, garantiert dieser Ansatz eine Näherungslösung von mindestens $(1 - 1/e)$ der optimalen Lösung.

3. Wichtige Beiträge

Empirische Validierung der Schwachstellen: Die Arbeit zeigt umfassend, dass bestehende subset-basierte Methoden unter OOD-Bedingungen (transformiert, verwandt, komplementär) drastisch an Leistung verlieren (bis zu 40% Einbußen bei Insertion/Deletion-Scores).
Neues Framework: Entwicklung eines leichten, plug-and-play Ansatzes, der submodulare Optimierung mit adaptiver, gradientenbasierter Unsicherheitsschätzung verbindet.
Kein zusätzliches Training: Die Methode erfordert kein Nachtrainieren des Modells und keine zusätzlichen Ensemble-Modelle; sie nutzt nur den bereits feinabgestimmten Backbone.
Verbesserung in ID und OOD: Der Ansatz verbessert nicht nur die Robustheit bei OOD-Daten, sondern steigert auch die Genauigkeit (Fidelity) bei In-Distribution-Daten.

4. Ergebnisse

Die Evaluation erfolgte auf zwei Haupt-Szenarien: Feinabstimmung der Klassifizierung (CUB-Datensatz) und Objekterkennung (GroundingDINO auf COCO).

Datensätze: Es wurden ID-Datensätze (CUB, COCO) mit drei Arten von OOD-Daten verglichen:
- Verwandt (Related): NABirds, CIFAR-100.
- Komplementär (Complementary): Nicht-Tiere in CIFAR-100, iNaturalist.
- Transformiert (Transformed): Rauschen, Rotationen, Unschärfe.
Metriken: Insertion AUC (höher ist besser) und Deletion AUC (niedriger ist besser).
Quantitative Ergebnisse:
- Auf dem CUB-Datensatz (Klassifizierung) steigerte die Methode den Insertion-Score um bis zu +13,7% (bei SEEDS-Patches auf NABirds) und reduzierte gleichzeitig die Deletion-Scores.
- Auf dem COCO-Datensatz (Objekterkennung) zeigte sich eine dramatische Verbesserung bei OOD-Daten: Der Insertion-Score für CIFAR-100 (verwandt) verdoppelte sich teilweise (z. B. +80% bei SEEDS).
- Selbst bei transformierten Daten (z. B. COCO mit Unschärfe) wurden signifikante Steigerungen der Insertion-Scores (+100%+) erzielt.
Qualitative Ergebnisse: Visuelle Vergleiche zeigen, dass die vorgeschlagene Methode kompaktere und semantisch kohärentere Regionen auswählt (z. B. Fokus auf das Vogelgesicht statt Hintergrund), während Baseline-Methoden oft fragmentierte oder irrelevante Patches wählen.

5. Bedeutung und Fazit

Die Arbeit adressiert eine kritische Lücke in der interpretierbaren KI: Die mangelnde Robustheit von Erklärungen bei Verteilungsverschiebungen.

Transparenz: Durch die Integration von Unsicherheitsmaßen werden Erklärungen vertrauenswürdiger, da sie instabile oder irreführende Regionen unterdrücken.
Praktische Anwendbarkeit: Da keine zusätzlichen Trainingskosten anfallen, ist die Methode ideal für den Einsatz in realen Szenarien, in denen Datenverschiebungen unvermeidbar sind (z. B. medizinische Diagnostik mit neuen Geräten oder autonomes Fahren bei schlechtem Wetter).
Zukunftsperspektive: Die Ergebnisse legen nahe, dass Unsicherheits-getriebene Optimierung ein Schlüssel zur Entwicklung robusterer und transparenterer KI-Systeme ist, insbesondere für Anwendungen, die hohe Sicherheitsstandards erfordern.

Zusammenfassend demonstriert das Paper, dass die Kombination von submodularer Auswahl mit adaptiver Gradienten-Störung eine effektive und effiziente Strategie ist, um die Zuverlässigkeit visueller Erklärungen unter realen, veränderlichen Bedingungen zu sichern.

Uncertainty-Aware Subset Selection for Robust Visual Explainability under Distribution Shifts

1. Das Problem: Der Assistent verliert den Boden unter den Füßen

2. Die Lösung: Ein „Zitter-Test" für die KI

3. Der „Wackel-Filter": Nur das Wichtige behalten

4. Das Ergebnis: Ein stabiler Kompass

1. Problemstellung

2. Methodik

A. Gradientenbasierte Unsicherheitsschätzung (Core Component)

B. Unsicherheitsbewusste Submodulare Zielfunktionen

C. Optimierung

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Speculating Experts Accelerates Inference for Mixture-of-Experts

A Visualization for Comparative Analysis of Regression Models

Maximizing mutual information between user-contexts and responses improve LLM personalization with no additional data

BrainSCL: Subtype-Guided Contrastive Learning for Brain Disorder Diagnosis

TTQ: Activation-Aware Test-Time Quantization to Accelerate LLM Inference On The Fly