What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie schauen auf ein Foto und ein künstliches Intelligenz-System (ein sogenannter „Vision Transformer" oder ViT) sagt Ihnen: „Das ist ein Elefant!"

Bisher war das Problem: Niemand wusste wirklich, warum das System diese Entscheidung traf. Es war wie ein schwarzer Kasten. Die alten Methoden, die man benutzt hat, um hineinzuschauen, waren wie ein sehr einfaches Suchlicht: Sie leuchteten nur auf das, was das System positiv sah (den Elefanten), und ignorierten alles andere komplett.

Die Autoren Qin Su und Tie Luo haben eine neue Methode namens BiCAM entwickelt. Hier ist eine einfache Erklärung, wie das funktioniert, mit ein paar bildhaften Vergleichen:

1. Das Problem: Nur die „Ja"-Seite zu sehen

Stellen Sie sich vor, Sie versuchen, einen Freund zu beschreiben, den Sie gerade gesehen haben.

Die alten Methoden sagen nur: „Er trägt ein rotes Hemd und hat braune Haare." (Das ist die positive Information).
Aber sie sagen nicht: „Er trägt kein Kostüm, er ist kein Clown, und er steht nicht auf einem Fahrrad."

In der Welt der KI ist das ein Problem. Wenn das System einen Elefanten erkennt, ist es genauso wichtig zu wissen, dass es nicht an einem Zebra oder einem Busch gezweifelt hat. Die alten Methoden haben diese „Nein"-Signale (die suppressiven Signale) einfach weggeworfen, als wären sie Müll.

2. Die Lösung: BiCAM – Der zweifarbige Detektiv

BiCAM ist wie ein Detektiv, der zwei Farben verwendet, um zu erklären, was passiert:

Rot (Unterstützend): „Hier ist der Elefant! Das sind die Merkmale, die das System zum Schreien ‚Elefant!' bringen."
Blau (Unterdrückend): „Hier ist der Zebra im Hintergrund. Das System hat sich bewusst dagegen entschieden, das als Elefant zu bezeichnen."

Der Clou: BiCAM behält beide Farben bei. Es zeigt nicht nur, was das System gesehen hat, sondern auch, was es ausgeschlossen hat. Das gibt uns ein viel klareres, kontrastreicheres Bild davon, wie die KI denkt.

3. Wie es funktioniert (Der „Tiefen-Scan")

Stellen Sie sich das neuronale Netz als einen mehrstöckigen Gebäudekomplex vor.

Die unteren Etagen (frühe Schichten) sehen nur einfache Dinge: Kanten, Farben, Formen. Das ist oft nur Rauschen.
Die oberen Etagen (späte Schichten) verstehen die Bedeutung: „Das ist ein Elefantenrüssel, das ist ein Zebra."

Frühere Methoden haben versucht, alle Etagen zu durchsuchen und alles zu mischen. Das war wie ein lautes Gemurmel, bei dem man das Wichtigste nicht hören konnte.
BiCAM ist schlauer: Es ignoriert die unteren Etagen und konzentriert sich nur auf die oberen Etagen, wo die eigentliche Entscheidung getroffen wird. Es nimmt die Informationen dort, kombiniert sie und erstellt eine Karte, die zeigt: „Hier ist der Elefant (Rot), und hier ist das Zebra, das wir nicht meinen (Blau)."

4. Der „Trick": Die PNR-Metrik (Der Lügen-Test)

Das ist vielleicht der coolste Teil. Die Autoren haben eine einfache Zahl namens PNR (Positive-to-Negative Ratio) erfunden.

Bei einem normalen, sauberen Bild ist das Verhältnis zwischen Rot und Blau ausgeglichen und logisch (Rot auf dem Elefanten, Blau im Hintergrund).
Aber was passiert, wenn jemand das Bild manipuliert hat, um die KI zu täuschen (ein sogenanntes „adversarielles Beispiel")?
- Stellen Sie sich vor, jemand malt unsichtbare Tinte auf das Bild, die die KI verwirrt.
- Bei solchen gefälschten Bildern wird das Verhältnis von Rot zu Blau verrückt. Die KI wird verwirrt, und die „Nein"-Signale (Blau) werden chaotisch oder übertrieben stark.

Die Anwendung: Mit dieser einfachen Zahl (PNR) können die Forscher sofort erkennen: „Aha, dieses Bild sieht für die KI nicht natürlich aus!" Sie müssen die KI nicht neu trainieren, um Betrug zu erkennen. Es ist wie ein Metallspürhund, der sofort schnüffelt, wenn etwas nicht stimmt, ohne dass man ihm neue Befehle geben muss.

Zusammenfassung

Was es ist: Eine neue Art, KI-Entscheidungen zu erklären.
Was es anders macht: Es zeigt sowohl das „Ja" (Rot) als auch das „Nein" (Blau) der KI.
Warum es besser ist: Es ist schneller als alte Methoden, genauer beim Finden von Objekten und kann sogar erkennen, wenn jemand versucht, die KI zu täuschen.

Kurz gesagt: BiCAM macht die KI nicht nur intelligenter, sondern auch ehrlicher, indem es uns zeigt, woran sie glaubt und wovor sie sich entscheidet.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision Transformer (ViT) Modelle erzielen zwar State-of-the-Art-Ergebnisse in der visuellen Erkennung, doch ihre Entscheidungsfindung bleibt schwer interpretierbar („Black Box"). Bestehende Interpretierbarkeitsmethoden für ViTs leiden unter folgenden Mängeln:

Verlust negativer Signale: Die meisten CAM-basierten (Class Activation Mapping) und gradientenbasierten Methoden ignorieren oder verwerfen negative Attributionen (unterdrückende Signale). Sie konzentrieren sich nur auf positive Relevanz, was zu unvollständigen Erklärungen führt.
Über-Glättung: Attention-basierte Methoden (z. B. Attention Rollout) neigen dazu, Token-Unterschiede zu verwischen, wodurch die Unterscheidung zwischen relevanten und irrelevanten Bildbereichen verloren geht.
Hoher Rechenaufwand: Shapley-basierte Methoden sind extrem rechenintensiv und erfordern oft datasetspezifisches Training.
Fehlende Kontrastivität: Es fehlt an Methoden, die gleichzeitig erklären, warum ein Modell eine Klasse wählt (unterstützende Evidenz) und warum es andere Klassen ablehnt (unterdrückende Evidenz).

2. Methodik: BiCAM

Die Autoren stellen BiCAM (Bidirectional Class Activation Mapping) vor, eine Methode, die sowohl positive als auch negative Beiträge zur Modellvorhersage erfasst.

Kernkomponenten:

Strategische Schicht-Aggregation:
- Anstatt alle Schichten zu aggregieren, fokussiert BiCAM selektiv auf die tieferen Transformer-Schichten (die letzten $\ell$ Blöcke, wobei $\ell = 2L/3$ ).
- Begründung: Klassendiskriminierende Informationen konzentrieren sich in diesen tieferen Schichten, während frühere Schichten eher niedrigstufige Strukturinformationen enthalten, die als Rauschen wirken können.
- Dies vermeidet die Über-Glättung durch rekursive Multiplikation über alle Schichten hinweg.
Bidirektionale Attribution (Erhalt der Vorzeichen):
- Im Gegensatz zu herkömmlichen Methoden wird kein ReLU oder Clipping angewendet.
- Die Attribution wird berechnet durch die Kombination von:
  - Attention Maps ( $A$ ): Spezifisch die Attention vom [CLS]-Token zu den Patches.
  - Value Projections ( $V$ ): Die Merkmalsvektoren der Tokens.
  - Gradienten ( $\partial y_c / \partial o_{cls}$ ): Die Ableitung des Klassen-Scores bezüglich des [CLS]-Token-Embeddings.
- Die Formel für die Masken pro Schicht lautet: $mask^{(l)} = \sum_h (V_h^{(l)} \cdot w_c^{(l)}) \odot \alpha_h^{(l)}$ .
- Ergebnis: Positive Werte zeigen unterstützende Bereiche (z. B. das Objekt selbst), während negative Werte unterdrückende Bereiche anzeigen (z. B. Hintergrund oder konkurrierende Objekte). Dies ermöglicht kontrastive Erklärungen.
Positive-to-Negative Ratio (PNR):
- Ein neuer Metrik-Wert, der das Verhältnis von positiver zu negativer Attribution quantifiziert:
  $PNR = \frac{\sum \text{ReLU}(M_i)}{\sum \text{ReLU}(-M_i) + \epsilon}$
- Hypothese: Saubere Daten zeigen eine räumlich strukturierte Balance zwischen positiven und negativen Bereichen. Adversarial Examples (Gegenbeispiele) stören diese Balance, indem sie verstreute oder übertriebene Reaktionen erzeugen, was zu einem signifikanten Anstieg oder Abfall des PNR führt.

3. Hauptbeiträge

BiCAM: Eine effiziente Methode für ViTs, die in einem einzigen Forward-Backward-Pass sowohl unterstützende als auch unterdrückende Faktoren visualisiert. Sie funktioniert in Szenen mit einzelnen und mehreren Objekten.
PNR-Metrik: Ein einfacher, trainingsfreier Indikator zur Erkennung von Adversarial Attacks (z. B. PGD, C&W, MI-FGSM) basierend auf der Störung der bidirektionalen Attribution.
Strategische Aggregation: Ein bewährtes Design, das nur die relevanten tiefen Schichten nutzt, um Rauschen zu filtern und die Effizienz zu steigern.
Generalisierung: Die Methode lässt sich mit minimalen Änderungen auf verschiedene ViT-Architekturen anwenden (DeiT, Swin).

4. Ergebnisse und Evaluation

Die Evaluation erfolgte auf den Datensätzen ImageNet, VOC und COCO mit Modellen wie ViT-B/16, DeiT-B und Swin-B.

Lokalisierung (Localization):
- BiCAM erzielt auf ImageNet die höchsten IoU (0.5419), F1-Scores (0.6624) und Recall-Werte (0.9288) im Vergleich zu Baselines wie Attention Rollout, LRP-based CAM und AG-CAM.
- Auf VOC und COCO übertrifft BiCAM (Positiv-Kanal) alle Baselines. Der Negativ-Kanal zeigt, dass unterdrückende Bereiche semantisch sinnvolle konkurrierende Regionen erfassen, nicht nur Rauschen.
Vertrauenswürdigkeit (Faithfulness):
- Durch das Entfernen von Bildpatches (MIF/LIF-Experimente) zeigt BiCAM die beste Korrelation zwischen Attribution und Modellverhalten (höchste Faithfulness-Scores).
Adversarial Detection:
- Die PNR-Metrik erkennt Adversarial Attacks effektiv. Der Unterschied im PNR ( $\Delta PNR$ ) zwischen sauberen und angegriffenen Bildern ist signifikant.
- Die AUROC-Werte liegen bei ca. 0.79–0.84 für verschiedene Angriffe, ohne dass das Modell neu trainiert werden muss.
Effizienz:
- BiCAM ist 8,4-mal schneller als LRP-basierte Methoden und benötigt deutlich weniger GPU-Speicher, da keine Zwischenergebnisse aller Schichten gespeichert werden müssen. Es gibt keinen Trainings-Overhead.

5. Bedeutung und Fazit

Das Paper unterstreicht, dass die Modellierung sowohl von unterstützenden als auch von unterdrückenden Evidenzen für die Interpretation von Transformer-basierten Vision-Modellen entscheidend ist.

Interpretierbarkeit: BiCAM liefert vollständigere und kontrastivere Erklärungen, indem es zeigt, was das Modell nicht als Ziel erkennt.
Sicherheit: Die PNR-Metrik bietet einen leichten Weg, um Manipulationen (Adversarial Examples) zu erkennen, was für den Einsatz in hochriskanten Domänen wichtig ist.
Zukunft: Die Autoren schlagen vor, bidirektionale Attributionen auf multimodale Szenarien zu erweitern und unterdrückende Muster für architektonische Verbesserungen zu nutzen.

Zusammenfassend stellt BiCAM einen effizienten, präzisen und vielseitigen Ansatz dar, der die Lücke zwischen der Leistungsfähigkeit von ViTs und der Notwendigkeit nach transparenter, vertrauenswürdiger KI schließt.

What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers

1. Das Problem: Nur die „Ja"-Seite zu sehen

2. Die Lösung: BiCAM – Der zweifarbige Detektiv

3. Wie es funktioniert (Der „Tiefen-Scan")

4. Der „Trick": Die PNR-Metrik (Der Lügen-Test)

Zusammenfassung

1. Problemstellung

2. Methodik: BiCAM

Kernkomponenten:

3. Hauptbeiträge

4. Ergebnisse und Evaluation

5. Bedeutung und Fazit

Mehr davon

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach