DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen extrem klugen, aber manchmal etwas verwirrten Freund, der dir Bilder beschreibt. Er sieht ein Foto von einem Hund und sagt: „Da ist ein Hund." Aber wenn du fragst: „Warum sagst du das?", starrt er vielleicht auf den Hintergrund, auf eine Blume oder auf den Himmel, statt auf den Hund.

Das ist das Problem mit modernen KI-Modellen für Bilder und Sprache (sogenannte Vision-Language Models). Sie sind super gut darin, Bilder zu beschreiben, aber niemand weiß genau, welche Teile des Bildes sie eigentlich benutzen, um ihre Worte zu wählen.

Die Forscher aus diesem Papier haben eine neue Methode namens DEX-AR entwickelt, um genau das aufzudecken. Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Der „Wort-für-Wort"-Zaubertrick

Diese KIs schreiben Sätze nicht auf einmal, sondern Wort für Wort (wie ein Mensch, der spricht).

Wenn sie sagen: „Der Hund sitzt auf der Bank", schaut die KI beim Wort „Hund" vielleicht auf das Tier, aber beim Wort „sitzt" vielleicht auf den Boden und beim Wort „Bank" wieder auf das Tier.
Alte Methoden zur Erklärung waren wie ein starrer Suchscheinwerfer: Sie leuchteten das ganze Bild an, ohne zu unterscheiden, welches Wort gerade welche Information braucht. Das war oft verwirrend und zeigte Dinge an, die gar nicht wichtig waren (wie den Himmel, wenn es um einen Hund ging).

2. Die Lösung: DEX-AR – Der „Augen- und Ohren-Filter"

DEX-AR ist wie ein super-scharfer Detektiv, der jedem einzelnen Wort im Satz eine eigene Lupe verpasst.

Wie funktioniert es? (Die Analogie des Orchesters)
Stell dir vor, die KI ist ein riesiges Orchester mit vielen Musikern (den „Attention Heads").

Das Problem: Nicht jeder Musiker spielt das richtige Instrument für das aktuelle Wort. Manche spielen nur Hintergrundgeräusche (wie Grammatik-Wörter: „der", „die", „das"), andere spielen die eigentliche Melodie (die visuellen Details: „Hund", „rot", „schnell").
Die Innovation von DEX-AR:
1. Der Head-Filter (Der Dirigent): DEX-AR hört genau hin und filtert die Musiker aus, die nur „Lärm" machen (also nur auf Text schauen) und behält nur diejenigen, die wirklich auf das Bild schauen.
2. Der Token-Filter (Der Text-Editor): Wenn der Satz fertig ist, schaut DEX-AR zurück und sagt: „Okay, das Wort 'der' war nur Grammatik, das ignorieren wir. Aber das Wort 'Hund' war wichtig, das markieren wir!"

3. Das Ergebnis: Ein lebendiges Heatmap-Bild

Am Ende zeigt DEX-AR dir nicht nur ein statisches Bild, sondern eine dynamische Landkarte:

Wenn das Wort „Hund" geschrieben wird, leuchtet der Bereich mit dem Hund hell auf.
Wenn das Wort „sitzt" kommt, leuchtet vielleicht der Boden auf.
Wenn das Wort „und" kommt (ein Füllwort), leuchtet gar nichts auf, weil das Wort nichts mit dem Bild zu tun hat.

Das ist wie bei einem Magischen Fernglas, das sich automatisch auf das fokussiert, was gerade gesagt wird, und den Rest unscharf macht.

4. Warum ist das wichtig?

Vertrauen: Wir können sehen, ob die KI wirklich das Bild versteht oder ob sie nur ratet.
Fehler finden: Wenn die KI sagt „Das ist ein Hund", aber das Heatmap zeigt, dass sie eigentlich auf einen Stuhl geschaut hat, wissen wir sofort: „Aha, die KI ist verwirrt!"
Bessere KI: Mit diesem Wissen können wir die KIs trainieren, um sie robuster und ehrlicher zu machen.

Zusammenfassung in einem Satz

DEX-AR ist wie ein intelligenter Übersetzer, der nicht nur den Satz versteht, sondern dir genau zeigt, auf welchen Teil des Bildes die KI bei jedem einzelnen Wort geschaut hat, und dabei alle unnötigen Ablenkungen (wie Grammatik oder Hintergrund) herausfiltert.

Es macht die „Black Box" der KI durchsichtig und hilft uns zu verstehen, wie diese Maschinen wirklich denken.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision-Language Models (VLMs) wie LLaVA, PaliGemma oder GPT-4o haben sich als transformative KI-Systeme etabliert, die visuelle Eingaben in natürliche Sprache übersetzen. Trotz ihrer Leistungsfähigkeit bleibt ihre Entscheidungsfindung oft eine „Blackbox".

Das Hauptproblem liegt in der Anwendung bestehender Erklärbarkeitsmethoden (Explainability) auf autoregressive VLMs:

Fehlende Dynamik: Traditionelle Methoden (z. B. Grad-CAM, Attention Rollout) wurden für Klassifizierungsaufgaben mit festen Ausgaben entwickelt. Sie können die dynamische, token-für-token Generierung autoregressiver Modelle nicht adäquat abbilden.
Komplexe Interaktion: In VLMs interagieren visuelle und textuelle Modalitäten über viele Schichten hinweg. Herkömmliche Ansätze unterscheiden oft nicht zwischen Tokens, die auf visuellen Inhalten basieren (z. B. „Hund"), und rein linguistischen Füllwörtern (z. B. „der", „ist").
Unvollständige Interpretation: Die direkte Übertragung alter Methoden führt zu ungenauen oder irreführenden Heatmaps, da sie die unterschiedliche Wichtigkeit von Schichten und generierten Tokens sowie den sequenziellen Kontext ignorieren.

2. Methodik: DEX-AR

Die Autoren stellen DEX-AR (Dynamic Explainability for AutoRegressive models) vor, eine neue Methode, die speziell für die Token-für-Token-Generierung in VLMs entwickelt wurde. Der Kernansatz basiert auf der Berechnung von Gradienten bezüglich der Aufmerksamkeitskarten (Attention Maps).

Der Prozess gliedert sich in folgende Schritte:

A. Token-Level Erklärbarkeit (Per-Token Heatmaps)

Anstatt nur die finale Ausgabe zu betrachten, analysiert DEX-AR jeden Generierungsschritt $t$ :

Logit-Lens-Ansatz: Für jeden generierten Token wird der Logit-Wert nicht nur aus der letzten Schicht, sondern aus den intermediären Schichten $l$ des Transformers berechnet. Dies ermöglicht eine tiefenabhängige Analyse des Informationsflusses.
Gradientenberechnung: Es werden die Gradienten des Logits $\hat{o}_{l,t}$ bezüglich der Aufmerksamkeitskarten $A_{l,t}$ berechnet.
Fokus auf visuelle Tokens: Da das Ziel ist, den Einfluss des Bildes zu verstehen, werden nur die Gradienten extrahiert, die sich auf die visuellen Tokens (die ersten $N$ Tokens der Sequenz) beziehen.

B. Dynamische Filtermechanismen

DEX-AR führt zwei innovative Filtermechanismen ein, um Rauschen zu reduzieren und die Relevanz zu erhöhen:

Dynamisches Head-Filtering (Kopf-Filterung):
- Nicht alle Attention-Heads konzentrieren sich auf visuelle Informationen; einige verarbeiten rein textuelle Kontexte.
- DEX-AR berechnet für jeden Head $i$ in jeder Schicht $l$ die maximale Gradientenstärke für visuelle Tokens ( $S^{img}$ ) im Vergleich zu textuellen Tokens ( $S^{text}$ ).
- Ein Gewichtungsfaktor $w_{l,t,i} = (S^{img} - S^{text})^+$ (ReLU-Funktion) wird angewendet. Nur Heads, die stärker auf das Bild als auf den Text reagieren, tragen zur Heatmap bei. Dies vermeidet die Verwässerung durch irrelevante Heads.
Sequenz-Level-Filterung (Token-Filterung):
- Während der Generierung eines Satzes sind nicht alle Tokens visuell relevant.
- DEX-AR berechnet ein Token-spezifisches Gewicht $\delta_t$ , das die maximale visuelle Sensitivität über alle Schichten und Heads mit der textuellen Sensitivität vergleicht.
- Tokens, die primär durch linguistische Priors (Füllwörter) bestimmt werden, erhalten ein Gewicht nahe Null und werden in der aggregierten Heatmap unterdrückt.

C. Aggregation

Die finalen 2D-Heatmaps werden durch gewichtete Summation der per-Token-Beiträge über alle Schichten, Heads und generierten Tokens erzeugt. Dies ermöglicht sowohl eine granulare Betrachtung pro Wort als auch eine zusammengefasste Sicht auf den gesamten Satz.

3. Schlüsselbeiträge

Spezifische Methode für autoregressive VLMs: DEX-AR ist die erste Methode, die Gradienten bezüglich der Aufmerksamkeitskarten nutzt, um die dynamische Token-Generierung in VLMs zu erklären, anstatt statische Klassifizierungsansätze zu verwenden.
Dual-Filtering-Mechanismus: Die Kombination aus dynamischer Kopf-Filterung (Schicht/Head-Ebene) und Token-Filterung (Sequenzebene) verbessert das Signal-zu-Rausch-Verhältnis drastisch, indem sie visuelle von linguistischen Informationen trennt.
Neues Evaluierungs-Setup: Die Autoren stellen neue Metriken und Datensätze vor, um Erklärbarkeitsmethoden für generative Modelle zu bewerten, darunter eine normalisierte Perplexity-Metrik und den PascalVOC-QA-Datensatz mit expliziten Annotationen für Füllwörter.

4. Ergebnisse

Die Evaluation erfolgte auf mehreren Datensätzen (ImageNet, VQAv2, PascalVOC) und mit verschiedenen State-of-the-Art-Modellen (LLaVA-1.5, BakLLaVA, PaliGemma, Florence-2).

Perturbations-basierte Metriken: DEX-AR übertrifft etablierte Baselines (wie Grad-CAM, Attention Rollout, Integrated Gradients) konsistent. Auf ImageNet und VQAv2 zeigt DEX-AR signifikant höhere AUC-Werte (Area Under the Curve) bei der Perplexity-Messung. Das bedeutet: Wenn die von DEX-AR als wichtig identifizierten Bildbereiche entfernt werden, bricht die Modellleistung stärker ein als bei anderen Methoden.
Segmentations-basierte Metriken: Auf PascalVOC erreichte DEX-AR bei IoU (Intersection over Union) und Soft-IoU deutlich bessere Werte als alle Vergleichsmethoden (z. B. 36,34% IoU bei LLaVA-1.5 vs. 28,90% für Grad-CAM).
Filterungseffektivität: Die Ablationsstudien zeigen, dass das Dual-Filtering das Signal-zu-Rausch-Verhältnis (SNR) auf dem PascalVOC-QA-Datensatz von 9,16 auf 96,12 steigert. Dies beweist, dass Füllwörter effektiv unterdrückt werden.
Robustheit: DEX-AR ist robust gegenüber Bildkorruptionen (ImageNet-C) und Artefakten wie „Registers" in Vision-Transformern, die andere Methoden oft falsch als salient identifizieren.

5. Bedeutung und Fazit

DEX-AR adressiert eine kritische Lücke im Bereich der KI-Interpretierbarkeit. Während VLMs zunehmend in sicherheitskritischen Bereichen (z. B. autonome Systeme) eingesetzt werden, ist es essenziell zu verstehen, warum ein Modell ein bestimmtes Wort generiert.

Vertrauenswürdigkeit: Durch die genaue Lokalisierung visueller Bezüge hilft DEX-AR, Halluzinationen und Fehlschlüsse in VLMs zu erkennen.
Modellagnostisch: Die Methode funktioniert unabhängig von der spezifischen Architektur (Decoder-only, Encoder-Decoder), da sie auf dem Gradienten der Aufmerksamkeitsmechanismen basiert, die in allen Transformer-Architekturen vorhanden sind.
Zukunftsfähigkeit: Die Einführung einer normalisierten Perplexity als Evaluierungsmetrik bietet einen neuen Standard für die Bewertung von Erklärbarkeitsmethoden in generativen multimodalen Modellen.

Zusammenfassend bietet DEX-AR einen präzisen, dynamischen und robusten Rahmen, um die Entscheidungsfindung moderner Vision-Language-Modelle zu entschlüsseln und damit deren Zuverlässigkeit und Transparenz zu erhöhen.