DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een heel slimme robot hebt die naar foto's kijkt en er vervolgens verhalen over vertelt. Dit zijn de zogenaamde Vision-Language Models (VLM's). Ze zijn geweldig, maar ze werken als een "black box": je ziet wat erin gaat (de foto) en wat eruit komt (de tekst), maar je weet niet precies waarom ze op dat moment dat specifieke woord kozen.

Deze paper introduceert DEX-AR, een nieuwe manier om deze robot uit te leggen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De Robot die "Goochelend" Tekst Produceert

Stel je voor dat de robot een verhaal schrijft, woord voor woord.

Bij het woord "hond" kijkt hij misschien intens naar de hond op de foto.
Bij het woord "is" (een werkwoord) kijkt hij misschien niet naar de foto, maar gewoon naar wat hij net heeft geschreven, omdat "is" grammaticaal nodig is.
Bij het woord "op" kijkt hij weer naar de achtergrond.

Oude methoden om te kijken waar de robot naar kijkt, waren als een statische foto: ze keken naar het hele verhaal en probeerden één grote vlek op de foto te tekenen. Dat werkt niet goed, omdat de robot tijdens het schrijven van het verhaal steeds van richting verandert. Het is alsof je probeert te begrijpen hoe een danser beweegt door alleen naar de start- en eindpositie te kijken.

2. De Oplossing: DEX-AR (De "Live-Camera" voor de Robot)

DEX-AR is als een live-camera die meedraait met elke stap die de robot zet. In plaats van één grote vlek, maakt het een film van de aandacht van de robot.

Het werkt in drie simpele stappen:

Stap A: De "Logit Lens" (De Voorspeller)

Stel je voor dat de robot een enorme bibliotheek heeft met alle mogelijke woorden. Op elk moment dat hij een nieuw woord moet kiezen, kijkt hij door een speciale lens (de Logit Lens) om te zien: "Als ik nu zou stoppen, welk woord zou ik het meest waarschijnlijk kiezen?"
DEX-AR kijkt niet alleen naar het eindresultaat, maar naar dit voorspellingsmoment op elk klein stukje van het pad.

Stap B: De "Scheidingstafel" (Dynamische Filtering)

Hier wordt het slim. Niet alle onderdelen van de robot zijn even belangrijk voor het zien van de foto.

De "Visuele Hoofden": Sommige delen van de robot kijken echt naar de foto (bijv. de kleur van de hond).
De "Grammatica-Hoofden": Andere delen kijken alleen naar de taalregels (bijv. waar moet een punt komen?).

DEX-AR heeft een slimme filter die zegt: "Stop met kijken naar de grammatica-delen, die zijn saai voor de foto. Kijk alleen naar de delen die echt naar de hond kijken."
Dit is als een detective die door een menigte loopt en alleen de mensen ziet die naar de dader wijzen, en de mensen negeert die gewoon praten over het weer.

Stap C: Het "Woord-Filter" (Geen Rommel)

Soms zegt de robot: "Ik zie een hond."

"Ik" en "zie" zijn vaak alleen maar grammaticaal vulling (filler words).
"Hond" is het echte visuele woord.

DEX-AR herkent dit. Het maakt een kaartje voor elk woord apart. Voor "hond" ziet je een heldere vlek op de hond. Voor "ik" is de kaartje leeg, want dat woord heeft niets met de foto te maken. Uiteindelijk plakt hij deze kaartjes aan elkaar tot één helder beeld.

3. Waarom is dit geweldig? (De Analoge Vergelijking)

Stel je voor dat je een schilderij bekijkt en je wilt weten welk penseelstreekje het belangrijkst was voor het eindresultaat.

Oude methode: Ze nemen een foto van het hele schilderij en zeggen: "Hier is de belangrijkste plek," en kleuren een groot deel rood. Vaak is dat onnauwkeurig.
DEX-AR: Het kijkt naar elke penseelstreek die de kunstenaar maakte.
- Als de kunstenaar een lijn trok voor de lucht, zegt DEX-AR: "Kijk naar de lucht."
- Als hij een lijn trok voor de boom, zegt DEX-AR: "Kijk naar de boom."
- Als hij een lijn trok alleen om de compositie te balanceren (geen echte inhoud), zegt DEX-AR: "Negeer dit, dit is niet belangrijk."

4. Wat hebben ze bewezen?

De auteurs hebben dit getest op verschillende robots (modellen) en datasets. Ze hebben laten zien dat:

Het sneller is: Het kost minder tijd dan andere methoden.
Het nauwkeuriger is: Als ze de delen van de foto "wegvegen" die DEX-AR als belangrijk heeft gemarkeerd, raakt de robot volledig in de war en kan hij de tekst niet meer maken. Als ze de "onbelangrijke" delen wegvegen, maakt de robot zich er niets van.
Het rommel weghaalt: Het filtert woorden uit die niets met de foto te maken hebben, waardoor de uitleg veel duidelijker is.

Conclusie

DEX-AR is als een tolk die niet alleen vertaalt wat de robot zegt, maar ook uitlegt waarom hij dat zegt. Het helpt ons te begrijpen of de robot echt naar de foto kijkt, of dat hij gewoon raadt. Dit is cruciaal als we deze robots willen gebruiken in belangrijke situaties, zoals bij medische diagnoses of zelfrijdende auto's, waar we moeten weten of ze de juiste dingen zien.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Vision-Language Models (VLMs), zoals LLaVA en PaliGemma, hebben zich ontwikkeld tot krachtige systemen die visuele informatie en natuurlijke taal combineren. Deze modellen genereren tekst token voor token (autoregressief) op basis van een afbeelding. Ondanks hun succes is het begrijpen van hun besluitvormingsproces een uitdaging.

Bestaande uitlegbaarheidsmethoden (explainability methods) hebben twee grote tekortkomingen bij toepassing op moderne autoregressieve VLMs:

Staticiteit vs. Dynamiek: Traditionele methoden (zoals Grad-CAM) zijn ontworpen voor classificatietaken met vaste outputs. Ze kunnen de dynamische aard van token-voor-token generatie niet vastleggen, waarbij elke gegenereerde token een unieke interactie heeft met specifieke delen van de afbeelding en de eerdere tekstcontext.
Onderscheid tussen visuele en linguïstische tokens: Bestaande methoden behandelen alle gegenereerde woorden gelijk. Ze onderscheiden niet tussen tokens die direct verwijzen naar visuele inhoud (bijv. "hond", "rood") en tokens die puur linguïstische of grammaticale functies hebben (bijv. "de", "is", "een"). Het mengen van deze tokens leidt tot onnauwkeurige en verduisterde uitlegkaarten (heatmaps).

Methodologie: DEX-AR

DEX-AR (Dynamic Explainability for AutoRegressive models) is een nieuwe methode die specifiek is ontworpen om deze uitdagingen aan te pakken. De kern van de methode ligt in het gebruik van layer-wise gradients ten opzichte van attentiekaarten tijdens het generatieproces.

De methode bestaat uit drie hoofdstappen:

Token-specifieke Gradiëntberekening:
- Voor elke gegenereerde token $t$ berekent DEX-AR de gradiënt van de logit (de voorspelling van dat token) ten opzichte van de attentiekaarten in elke laag van het Transformer-model.
- In plaats van alleen naar de laatste laag te kijken, worden tussenliggende lagen geanalyseerd (gebaseerd op de "Logit Lens" aanpak). Dit onthult hoe visuele informatie door het netwerk stroomt.
- De focus ligt op de gradiënten die de interactie tussen het laatst gegenereerde token en de visuele tokens beschrijven.
Dynamische Head-Filtering (Kop-filtering):
- Niet alle attentie-koppen (attention heads) in een Transformer zijn even relevant voor visuele informatie; sommige focussen puur op tekst.
- DEX-AR introduceert een mechanisme dat voor elke kop en laag de maximale gradiëntgrootte vergelijkt tussen visuele tokens en tekstuele tokens.
- Alleen koppen met een significant hogere gradiënt voor visuele tokens krijgen een gewicht. Dit wordt berekend met een ReLU-functie: $w = \max(0, S_{img} - S_{text})$ . Dit filtert ruis weg en focust op de koppen die daadwerkelijk naar de afbeelding kijken.
Token-level Filtering (Filler-word filtering):
- Zelfs binnen de gegenereerde zin zijn niet alle woorden visueel relevant.
- DEX-AR berekent voor elke gegenereerde token een wegingsfactor ( $\delta_t$ ) door de maximale visuele sensitiviteit te vergelijken met de tekstuele sensitiviteit over alle lagen en koppen heen.
- Tokens die voornamelijk door linguïstische context worden gedreven (filler words) krijgen een lage of nul weging, terwijl visueel gebaseerde tokens zwaar wegen.
- De uiteindelijke heatmap voor de hele zin is een geaggregeerde som van de per-token heatmaps, gewogen door deze $\delta_t$ -factoren.

Belangrijkste Bijdragen

Specifieke Architectuur voor Autoregressieve Modellen: DEX-AR is de eerste methode die expliciet de token-voor-token dynamiek en de variabele belangstelling van lagen en tokens in VLMs adresseert.
Dual-Filtering Mechanisme: De introductie van een dubbel filteringsysteem (dynamische kop-selectie en token-selectie) die visueel gebaseerde inhoud onderscheidt van linguïstische ruis.
Nieuwe Evaluatie-Setup:
- Perplexity-maatstaf: In plaats van traditionele classificatiemetrics, gebruiken de auteurs een genormaliseerde perplexity-maatstaf bij perturbatie-experimenten (het verstoren van pixels) om te meten hoe de zekerheid van het model afneemt.
- PascalVOC-QA: Een nieuw dataset dat is geconstrueerd met gecontroleerde antwoorden waarin "filler words" en visuele tokens expliciet zijn gelabeld, wat kwantitatieve evaluatie van de filtering mogelijk maakt.

Resultaten

De auteurs hebben DEX-AR getest op diverse state-of-the-art VLM-architecturen (LLaVA-1.5, BakLLaVA, PaliGemma, Florence-2) en datasets (ImageNet, VQAv2, PascalVOC).

Perturbatie-experimenten: DEX-AR presteerde consistent beter dan bestaande methoden (zoals GradCAM, RISE, CheferCAM, en TAM). Bij het verwijderen van de door DEX-AR geïdentificeerde belangrijke pixels steeg de perplexity (onzekerheid) van het model sterker dan bij andere methoden, wat aantoont dat DEX-AR de werkelijk cruciale visuele gebieden beter identificeert.
Segmentatie (Locatie): Op de PascalVOC-dataset (objectsegmentatie) behaalde DEX-AR aanzienlijk hogere scores voor Intersection over Union (IoU) en Soft-IoU. Bijvoorbeeld, op LLaVA-1.5 verbeterde de IoU van ~28% (GradCAM) naar 36,34% (DEX-AR).
Filtering Effectiviteit: De ablatiestudies tonen aan dat het combineren van head-filtering en filler-word filtering de "Signal-to-Noise Ratio" (SNR) drastisch verbetert (van 9,16 naar 96,12 op PascalVOC-QA). Dit bewijst dat de methode succesvol linguïstische ruis verwijdert.
Robuustheid: DEX-AR is minder gevoelig voor artefacten zoals "registers" in Vision Transformers (tokens in lege achtergronden die hoge attentiewaarden hebben maar geen semantische waarde) en presteert goed onder verschillende beeldcorrupties (ruis, wazigheid).

Betekenis en Impact

DEX-AR biedt een fundamentele verbetering in het begrijpen van hoe multimodale AI-modellen redeneren.

Betrouwbaarheid: Door te kunnen zien welke delen van een afbeelding welke woorden beïnvloeden, kunnen ontwikkelaars en gebruikers beter vertrouwen op de beslissingen van het model, wat essentieel is voor toepassingen in hoog-risico domeinen (zoals autonoom rijden of medische diagnose).
Debugging: De methode helpt bij het opsporen van "hallucinaties" of spurious correlations (bijv. een model dat een boot herkent op basis van water in plaats van de boot zelf), zoals geïllustreerd in de kwalitatieve analyse van foutgevallen.
Toekomstige Richting: Het paper legt de basis voor een nieuw paradigma in uitlegbaarheid dat niet statisch is, maar meebeweegt met de dynamische generatieprocessen van moderne LLMs en VLMs.

Kortom, DEX-AR vult een kritieke lacune in de literatuur door een methode te bieden die de complexe, sequentiële aard van visuele taalmodellen eerbiedigt en vertaalt naar nauwkeurige, interpreteerbare visuele uitleg.

DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

1. Het Probleem: De Robot die "Goochelend" Tekst Produceert

2. De Oplossing: DEX-AR (De "Live-Camera" voor de Robot)

Stap A: De "Logit Lens" (De Voorspeller)

Stap B: De "Scheidingstafel" (Dynamische Filtering)

Stap C: Het "Woord-Filter" (Geen Rommel)

3. Waarom is dit geweldig? (De Analoge Vergelijking)

4. Wat hebben ze bewezen?

Conclusie

Probleemstelling

Methodologie: DEX-AR

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

AgenticGEO: A Self-Evolving Agentic System for Generative Engine Optimization

ProMAS: Proactive Error Forecasting for Multi-Agent Systems Using Markov Transition Dynamics

Domain-Specialized Tree of Thought through Plug-and-Play Predictors

FactorSmith: Agentic Simulation Generation via Markov Decision Process Decomposition with Planner-Designer-Critic Refinement

Me, Myself, and π\piπ : Evaluating and Explaining LLM Introspection

Me, Myself, and $\pi$ : Evaluating and Explaining LLM Introspection