DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

Dit paper introduceert DEX-AR, een nieuwe dynamische uitlegbare methode die autoregressieve Vision-Language-modellen interpreteert door per-token en sequentie-niveau warmtekaarten te genereren die visuele en linguïstische tokens onderscheiden, wat leidt tot verbeterde prestaties op diverse benchmarks.

Walid Bousselham, Angie Boggust, Hendrik Strobelt, Hilde Kuehne

Gepubliceerd 2026-03-09
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een heel slimme robot hebt die naar foto's kijkt en er vervolgens verhalen over vertelt. Dit zijn de zogenaamde Vision-Language Models (VLM's). Ze zijn geweldig, maar ze werken als een "black box": je ziet wat erin gaat (de foto) en wat eruit komt (de tekst), maar je weet niet precies waarom ze op dat moment dat specifieke woord kozen.

Deze paper introduceert DEX-AR, een nieuwe manier om deze robot uit te leggen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De Robot die "Goochelend" Tekst Produceert

Stel je voor dat de robot een verhaal schrijft, woord voor woord.

  • Bij het woord "hond" kijkt hij misschien intens naar de hond op de foto.
  • Bij het woord "is" (een werkwoord) kijkt hij misschien niet naar de foto, maar gewoon naar wat hij net heeft geschreven, omdat "is" grammaticaal nodig is.
  • Bij het woord "op" kijkt hij weer naar de achtergrond.

Oude methoden om te kijken waar de robot naar kijkt, waren als een statische foto: ze keken naar het hele verhaal en probeerden één grote vlek op de foto te tekenen. Dat werkt niet goed, omdat de robot tijdens het schrijven van het verhaal steeds van richting verandert. Het is alsof je probeert te begrijpen hoe een danser beweegt door alleen naar de start- en eindpositie te kijken.

2. De Oplossing: DEX-AR (De "Live-Camera" voor de Robot)

DEX-AR is als een live-camera die meedraait met elke stap die de robot zet. In plaats van één grote vlek, maakt het een film van de aandacht van de robot.

Het werkt in drie simpele stappen:

Stap A: De "Logit Lens" (De Voorspeller)

Stel je voor dat de robot een enorme bibliotheek heeft met alle mogelijke woorden. Op elk moment dat hij een nieuw woord moet kiezen, kijkt hij door een speciale lens (de Logit Lens) om te zien: "Als ik nu zou stoppen, welk woord zou ik het meest waarschijnlijk kiezen?"
DEX-AR kijkt niet alleen naar het eindresultaat, maar naar dit voorspellingsmoment op elk klein stukje van het pad.

Stap B: De "Scheidingstafel" (Dynamische Filtering)

Hier wordt het slim. Niet alle onderdelen van de robot zijn even belangrijk voor het zien van de foto.

  • De "Visuele Hoofden": Sommige delen van de robot kijken echt naar de foto (bijv. de kleur van de hond).
  • De "Grammatica-Hoofden": Andere delen kijken alleen naar de taalregels (bijv. waar moet een punt komen?).

DEX-AR heeft een slimme filter die zegt: "Stop met kijken naar de grammatica-delen, die zijn saai voor de foto. Kijk alleen naar de delen die echt naar de hond kijken."
Dit is als een detective die door een menigte loopt en alleen de mensen ziet die naar de dader wijzen, en de mensen negeert die gewoon praten over het weer.

Stap C: Het "Woord-Filter" (Geen Rommel)

Soms zegt de robot: "Ik zie een hond."

  • "Ik" en "zie" zijn vaak alleen maar grammaticaal vulling (filler words).
  • "Hond" is het echte visuele woord.

DEX-AR herkent dit. Het maakt een kaartje voor elk woord apart. Voor "hond" ziet je een heldere vlek op de hond. Voor "ik" is de kaartje leeg, want dat woord heeft niets met de foto te maken. Uiteindelijk plakt hij deze kaartjes aan elkaar tot één helder beeld.

3. Waarom is dit geweldig? (De Analoge Vergelijking)

Stel je voor dat je een schilderij bekijkt en je wilt weten welk penseelstreekje het belangrijkst was voor het eindresultaat.

  • Oude methode: Ze nemen een foto van het hele schilderij en zeggen: "Hier is de belangrijkste plek," en kleuren een groot deel rood. Vaak is dat onnauwkeurig.
  • DEX-AR: Het kijkt naar elke penseelstreek die de kunstenaar maakte.
    • Als de kunstenaar een lijn trok voor de lucht, zegt DEX-AR: "Kijk naar de lucht."
    • Als hij een lijn trok voor de boom, zegt DEX-AR: "Kijk naar de boom."
    • Als hij een lijn trok alleen om de compositie te balanceren (geen echte inhoud), zegt DEX-AR: "Negeer dit, dit is niet belangrijk."

4. Wat hebben ze bewezen?

De auteurs hebben dit getest op verschillende robots (modellen) en datasets. Ze hebben laten zien dat:

  1. Het sneller is: Het kost minder tijd dan andere methoden.
  2. Het nauwkeuriger is: Als ze de delen van de foto "wegvegen" die DEX-AR als belangrijk heeft gemarkeerd, raakt de robot volledig in de war en kan hij de tekst niet meer maken. Als ze de "onbelangrijke" delen wegvegen, maakt de robot zich er niets van.
  3. Het rommel weghaalt: Het filtert woorden uit die niets met de foto te maken hebben, waardoor de uitleg veel duidelijker is.

Conclusie

DEX-AR is als een tolk die niet alleen vertaalt wat de robot zegt, maar ook uitlegt waarom hij dat zegt. Het helpt ons te begrijpen of de robot echt naar de foto kijkt, of dat hij gewoon raadt. Dit is cruciaal als we deze robots willen gebruiken in belangrijke situaties, zoals bij medische diagnoses of zelfrijdende auto's, waar we moeten weten of ze de juiste dingen zien.