Explainable AI: Context-Aware Layer-Wise Integrated Gradients for Explaining Transformer Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een Transformer-model (zoals de slimme AI's die we vandaag de dag gebruiken) een enorm, complex kasteel is. Dit kasteel heeft vele verdiepingen, elk met zijn eigen kamer, deur en mechanisme. Wanneer de AI een beslissing neemt (bijvoorbeeld: "Is dit een positieve of negatieve filmreview?"), reist de informatie door al deze verdiepingen heen.

Het probleem is: voor de buitenwereld is dit kasteel een zwart doos. We zien alleen wat erin gaat (de tekst) en wat eruit komt (het antwoord), maar we weten niet hoe de AI tot dat antwoord kwam. Bestaande methoden om dit te verklaren, kijken vaak alleen naar de laatste verdieping of kijken alleen naar wie naar wie "luistert" (de aandacht), maar missen het grote geheel.

De auteurs van dit paper hebben een nieuwe sleutel ontwikkeld, genaamd CA-LIG. Hier is een uitleg in simpele taal, met behulp van analogieën:

1. Het Probleem: De "Laatste Verdieping" Valstrik

Stel je voor dat je een detective bent die een misdaad moet oplossen.

Bestaande methoden kijken alleen naar de getuigenverklaring van de persoon die op het moment van de arrestatie sprak (de laatste verdieping). Ze missen hoe het verhaal zich in de loop van de tijd heeft ontwikkeld.
Andere methoden kijken alleen naar wie naar wie kijkt in de kamer (de "aandacht"), maar vergeten dat de woorden zelf ook betekenis hebben.

Dit leidt tot onduidelijke of zelfs verkeerde verklaringen. Waarom? Omdat de AI in de eerste verdiepingen misschien alleen grammatica analyseert, in de middelste verdiepingen de betekenis van zinnen begrijpt, en pas in de bovenste verdieping de definitieve beslissing neemt. Als je alleen naar de bovenkant kijkt, mis je de reis.

2. De Oplossing: CA-LIG (De "Reisgids" voor AI)

De nieuwe methode, Context-Aware Layer-wise Integrated Gradients (CA-LIG), werkt als een slimme reisgids die je elke verdieping van het kasteel meeneemt.

Hier is hoe het werkt, stap voor stap:

Stap 1: De "Reis" door elke verdieping (Layer-wise)

In plaats van alleen naar de uitkomst te kijken, loopt CA-LIG mee met de informatie van de grond tot het dak.

Analogie: Stel je voor dat je een verhaal hoort. In de eerste zinnen (laag 1-4) hoor je alleen wie er praat en hoe ze het zeggen (grammatica). In het midden (laag 5-8) begin je de gevoelens en relaties te begrijpen. Aan het einde (laag 9-12) heb je de volledige betekenis.
CA-LIG kijkt naar elke stap van dit proces. Het vraagt: "Welke woorden waren belangrijk in de eerste kamer? En hoe veranderde die belangrijkheid toen we de volgende kamer binnenkwamen?"

Stap 2: Het combineren van "Wie" en "Hoe" (Gradient + Attention)

De AI gebruikt twee soorten krachten om te denken:

De kracht van het woord zelf: Hoe belangrijk is het woord "slecht" op zichzelf?
De kracht van de relatie: Hoe belangrijk is het dat het woord "slecht" naar het woord "film" kijkt?

Bestaande methoden kiezen vaak voor één van deze twee. CA-LIG doet een perfecte cocktail van beide.

Analogie: Stel je voor dat je een orkest hoort.
- De ene methode luistert alleen naar de solist (het woord).
- De andere methode luistert alleen naar wie naar wie kijkt (de blikken tussen de muzikanten).
- CA-LIG luistert naar beide: het geluid van de solist en hoe die solist samenwerkt met de rest van het orkest. Zo begrijp je dat "niet slecht" eigenlijk "goed" betekent, iets wat alleen naar het woord "slecht" kijken je zou misleiden.

Stap 3: De "Context-Aware" Kaart

Het resultaat is een kleurencode (een kaart) die laat zien welke woorden de AI hebben geholpen (groen) en welke hen hebben afgeleid (rood).

Het mooie aan CA-LIG is dat het contextbewust is. Het ziet dat het woord "niet" de betekenis van "leuk" omkeert.
Voorbeeld: Bij een review over een film zegt de AI: "Dit is een slechte film."
- Een oude methode zou misschien alleen op "slecht" wijzen.
- CA-LIG ziet dat "slecht" in deze context (na "niet") eigenlijk positief is, of dat "slecht" in combinatie met "acteurs" een specifiek probleem aangeeft. Het tekent een veel nauwkeurigere kaart.

3. Waarom is dit belangrijk? (De Resultaten)

De auteurs hebben deze methode getest op verschillende taken:

Films: Het kon precies zien welke woorden een positieve of negatieve review maakten, zelfs in lange teksten.
Haatzaaiende taal: Het werkte zelfs in moeilijke talen (zoals Amhaars) waar weinig data beschikbaar is. Het zag precies welke woorden haatzaaiend waren.
Beelden: Het werkte zelfs voor foto's! Als de AI een kat ziet, wijst CA-LIG niet zomaar op een willekeurige vlek, maar precies op de oren, ogen en neus van de kat. Het begrijpt de "context" van het beeld.

Samenvatting in één zin

Terwijl andere methoden proberen de AI te verklaren door alleen naar het eindresultaat te staren, neemt CA-LIG je mee op een tour door elke verdieping van het denkproces, waarbij het let op zowel de woorden zelf als hun onderlinge relatie, zodat je eindelijk begrijpt waarom de AI precies zo beslist heeft.

Het is alsof je van een zwart doosje overstapt naar een glazen huis, waar je elke stap van de reis kunt volgen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Transformer-modellen (zoals BERT, GPT, T5) presteren state-of-the-art op diverse taken, maar hun diepe, gelaagde en niet-lineaire structuur maakt hun voorspellingen moeilijk te interpreteren. Bestaande methoden voor Explainable AI (XAI) lijden aan drie fundamentele beperkingen:

Bias naar de laatste laag: De meeste methoden genereren uitleg alleen op de eindlaag, waardoor ze negeren hoe semantische informatie en contextuele abstracties zich geleidelijk vormen in eerdere lagen.
Gebrek aan geïntegreerd lokaal-globaal redeneren: Methoden focussen óf op lokale token-salientie (bijv. gradient-based) óf op globale structurele interacties (bijv. attention-based), maar integreren deze zelden in één samenhangende representatie.
Onvoldoende contextbewustzijn: Bestaande technieken houden vaak geen rekening met inter-token afhankelijkheden, residuale verbindingen, feedforward-transformaties en de informatieflow tussen lagen, die essentieel zijn voor de Transformer-architectuur.

Daarnaast blijken ruwe attention-weights onbetrouwbaar als enige verklaring voor modelredenering, en falen methoden zoals Integrated Gradients (IG) vaak om te vangen hoe relevantie evolueert door de lagen heen.

Methodologie: Het CA-LIG Framework

De auteurs stellen het Context-Aware Layer-wise Integrated Gradients (CA-LIG) framework voor. Dit is een unificerend, hiërarchisch attribuut-systeem dat de relevantie van tokens traceert door de volledige Transformer-hiërarchie. Het proces bestaat uit vier fasen:

Layer-wise Integrated Gradients (LIG):
In plaats van alleen de laatste laag te analyseren, wordt IG berekend voor elk Transformer-blok. Voor een gegeven laag $l$ wordt een traject van geïnterpoleerde hidden states gedefinieerd tussen een baseline (bijv. nul-embeddings) en de daadwerkelijke input. De gradiënten van de classescore worden geaggregeerd over dit traject om een layer-wise relevantiescore ( $R^{(l)}$ ) per token te verkrijgen. Dit voldoet aan de axioma's van volledigheid en sensitiviteit.
Gradiënten van Attention per Blok:
Om contextuele interacties te vangen, worden de gradiënten van de output-score ten opzichte van de attention-matrix ( $\nabla A^{(b)}$ ) berekend. Dit geeft een class-specifieke salientiekaart van de attention-structuur weer, die aangeeft hoe gevoelig de voorspelling is voor veranderingen in de attention-verbindingen tussen tokens.
Fusie van Relevantie en Attention-Gradiënten:
De token-level relevantiescores (uit LIG) worden gefuseerd met de attention-gradiënten via een context-bewuste integratiemechanisme. Dit gebeurt via element-wijze vermenigvuldiging (Hadamard-product) na normalisatie:
$R^{(b)}_{context} = \nabla A^{(b)} \odot \text{Norm}(R^{(l)})$
Hierdoor wordt de attention-gradiënt gewogen op basis van de relatieve belangrijkheid van de token, wat zorgt voor een getrouwe weergave van zowel lokale bijdragen als globale structurele afhankelijkheden.
Context-Aware Attributie en Rollout:
Een instelbare fusiecoëfficiënt $\lambda$ ( $0 \le \lambda \le 1$ ) balanceert de invloed van attention-sensitiviteit en token-relevantie. De gefuseerde matrices per blok worden genormaliseerd en recursief vermenigvuldigd (rollout) over alle blokken om een cumulatieve attributiekaart ( $C$ ) te genereren. Deze kaart kan worden ontleed in positieve (ondersteunend) en negatieve (remmend) componenten.

Belangrijkste Bijdragen

Unificerend Hiërarchisch Framework: CA-LIG is het eerste framework dat layer-wise Integrated Gradients combineert met class-specifieke attention-gradiënten, waardoor het zowel lokale token-bijdragen als globale structurele patronen in één coherent beeld brengt.
Contextbewustzijn: Het framework dwingt normalisatie en relevantiebehoud af over multi-head attention paden, waardoor het de complexe inter-token afhankelijkheden en residuale stromen in Transformers beter begrijpt.
Brede Validatie: Het framework is getest op diverse taken (sentimentanalyse, hate speech detectie, documentclassificatie) en domeinen (NLP en Computer Vision), met modellen zoals BERT, XLM-R, AfroLM en MAE Vision Transformers.
Open Source: De implementatiecode wordt openbaar beschikbaar gesteld.

Resultaten

De evaluatie omvatte zowel kwalitatieve visualisaties als kwantitatieve benchmarks (o.a. ERASER benchmark, Token-F1, Perturbation-based AUC).

Kwalitatieve Resultaten:
- CA-LIG produceert scherpere en meer gefocuste attributies dan baselines (zoals IG, LRP, Attention Rollout).
- Het vermijdt de neiging van andere methoden om speciale tokens (zoals [CLS]) te overbelichten of irrelevante tokens te markeren.
- In lange documenten (20 Newsgroups) en lage-resource talen (Amharisch) toont CA-LIG in staat om lange-afstand contextuele afhankelijkheden te vangen (bijv. het verbinden van "evidence" met "bible" over meerdere zinnen heen).
- Bij visuele taken (MAE op CIFAR-10/ASIRRA) focust CA-LIG op semantisch betekenisvolle objectdelen (ogen, neus) in plaats van verspreide achtergrondruis.
Kwantitatieve Resultaten:
- CA-LIG behaalde consistent hogere Token-F1-scores op de Movie Reviews dataset vergeleken met baselines, wat aangeeft dat de geïdentificeerde tokens beter overeenkomen met menselijke rationales.
- Bij visuele taken toonde CA-LIG een hogere Insertion AUC en lagere Deletion AUC, wat aantoont dat het model sneller vertrouwen verliest bij het verwijderen van cruciale patches en sneller wint bij het toevoegen ervan. Dit bevestigt de "faithfulness" (trouw) van de uitleg.
Layer-wise Sensitiviteitsanalyse:
Een case study met BERT toonde aan dat CA-LIG de hiërarchische evolutie van relevantie correct volgt:
- Lagen 1-4: Lage relevantie, focus op syntaxis.
- Lagen 5-8: Scherpe stijging in relevantie voor semantisch belangrijke tokens (bijv. "amazing").
- Lagen 9-12: Consolidatie van beslissingsrelevante signalen in de [CLS]-embedding.

Significantie

Dit paper biedt een aanzienlijke stap voorwaarts in de interpretatie van diepe neurale netwerken. CA-LIG overbrugt de kloof tussen lokale gradienten en globale attention-patronen, en biedt een verklaring die niet alleen statistisch betrouwbaar is, maar ook semantisch coherent en in lijn met de interne redeneerprocessen van Transformers.

Door de hiërarchische aard van de uitleg te benadrukken, helpt CA-LIG onderzoekers en ontwikkelaars om beter te begrijpen waarom een model een bepaalde beslissing neemt, niet alleen welke input daarvoor verantwoordelijk is. Dit is cruciaal voor het bouwen van transparante, betrouwbare en veilige AI-systemen, vooral in kritieke domeinen zoals sentimentanalyse, hate speech detectie en medische beeldanalyse. Ondanks de iets hogere rekenkosten (door berekening over alle lagen), weegt het voordeel van een veel dieper en nauwkeuriger inzicht zwaar op.

Explainable AI: Context-Aware Layer-Wise Integrated Gradients for Explaining Transformer Models

1. Het Probleem: De "Laatste Verdieping" Valstrik

2. De Oplossing: CA-LIG (De "Reisgids" voor AI)

Stap 1: De "Reis" door elke verdieping (Layer-wise)

Stap 2: Het combineren van "Wie" en "Hoe" (Gradient + Attention)

Stap 3: De "Context-Aware" Kaart

3. Waarom is dit belangrijk? (De Resultaten)

Samenvatting in één zin

Probleemstelling

Methodologie: Het CA-LIG Framework

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá