GIFT: A Framework Towards Global Interpretable Faithful Textual Explanations of Vision Classifiers

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar mysterieuze robot hebt die foto's bekijkt en beslist of iets "goed" of "slecht" is. Bijvoorbeeld: "Is dit een veilig moment om rechtsaf te slaan?" of "Is dit gezicht van een oude of jonge persoon?".

Het probleem is: de robot geeft alleen het antwoord, maar vertelt niet waarom. Het is alsof hij een raadsel oplost en alleen het antwoord fluistert, zonder de oplossing te tonen. In de echte wereld (zoals bij zelfrijdende auto's of medische scans) is dat gevaarlijk. We moeten weten waarom hij zo denkt, zodat we kunnen vertrouwen op zijn oordeel.

Deze paper introduceert GIFT (een acroniem dat staat voor Global, Interpretable, Faithful, Textual). Je kunt GIFT zien als een vertaler en detective die voor ons uitlegt wat die robot echt in zijn hoofd heeft.

Hier is hoe GIFT werkt, stap voor stap, in simpele taal:

1. De Detective: "Wat als...?" (Stap 1)

Stel, de robot zegt: "Dit is een veilig moment om rechtsaf te slaan."
GIFT begint als een detective die vraagt: "Wat als we dit beeld een klein beetje veranderen? Wordt het antwoord dan anders?"

GIFT maakt duizenden "wat-als"-scenario's (in de vakjargon: counterfactuals).

Voorbeeld: "Wat als we die bus links wegdoen? Raakt de robot dan nog steeds 'rechtsaf'?"
Voorbeeld: "Wat als we die rode auto toevoegen? Verandert het antwoord dan?"

Dit is heel betrouwbaar, want het test de robot direct. Het is alsof je een slot probeert te openen met verschillende sleutels om te zien welke er echt werkt.

2. De Vertaler: Van Beeld naar Woorden (Stap 2)

De "wat-als"-beelden zijn soms lastig te begrijpen. GIFT gebruikt een slimme vertaler (een Vision-Language Model). Deze vertaler kijkt naar het originele beeld en het "wat-als"-beeld en schrijft een simpele zin over wat er precies veranderde.

In plaats van: "Pixel 450 is nu rood."
Schrijft de vertaler: "De bus links is verdwenen." of "Er staat nu een rode auto in de weg."

Nu hebben we een lijstje met simpele zinnen in plaats van een berg met foto's.

3. De Samenvatter: Het Grote Plaatje (Stap 3)

Nu heeft GIFT duizenden losse zinnen over kleine veranderingen. Dat is veel ruis. GIFT gebruikt nu een super-slimme AI (een Large Language Model, zoals een zeer intelligente chatbot) om al die losse zinnen te lezen en een groot verhaal te maken.

De AI zoekt naar patronen.

Losse zinnen: "Bus links weg", "Bus links weg", "Auto links weg", "Verkeersdrukte links weg."
Groot verhaal (De Hypothese): "Ah! De robot denkt dat je niet rechtsaf kunt slaan als er veel verkeer is in de linkerbaan."

Dit is het "Global" deel: van duizenden kleine voorbeelden halen we één grote regel.

4. De Test: Bewijs dat het waar is (Stap 4)

Dit is het belangrijkste deel. De AI in stap 3 is slim, maar ze kan ook hallucineren (dromen). Misschien denkt de AI dat het verkeer links belangrijk is, maar is dat toeval?

GIFT is niet zomaar een verteller; het is een wetenschapper. Het gaat de hypothesen testen!
Het gebruikt een "magische pen" (een beeldbewerkingsmodel) om de foto's opnieuw te bewerken, precies zoals de hypothesen zeggen, en kijkt of de robot zijn antwoord verandert.

Test: "We voegen een bus toe aan de linkerbaan."
Resultaat: De robot zegt nu: "Nee, niet rechtsaf!"
Conclusie: De hypothesen kloppen! De robot is echt afhankelijk van de linkerbaan.

Als de test faalt (de robot verandert zijn antwoord niet), dan was de hypothesen fout. GIFT gooit die dan weg.

Waarom is dit zo speciaal?

Stel je voor dat je een auto koopt en de verkoper zegt: "Deze auto rijdt veilig."

Oude methoden: Ze wijzen met een vinger naar een deel van de foto en zeggen: "Kijk hier, dit is belangrijk." Maar je weet niet of dat echt de reden is of dat de auto gewoon naar die kleur kijkt.
GIFT: GIFT zegt: "Deze auto rijdt veilig alleen als er geen bus links staat. Als er een bus links staat, denkt hij dat het gevaarlijk is."

GIFT heeft drie superkrachten:

Betrouwbaar (Faithful): Het test zijn eigen uitleg. Het droomt niet; het bewijst het.
Begrijpelijk (Interpretable): Het geeft je een tekstuele uitleg in gewone taal, geen ingewikkelde kaarten met gekleurde pixels.
Groot (Global): Het vertelt je niet alleen waarom deze ene foto zo werd beoordeeld, maar wat de algemene regel is voor de hele robot.

Een echt voorbeeld uit het onderzoek

De onderzoekers testten GIFT op een robot die leerde of je rechtsaf mocht slaan in het verkeer. Ze hadden de robot opzettelijk "bedorven" gemaakt: hij leerde dat als er een auto in de linkerbaan staat, je nooit rechtsaf mag slaan (zelfs als dat onzin is in de echte wereld).

Mensen die naar de foto's keken, zagen dit bias (vooroordeel) niet.
Andere AI-methoden zagen het ook niet.
GIFT vond het direct! Het zei: "Aha! Deze robot is gek. Hij denkt dat een auto in de linkerbaan betekent dat je niet rechtsaf kunt. Dat is een gevaarlijk vooroordeel!"

Conclusie

GIFT is als een eerlijke tolk tussen de complexe, ondoorzichtige wereld van robot-geesten en ons menselijk begrip. Het zorgt ervoor dat we niet blind vertrouwen op wat computers doen, maar echt begrijpen waarom ze het doen. En dat is essentieel voor een veilige toekomst met slimme machines.

Each language version is independently generated for its own context, not a direct translation.

Titel: GIFT: Een Framework voor Globale, Interpreteerbare en Betrouwbare Tekstuele Verklaringen van Visuele Classificatoren

Publicatie: Transactions on Machine Learning Research (02/2026)
Auteurs: Éloi Zablocki, Valentin Gerard, Amaia Cardiel, Eric Gaussier, Matthieu Cord, Eduardo Valle.

1. Het Probleem

Het begrijpen van de besluitvormingsprocessen van diepe visuele modellen (deep vision models) is cruciaal voor hun veilige en betrouwbare inzet in kritieke toepassingen zoals autonoom rijden en medische beeldvorming. Bestaande methoden voor explainability (XAI) hebben echter aanzienlijke tekortkomingen:

Feature Attribution (bijv. Saliency Maps): Deze zijn vaak lokaal (per voorbeeld), moeilijk te interpreteren voor mensen en niet altijd betrouwbaar (faithful) omdat ze kunnen worden beïnvloed door schijnbare correlaties in de data in plaats van causale relaties.
Concept-based Methoden: Vereisen vaak vooraf gedefinieerde concepten of menselijke interpretatie van vectorrepresentaties, wat beperkingen oplegt aan de ontdekking van onverwachte bias.
Counterfactual Explanations: Hoewel deze causaal zijn door minimale veranderingen in de input te identificeren die de output veranderen, zijn ze inherent lokaal, visueel vaag en vaak moeilijk te interpreteren zonder menselijke tussenkomst. Ze bieden geen globaal inzicht in de algemene regels van het model.

Er bestaat een behoefte aan een methode die globale (model-brede), interpreteerbare (menselijk leesbare), betrouwbare (faithful/causale) en tekstuele verklaringen biedt.

2. Methodologie: Het GIFT Framework

GIFT (Global Interpretable Faithful Textual) is een post-hoc framework dat vier opeenvolgende stadia doorloopt om van lokale visuele tegenstrijdigheden naar globale tekstuele regels te gaan. Het framework is model-agnostisch en kan worden geïmplementeerd met verschillende state-of-the-art generatieve en taalmodellen.

Stadium 1: Betrouwbare Visuele Lokale Verklaringen

Doel: Genereren van lokale, causale tegenstrijdigheden (counterfactuals).
Methode: Voor een reeks inputafbeeldingen $x$ wordt een counterfactual generator (CEX) gebruikt om een minimale, semantisch betekenisvolle wijziging $x'$ te creëren zodanig dat de classifier $M$ van voorspelling verandert ( $M(x) \neq M(x')$ ).
Resultaat: Een set paren $(x, x')$ die de semantische grenzen van het model blootleggen. Deze zijn per definitie "faithful" omdat ze direct de beslissingsgrens van het model testen.

Stadium 2: Vertaling naar Natuurlijke Taal

Doel: Omzetten van visuele verschillen naar tekst.
Methode: Een Vision-Language Model (VLM), specifiek getraind voor "change captioning", beschrijft de visuele verschillen tussen $x$ en $x'$ in natuurlijke taal.
Resultaat: Een set lokale tekstuele beschrijvingen (bijv. "het rode object is verdwenen"). Dit verhoogt de interpreteerbaarheid maar introduceert mogelijk ruis door de VLM.

Stadium 3: Kandidaat-Globale Verklaringen

Doel: Aggregatie van lokale signalen naar globale hypothesen.
Methode: Een Large Language Model (LLM) analyseert de verzameling van alle lokale veranderingen en hun impact op de classificatie. Het LLM zoekt naar terugkerende patronen, disambigueert tegenstrijdige signalen en formuleert globale hypothesen over de beslissingsregels van het model.
Resultaat: Een lijst van kandidaat-globale regels (bijv. "Klasse 1 wordt voorspeld bij aanwezigheid van een rood object").

Stadium 4: Verificatie van Hypothesen (Causale Validatie)

Doel: Quantitatief verifiëren of de gegenereerde regels echt causaal zijn voor de beslissingen van het model.
Methode:
1. Coarse Filter (Directed Information - DI): Meet de correlatie tussen het concept en de output om irrelevante hypothesen te filteren.
2. Fine Filter (Causale Interventie): Gebruikt een tekst-gestuurd beeldbewerkingsmodel (EDIT) om het geïdentificeerde concept expliciet toe te voegen of te verwijderen in een validatieset.
3. Metrics: Twee causale metrics worden berekend:
  - CaCE (Causal Concept Effect): Meet de gemiddelde verandering in de output bij toevoeging/verwijdering van het concept.
  - PNS (Probability of Necessary and Sufficient Cause): Schat de waarschijnlijkheid dat het concept zowel noodzakelijk als toereikend is voor de klasse.
Resultaat: Alleen hypothesen die een significant causaal effect hebben, worden behouden als de uiteindelijke verklaringen.

3. Belangrijkste Bijdragen

Eerste Framework voor Globale Tekstuele Verklaringen: GIFT is het eerste systeem dat specifiek is ontworpen om globale, tekstuele en counterfactual-gebaseerde verklaringen te genereren voor visuele classifiers, ondersteund door causale verificatie.
Synergie van Lokale Signalen en Redenering: Het combineert twee innovatieve ideeën: het verzamelen van causale lokale signalen via counterfactuals en het gebruik van LLM's om daaruit globale inzichten te destilleren.
Causale Verificatie: Het introduceert een robuust verificatiestadium met twee complementaire metrics (CaCE en PNS) om de "faithfulness" van de tekstuele verklaringen te garanderen, in plaats van te vertrouwen op correlaties.
Validatie in Diverse Domeinen: Het framework is succesvol getest op synthetische data (CLEVR), realistische gezichten (CelebA) en complexe verkeerscènes (BDD-OIA), waarbij het zowel betekenisvolle regels als verborgen biases onthulde.

4. Resultaten

De auteurs hebben GIFT getest op drie use-cases:

CLEVR (Synthetisch): GIFT slaagde erin om in 11 van de 12 gevallen de verbouwde visuele regels (bijv. "aanwezigheid van een cyaan object") correct te achterhalen en bovenaan te rangschikken volgens de causale metrics.
CelebA (Gezichten): Het framework ontdekte fijne verbanden tussen attributen en de classificatie "Oud" vs. "Jong". Het toonde aan dat individuele attributen (zoals "bril") soms een lage causale impact hebben, maar in combinatie met andere attributen (bijv. "bril + rimpels") een hoge causale impact vertonen. Het onthulde ook mogelijke bias in de trainingsdata.
BDD-OIA (Autonoom Rijden): GIFT slaagde erin om een specifieke, door de auteurs ingevoegde bias te detecteren: het model neigde om "niet rechtsaf mogen" te voorspellen als er voertuigen in de linkerbaan stonden.
- Vergelijking met State-of-the-Art: Menselijke inspectie en methoden die puur vertrouwen op LLM-hypothesen zonder counterfactual-guidance faalden om deze bias te detecteren. GIFT was de enige methode die de bias succesvol identificeerde en verifieerde.

5. Betekenis en Impact

GIFT biedt een fundamentele stap voorwaarts in de interpretatie van AI-modellen door de kloof te overbruggen tussen lokale, causale redenering en globale, menselijk begrijpelijke inzichten.

Betrouwbaarheid: Door causale verificatie te integreren, minimaliseert GIFT het risico op misleidende verklaringen die gebaseerd zijn op schijnbare correlaties.
Bias Detectie: Het framework is bij uitstek geschikt om onverwachte en subtiel ingebouwde biases in modellen op te sporen die door menselijke experts of traditionele methoden worden gemist.
Toepasbaarheid: De modulaire opbouw maakt het flexibel toepasbaar op verschillende domeinen, zolang er geschikte generatieve modellen beschikbaar zijn voor de specifieke taak.

Het paper concludeert dat GIFT een principieel en grondig benadering biedt voor het begrijpen van complexe visuele modellen, wat essentieel is voor de veilige implementatie van AI in de echte wereld.