Caption-Driven Explainability: Probing CNNs for Bias via CLIP

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe we een slimme camera dwingen om eerlijk te zijn (en niet te bedriegen)

Stel je voor dat je een zeer slimme, jonge student hebt die foto's moet leren herkennen. Je noemt hem "ResNet". Je hebt hem getraind met duizenden foto's van cijfers: de 5 en de 8. Maar er is een klein, gevaarlijk trucje in de foto's die je hem hebt gegeven:

Alle 5'en zijn altijd rood.
Alle 8'en zijn altijd groen.

Je student leert dit zo goed, dat hij denkt: "Ah, als ik iets roods zie, is het een 5! Als ik iets groens zie, is het een 8!" Hij kijkt helemaal niet naar de vorm van het cijfer. Hij kijkt alleen naar de kleur.

Nu komt het probleem: als je deze student naar de echte wereld stuurt, waar 5'en soms blauw zijn en 8'en soms geel, faalt hij volledig. Hij is niet slim genoeg; hij heeft een vooringenomenheid (bias) ontwikkeld.

Het oude probleem: De "Flitslicht"-methode

Vroeger probeerden we te begrijpen wat deze studenten zagen met een techniek die saliency maps heet. Dat is als een flitslicht dat op de foto schijnt om te laten zien welke pixels het belangrijkst zijn.

Het nadeel: Als de vorm en de kleur precies op dezelfde plek zitten (zoals een rode 5), ziet het flitslicht niet of de student kijkt naar de vorm of naar de kleur. Het flitslicht zegt alleen: "Hier gebeurt er iets!" Maar het vertelt je niet waarom. De student kan dus blijven bedriegen zonder dat we het merken.

De nieuwe oplossing: De "Verteller" (CLIP)

De auteurs van dit paper hebben een slimme nieuwe manier bedacht, genaamd Caption-Driven Explainability. Ze gebruiken een beroemd AI-model dat CLIP heet. CLIP is uniek omdat hij niet alleen naar plaatjes kijkt, maar ook begrijpt wat er in woorden staat.

Stel je voor dat CLIP een zeer ervaren leraar is die altijd een lijstje met beschrijvingen bij zich heeft, zoals:

"Een rode 5"
"Een groene 8"
"Een vorm van een 5"
"Een vorm van een 8"

De Magische Operatie: "Netwerkchirurgie"

Hier komt het creatieve deel. De auteurs doen een soort chirurgische ingreep (network surgery) op hun student (ResNet).

De Transplantatie: Ze nemen de "hersenen" (de lagen die de beelden analyseren) van hun student en plakken ze in het hoofd van de leraar (CLIP).
De Match: Ze zoeken precies de stukjes van de student die het meest lijken op de stukjes van de leraar en wisselen ze uit. Het is alsof je de ogen van de student vervangt door die van de leraar, maar de rest van het brein van de student intact laat.
De Test: Nu laten ze de "gemodificeerde student" naar de foto's kijken, maar ze vragen CLIP: "Wat denk je dat dit is? Is het een 'rode 5' of een 'vorm van een 5'?"

Wat gebeurt er?

Omdat de student in de training alleen rode 5'en zag, reageert zijn hersenen extreem sterk op het woord "rood".

Als je vraagt: "Is dit een rode 5?" -> CLIP zegt: "JA! 100% zeker!"
Als je vraagt: "Is dit een vorm van een 5?" -> CLIP zegt: "Nee, dat is niet zo belangrijk."

De conclusie is duidelijk: De student kijkt niet naar de vorm, maar naar de kleur. De "verteller" (CLIP) heeft de leugen ontmaskerd!

Waarom is dit zo geweldig?

In het verleden zagen we alleen dat de student iets zag (het flitslicht), maar niet wat. Nu weten we precies dat hij bedrogen wordt door de kleur.

Dankzij deze ontdekking kunnen we de student corrigeren:

We nemen de kleur weg (we maken de foto's zwart-wit).
We trainen de student opnieuw.
Nu, als we de operatie weer doen, ziet CLIP dat de student nu echt naar de vorm kijkt. De "rode 5" is verdwenen als belangrijkste concept, en de "vorm van een 5" is de nieuwe kampioen.

Samenvattend

Dit paper introduceert een manier om AI-modellen niet alleen te laten zien waar ze kijken, maar ook waarom. Het is alsof we een spiegel voor het model houden, maar dan met een vertaler die in het Nederlands (of Engels) uitlegt: "Hé, je kijkt alleen naar de kleur, dat is niet eerlijk!"

Dit is cruciaal voor belangrijke dingen, zoals in de geneeskunde. Als een AI een ziekte moet diagnosticeren, willen we niet dat hij kijkt naar een label op de foto, maar echt naar de symptomen. Met deze nieuwe "verteller-methode" kunnen we dat controleren voordat de AI de echte wereld in gaat.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem: Robuustheid en Covariatenverschuiving

Machine Learning (ML) modellen, met name Convolutionele Neural Networks (CNNs), zijn krachtig maar vaak een "black box". Een van de grootste uitdagingen is robustheid: het vermogen van een model om goed te presteren in real-world situaties die afwijken van de trainingsdata.

Covariatenverschuiving (Covariate Shift): Dit treedt op wanneer de data-distributie tijdens de ontwikkeling (train/val/test) verschilt van de data in de real-world omgeving. Een model kan in het lab perfect werken maar in de praktijk falen omdat het leert op "spurious features" (schijnbare correlaties) in plaats van de werkelijke onderliggende concepten.
Beperkingen van bestaande XAI-methoden: Bestaande methoden voor Explainable AI (XAI), zoals Saliency Maps (bijv. Grad-CAM), visualiseren welke pixels het model het meest activeren. Het artikel stelt echter dat dit misleidend kan zijn als er schijnbare en saliente features overlappen in dezelfde pixelruimte. Een model kan bijvoorbeeld een kleur gebruiken als voorspellingskenmerk in plaats van de vorm, maar een saliency map toont dit onderscheid niet altijd duidelijk genoeg.

2. Methodologie: Caption-Driven XAI via Netwerkchirurgie

De auteurs stellen een nieuwe methode voor die CLIP (Contrastive Language-Image Pre-training) combineert met een netwerkchirurgie-proces om de dominante concepten van een bestaand model te onthullen.

A. Architectuur en Integratie

Doelmodel: Een standalone CNN (in dit geval een ResNet-50) die getraind is op een specifieke taak (bijv. het classificeren van cijfers 5 en 8).
Referentiemodel: CLIP, bestaande uit een tekst-encoder en een beeld-encoder (ResNet-52). CLIP heeft een rijk semantisch begrip van concepten gekoppeld aan tekst.
Netwerkchirurgie (Network Surgery): De kern van de methode is het overbrengen van de eigenschappen van het standalone model naar de CLIP-beeldencoder door activatiekaarten (activation maps) te vervangen.
- Het standalone model heeft 49 convolutielagen (22.720 activatiekaarten).
- De CLIP-encoder heeft 51 convolutielagen, maar alleen de laatste lagen van stadia 2, 3, 4 en 5 (in totaal 3840 kaarten) worden geselecteerd voor vervanging. De eerste laag blijft intact omdat deze laag-level concepten vastlegt die in beide modellen vergelijkbaar zijn.

B. Activatie Matching (Activation Matching)

Omdat het aantal activatiekaarten in het standalone model veel groter is dan in de CLIP-encoder, moet er een selectieproces plaatsvinden:

Statistieken: Voor elke activatiekaart worden de mean ( $\mu$ ) en standaarddeviatie ( $\sigma$ ) berekend over de trainingsdata.
Normalisatie: Activatiekaarten worden genormaliseerd en opgeschaald (via bilineaire interpolatie) om dezelfde grootte te hebben.
Correlatie: Er wordt een correlatiecoëfficiënt ( $Z_{ij}$ ) berekend tussen elke activatiekaart van het standalone model en elke kaart van de CLIP-encoder.
Selectie: De kaarten met de hoogste correlatiescores worden geselecteerd om de CLIP-encoder te vervangen. Hierdoor "erft" de CLIP-encoder de interne representaties van het standalone model, maar behoudt het de semantische ruimte van CLIP.

C. Caption-Based Analyse

Zodra het standalone model in CLIP is geïntegreerd, worden er tekst-captions (bijv. "een rode cijfer", "een groene cijfer", "een cirkelvormig cijfer") door de tekst-encoder gevoerd.

De cosine-similariteit tussen de tekst-embeddings en de beeld-embeddings (nu aangepast met de standalone model-eigenschappen) wordt gemeten.
Als de similariteit het hoogst is voor kleur-captions, is het model kleur-bias. Is de similariteit het hoogst voor vorm-captions, dan is het model vorm-gericht.

3. Experimenten en Resultaten

De methode werd getest op een gekleurde MNIST-dataset met een opzettelijke covariatenverschuiving:

Trainingsdata: Alle cijfers '5' waren rood, alle cijfers '8' waren groen.
Real-world data: De kleuren waren willekeurig.
Doel: Een ResNet-50 model dat alleen op de vorm leert, maar door de data-distributie waarschijnlijk op de kleur leert.

Resultaten:

Detectie van Bias: De caption-driven XAI toonde aan dat het standalone model sterk gebaseerd was op kleur (de dominante concept), in plaats van vorm. Dit was niet direct zichtbaar in de standaard learning curves of eenvoudige saliency maps.
Validatie van Robuustheid: Na het verwijderen van de kleurinformatie (conversie naar grijstinten) en het hertrainen van het model, toonde de methode een duidelijke verschuiving: de dominante concept veranderde van "kleur" naar "vorm".
Superioriteit: De methode slaagde erin de bias te identificeren zelfs in situaties waar spurious features overlappen, wat een zwak punt is van traditionele saliency maps.

4. Belangrijkste Bijdragen

Nieuwe XAI-methode: Introductie van een caption-gedreven aanpak die tekst gebruikt om de interne concepten van CNNs te interpreteren.
Netwerkchirurgie: Een innovatieve techniek om een bestaand model naadloos in te bouwen in een pre-getraind CLIP-model om diens semantische ruimte te benutten voor interpretatie.
Probleemoplossing: Het biedt een oplossing voor het detecteren van covariatenverschuivingen en spurious correlations voordat een model in productie gaat.
Code Open Source: De implementatie is beschikbaar gesteld voor herhaalbaarheid.

5. Betekenis en Toekomstperspectief

De studie concludeert dat een dieper begrip van de dominante concepten in CNNs essentieel is voor het bouwen van robuuste AI-systemen.

Medische Toepassingen: De methode is bijzonder waardevol in hoog-risico domeinen zoals de geneeskunde, waar het kan helpen om vooroordelen van artsen of onjuiste correlaties in data te onthullen (bijv. of een model een ziekte diagnoseert op basis van een medische apparatuur in de achtergrond in plaats van de symptomen).
Voorwaarde voor Deploy: De auteurs pleiten ervoor dat deze methode niet alleen als een debug-tool wordt gezien, maar als een noodzakelijke voorwaarde voordat elke computer-vision CNN in de real-world wordt ingezet. Het minimaliseert het risico dat modellen "gefoold" worden door data-distributies die afwijken van de trainingsomgeving.