Caption-Driven Explainability: Probing CNNs for Bias via CLIP

Deze paper introduceert een nieuwe caption-driven XAI-methode die een CNN integreert in het CLIP-model via een innovatieve netwerkchirurgie-techniek om de dominante concepten achter voorspellingen te identificeren en zo de robuustheid van het model tegen covariatenverschuivingen te verbeteren.

Patrick Koller, Amil V. Dravid, Guido M. Schuster, Aggelos K. Katsaggelos

Gepubliceerd 2026-02-26
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe we een slimme camera dwingen om eerlijk te zijn (en niet te bedriegen)

Stel je voor dat je een zeer slimme, jonge student hebt die foto's moet leren herkennen. Je noemt hem "ResNet". Je hebt hem getraind met duizenden foto's van cijfers: de 5 en de 8. Maar er is een klein, gevaarlijk trucje in de foto's die je hem hebt gegeven:

  • Alle 5'en zijn altijd rood.
  • Alle 8'en zijn altijd groen.

Je student leert dit zo goed, dat hij denkt: "Ah, als ik iets roods zie, is het een 5! Als ik iets groens zie, is het een 8!" Hij kijkt helemaal niet naar de vorm van het cijfer. Hij kijkt alleen naar de kleur.

Nu komt het probleem: als je deze student naar de echte wereld stuurt, waar 5'en soms blauw zijn en 8'en soms geel, faalt hij volledig. Hij is niet slim genoeg; hij heeft een vooringenomenheid (bias) ontwikkeld.

Het oude probleem: De "Flitslicht"-methode

Vroeger probeerden we te begrijpen wat deze studenten zagen met een techniek die saliency maps heet. Dat is als een flitslicht dat op de foto schijnt om te laten zien welke pixels het belangrijkst zijn.

  • Het nadeel: Als de vorm en de kleur precies op dezelfde plek zitten (zoals een rode 5), ziet het flitslicht niet of de student kijkt naar de vorm of naar de kleur. Het flitslicht zegt alleen: "Hier gebeurt er iets!" Maar het vertelt je niet waarom. De student kan dus blijven bedriegen zonder dat we het merken.

De nieuwe oplossing: De "Verteller" (CLIP)

De auteurs van dit paper hebben een slimme nieuwe manier bedacht, genaamd Caption-Driven Explainability. Ze gebruiken een beroemd AI-model dat CLIP heet. CLIP is uniek omdat hij niet alleen naar plaatjes kijkt, maar ook begrijpt wat er in woorden staat.

Stel je voor dat CLIP een zeer ervaren leraar is die altijd een lijstje met beschrijvingen bij zich heeft, zoals:

  • "Een rode 5"
  • "Een groene 8"
  • "Een vorm van een 5"
  • "Een vorm van een 8"

De Magische Operatie: "Netwerkchirurgie"

Hier komt het creatieve deel. De auteurs doen een soort chirurgische ingreep (network surgery) op hun student (ResNet).

  1. De Transplantatie: Ze nemen de "hersenen" (de lagen die de beelden analyseren) van hun student en plakken ze in het hoofd van de leraar (CLIP).
  2. De Match: Ze zoeken precies de stukjes van de student die het meest lijken op de stukjes van de leraar en wisselen ze uit. Het is alsof je de ogen van de student vervangt door die van de leraar, maar de rest van het brein van de student intact laat.
  3. De Test: Nu laten ze de "gemodificeerde student" naar de foto's kijken, maar ze vragen CLIP: "Wat denk je dat dit is? Is het een 'rode 5' of een 'vorm van een 5'?"

Wat gebeurt er?

Omdat de student in de training alleen rode 5'en zag, reageert zijn hersenen extreem sterk op het woord "rood".

  • Als je vraagt: "Is dit een rode 5?" -> CLIP zegt: "JA! 100% zeker!"
  • Als je vraagt: "Is dit een vorm van een 5?" -> CLIP zegt: "Nee, dat is niet zo belangrijk."

De conclusie is duidelijk: De student kijkt niet naar de vorm, maar naar de kleur. De "verteller" (CLIP) heeft de leugen ontmaskerd!

Waarom is dit zo geweldig?

In het verleden zagen we alleen dat de student iets zag (het flitslicht), maar niet wat. Nu weten we precies dat hij bedrogen wordt door de kleur.

Dankzij deze ontdekking kunnen we de student corrigeren:

  1. We nemen de kleur weg (we maken de foto's zwart-wit).
  2. We trainen de student opnieuw.
  3. Nu, als we de operatie weer doen, ziet CLIP dat de student nu echt naar de vorm kijkt. De "rode 5" is verdwenen als belangrijkste concept, en de "vorm van een 5" is de nieuwe kampioen.

Samenvattend

Dit paper introduceert een manier om AI-modellen niet alleen te laten zien waar ze kijken, maar ook waarom. Het is alsof we een spiegel voor het model houden, maar dan met een vertaler die in het Nederlands (of Engels) uitlegt: "Hé, je kijkt alleen naar de kleur, dat is niet eerlijk!"

Dit is cruciaal voor belangrijke dingen, zoals in de geneeskunde. Als een AI een ziekte moet diagnosticeren, willen we niet dat hij kijkt naar een label op de foto, maar echt naar de symptomen. Met deze nieuwe "verteller-methode" kunnen we dat controleren voordat de AI de echte wereld in gaat.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →