What is Missing? Explaining Neurons Activated by Absent Concepts

Each language version is independently generated for its own context, not a direct translation.

Wat ontbreekt er? Waarom "niet-zien" net zo belangrijk is als "zien" voor kunstmatige intelligentie

Stel je voor dat je een detective bent die een raadsel moet oplossen. Meestal kijken we naar de aanwijzingen die aanwezig zijn: een vingerafdruk, een getuige, een spoor. Maar wat als het ontbreken van een aanwijzing juist het belangrijkste bewijs is? Wat als het feit dat er geen vingerafdruk op de deur is, bewijst dat de dader een sleutel gebruikte?

Dit is precies wat deze paper over Explainable AI (XAI) – oftewel "uitlegbare kunstmatige intelligentie" – ontdekt. Tot nu toe hebben onderzoekers zich vooral gericht op wat een computer ziet. Maar deze auteurs tonen aan dat neurale netwerken (de hersenen van AI) ook heel slim zijn in het detecteren van wat er niet is. En dat is iets wat de huidige uitleg-methoden vaak missen.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het probleem: De "Blinde Vlek" van de AI

Stel je een AI voor die moet bepalen of een hond een Ierse Setter is.

Hoe het nu werkt: De AI kijkt naar de neus en de poten van de hond. Als die eruitzien als die van een Setter, zegt de AI: "Ja, dit is een Setter!"
Het gemiste stukje: De AI kijkt ook naar wat er niet is. Als de hond een snuit heeft die te lang is voor een Setter, maar perfect past bij een Spaniël, dan "ziet" de AI die snuit niet. En dat is cruciaal! De AI denkt: "Oké, hij heeft de neus van een Setter, en hij heeft geen neus van een Spaniël. Dus het is zeker een Setter."

Huidige uitleg-methoden (zoals "attribution maps" die laten zien welke pixels belangrijk zijn) kijken alleen naar de aanwezige pixels. Ze kunnen de "geen-Spaniël-neus" niet tonen, omdat die er immers niet is. Het is alsof je een kaart tekent van een stad, maar alleen de gebouwen tekent en vergeet te vermelden dat er een leeg stukje grond is waar een ander gebouw had kunnen staan, maar dat juist de reden is waarom dit gebouw hier staat.

2. De oplossing: Kijk naar het "Niet"

De auteurs van deze paper zeggen: "We moeten de AI leren uitleggen wat er ontbreekt." Ze noemen dit "Encoded Absence" (gecodeerde afwezigheid).

Ze hebben twee simpele trucjes bedacht om dit te laten zien:

Truc 1: De "Omgekeerde" Blik (Non-target Attribution)
Normaal vragen we de AI: "Wat maakt deze foto een Setter?"
De nieuwe methode vraagt: "Wat zou deze foto geen Setter maken?"
Door te kijken naar foto's van andere honden (bijv. Spaniëls) en te vragen wat die niet doen voor de Setter-classificatie, zien we welke kenmerken de AI juist wil vermijden. Als de AI een Spaniël ziet en denkt "Nee, dat is geen Setter", dan is dat een sterk bewijs dat de afwezigheid van Spaniël-kenmerken belangrijk is.
Truc 2: De "Minimale" Droom (Feature Visualization through Minimization)
Normaal vragen we de AI: "Wat is het allerleukste plaatje voor een Setter?" (Dan zie je een Setter).
De nieuwe methode vraagt: "Wat is het allerleukste plaatje om een Spaniël te vermijden?"
Als je de AI dwingt om een plaatje te maken dat de "Setter-neuron" zo min mogelijk laat branden, zie je vaak een plaatje vol met Spaniël-kenmerken. Dit bewijst dat de AI die kenmerken juist wil uitsluiten.

3. Waarom is dit belangrijk? (De Analogie van de Vlieg)

De paper begint met een mooi voorbeeld uit de natuur: de fruitvlieg.
Een fruitvlieg kan onderscheid maken tussen een vlucht naar rechts en een aanval van een roofdier.

Een specifieke zenuwcel in het oog van de vlieg gaat af als er beweging naar rechts is.
MAAR: Diezelfde cel gaat alleen af als er geen beweging naar links is.
Als er beweging naar links is (zoals bij een roofdier dat op je afkomt), wordt de cel uitgeschakeld. De vlieg reageert dus op de afwezigheid van links-beweging.

De auteurs tonen aan dat onze moderne AI's (zoals die in je telefoon of op Google) precies hetzelfde doen. Ze gebruiken "niet-zien" net zo slim als de vlieg.

4. Het grote voordeel: Voorkomen van vooroordelen

Dit is misschien wel het coolste deel. AI's zijn vaak vooroordeelsvol.
Stel je een AI voor die moet zeggen of een huidplek kwaadaardig (kanker) of goedaardig is.

Het probleem: In de trainingsdata bleek dat goedaardige plekken vaak gekleurd waren (door de camera of de arts), en kwaadaardige plekken vaak zwart/wit.
De oude AI: Leerde: "Als er kleur is -> Goedaardig. Als er geen kleur is -> Kwaadaardig."
De nieuwe methode: De auteurs tonen aan dat de AI ook leert: "Als er geen kleur is -> Kwaadaardig."
Als je de AI alleen probeert te "de-biasen" (vooroordeel wegwerken) door te zeggen "Kleur is niet belangrijk", werkt het niet. De AI gebruikt dan nog steeds de afwezigheid van kleur als bewijs.
Met hun nieuwe methode kunnen ze de AI dwingen om te stoppen met het gebruiken van zowel de aanwezigheid als de afwezigheid van kleur als een shortcut. Hierdoor wordt de AI eerlijker en nauwkeuriger.

Samenvatting

Deze paper zegt eigenlijk: "Kijk niet alleen naar wat er is, maar ook naar wat er mist."

Tot nu toe hebben we AI's uitgelegd alsof ze alleen kijken naar de bomen in het bos. Deze auteurs tonen aan dat ze ook kijken naar de lege plekken tussen de bomen. Door te leren hoe we die "lege plekken" kunnen visualiseren, krijgen we een veel beter begrip van hoe AI echt denkt, en kunnen we ze slimmer en eerlijker maken.

Het is alsof je een gesprek voert met iemand die niet alleen zegt wat hij denkt, maar ook wat hij niet denkt. En dat maakt het gesprek veel waardevoller.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "What is Missing? Explaining Neurons Activated by Absent Concepts" in het Nederlands.

Titel: Wat ontbreekt? Het verklaren van neuronen geactiveerd door afwezige concepten

Auteurs: Robin Hesse, Simone Schaub-Meyer, Janina Hesse, Bernt Schiele, Stefan Roth.

1. Het Probleem

Explainable Artificial Intelligence (XAI) heeft tot doel het gedrag van Deep Neural Networks (DNN's) voor mensen interpreteerbaar te maken. Bestaande methoden, zoals attribution methods (toewijzing) en feature visualization (kenmerkvisualisatie), richten zich bijna uitsluitend op de aanwezigheid van concepten.

Attribution methods identificeren welke pixels in de input bijdragen aan een voorspelling (impliciet aannemende dat relevante informatie aanwezig is).
Feature visualization zoekt inputpatronen die een neuron sterk activeren (impliciet aannemende dat neuronen de aanwezigheid van concepten coderen).

Een cruciaal, maar grotendeels genegeerd aspect is de gecodeerde afwezigheid (encoded absence): situaties waarbij de afwezigheid van een concept leidt tot een verhoogde activatie van een neuron. Bestaande XAI-methoden falen hierin omdat ze standaard geoptimaliseerd zijn voor het maximaliseren van activatie of het toewijzen van positieve bijdragen aan aanwezige features. Dit leidt tot onvolledige verklaringen, vooral bij fijnmazige classificatie (bijv. het onderscheiden van vergelijkbare hondenrassen) en kan leiden tot onopgemerkte bias in modellen.

2. Methodologie

De auteurs introduceren een causaal raamwerk voor "gecodeerde afwezigheid" en stellen twee eenvoudige extensies voor om bestaande XAI-methoden aan te passen.

A. Causale Definitie

Een neuron $z_j$ codeert de afwezigheid van een concept $\hat{x}$ als de aanwezigheid van $\hat{x}$ in de input leidt tot een vermindering van de activatie van $z_j$ . Formeel:
$f^{(l)}_j([x, C_{\hat{x}}=1]) < f^{(l)}_j([x, C_{\hat{x}}=0])$
Waarbij $C_{\hat{x}}$ een binaire variabele is die de aanwezigheid van het concept aangeeft.

B. Mechanistisch Bewijs

Het artikel toont aan dat DNN's dit mechanisme kunnen implementeren door een neuron te koppelen aan:

Een negatieve verbinding naar een neuron dat het concept $\hat{x}$ (aanwezigheid) codeert.
Een positieve potentieel (bijvoorbeeld via een ander concept $\tilde{x}$ of een bias-term) die zorgt voor activatie wanneer $\hat{x}$ afwezig is.
Dit creëert een logische "NOT" of "AANWEZIGHEID VAN $\tilde{x}$ EN AFWEZIGHEID VAN $\hat{x}$ ".

C. Aangepaste XAI-Methoden

Om deze afwezigheden te onthullen, stellen de auteurs twee modificaties voor:

Non-Target Attribution (Niet-doelgerichte toewijzing):
- Standaard: Bereken attributie voor de voorspelde klasse $t$ op input $x$ . Dit toont alleen aanwezige features.
- Aanpassing: Bereken attributie voor de klasse $t$ op inputs $x$ uit andere klassen (waar het concept $\hat{x}$ wel aanwezig is).
- Resultaat: Als het model de afwezigheid van $\hat{x}$ gebruikt om klasse $t$ te voorspellen, zal de attributie van $\hat{x}$ negatief zijn wanneer het aanwezig is in een input die toch als klasse $t$ wordt beoordeeld (of wanneer de attributie wordt berekend voor een input die niet tot $t$ behoort maar wel het concept bevat). Dit onthult het remmende effect.
Feature Visualization door Minimalisatie:
- Standaard: Zoek inputpatronen die een neuron maximaliseren. Dit toont alleen wat het neuron wil zien.
- Aanpassing: Zoek inputpatronen die een neuron minimaliseren (zoek $\hat{x} = \arg\min_x z_j(x)$ ).
- Resultaat: De patronen die de activatie het sterkst onderdrukken, vertegenwoordigen de concepten waarvan de afwezigheid door het neuron wordt gecodeerd.

3. Belangrijkste Resultaten

De auteurs valideren hun theorie en methoden via drie niveaus van experimenten:

Hassenstein-Reichardt Detector (Kunstmatig):
- Een handgemaakt CNN simuleert biologische bewegingsdetectie (rechter-naar-links vs. links-naar-rechts).
- Standaard XAI toont alleen de aanwezige beweging.
- De aangepaste methoden (non-target attribution en minimalisatie) onthullen succesvol dat het neuron ook actief is door de afwezigheid van de tegenovergestelde beweging.
Getraind Toy-model:
- Een model classificeert afbeeldingen op basis van de aanwezigheid van een groen pixel.
- Standaard methoden tonen alleen de groene pixels voor de positieve klasse.
- De aangepaste methoden tonen dat het neuron voor de "geen groen" klasse actief wordt door de afwezigheid van groen, en zelfs een remmend effect toont op niet-groene pixels (als een neveneffect van de leercurve).
ImageNet-modellen (Realistisch):
- Analyse van VGG19 en ResNet-50 op ImageNet-1k.
- Kwantitatief: Het invoegen van "minimaal activerende patches" (geïdentificeerd via minimalisatie) in hoog-activerende beelden leidt tot een drastische daling van de kanaalactivatie, wat bewijst dat deze patches remmende signalen bevatten. Bijna alle kanalen in de laatste convolutielaag tonen dit gedrag.
- Kwalitatief: Bij fijnmazige classificatie (bijv. Border Collie vs. Leonberger) coderen kanalen niet alleen de aanwezigheid van kenmerken van de doelklasse, maar ook de afwezigheid van kenmerken van verwante klassen. Dit dient als een sterk discriminatief signaal.
Debiasing (ISIC Dataset):
- In een dataset met huidlaesies bleek dat "benigne" (goedaardige) samples vaak gekleurde vlekken bevatten, wat leidde tot bias.
- Bestaande debiasing (die alleen de aanwezigheid van de vlekken onderdrukt) faalde wanneer de bias omgekeerd werd (kwaadaardige samples met vlekken). Het model bleek dan nog steeds te vertrouwen op de afwezigheid van vlekken om kwaadaardigheid te voorspellen.
- De voorgestelde "Presence + Absence Debiasing" (die zowel positieve als negatieve attributies onderdrukt) elimineerde deze bias volledig en bereikte vergelijkbare prestaties met een model getraind op onbevooroordeelde data.

4. Bijdragen

Conceptuele Definitie: Formele definitie van "gecodeerde afwezigheid" als een causale relatie in DNN's.
Methodologische Innovatie: Introductie van Non-Target Attribution en Feature Visualization by Minimization als standaardtools om afwezigheden te detecteren.
Empirisch Bewijs: Aantonen dat afwezigheden veelvoorkomend zijn in ImageNet-modellen, vooral voor fijnmazige onderscheidingen.
Toepassing op Bias: Demonstration dat bias niet alleen voortkomt uit de aanwezigheid van spurious correlaties, maar ook uit de afwezigheid ervan, en dat effectieve debiasing beide moet adresseren.

5. Significantie en Impact

Dit werk daagt de fundamentele aanname in XAI uit dat uitleggingen alleen gebaseerd moeten zijn op wat aanwezig is in de input. Het toont aan dat modellen net als biologische systemen (zoals vliegen die beweging detecteren) actief gebruikmaken van wat niet aanwezig is.

Betrouwbaarheid: Het biedt een vollediger beeld van modelgedrag, wat essentieel is voor het begrijpen van fouten en beperkingen.
Robuustheid: Het helpt bij het opsporen van subtielere vormen van bias die door standaardmethodes worden gemist.
Toekomst: Het opent de deur voor een bredere heroverweging van wat een "uitleg" is in XAI, waarbij zowel aanwezigheid als afwezigheid als causale factoren worden beschouwd.

De auteurs waarschuwen wel dat de methoden extra rekencost met zich meebrengen (door het berekenen van attributies voor meerdere klassen) en dat de interpretatie van negatieve attributies zorgvuldig moet gebeuren, maar de voordelen voor modeltransparantie wegen hier ruimschoots tegen op.