Conceptual Views of Neural Networks: A Framework for Neuro-Symbolic Analysis

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een kunstmatige intelligentie (AI) als een geheime chef-kok is. Deze chef kan de allerlekkerste gerechten maken (bijvoorbeeld een foto van een appel herkennen), maar hij weigert je te vertellen hoe hij dat doet. Hij zegt alleen: "Dit is een appel."

Wetenschappers noemen dit een "black box": je ziet wat erin gaat en wat eruit komt, maar het recept is onleesbaar.

In dit artikel presenteren Johannes en Tom een nieuwe manier om de keuken van deze chef te inspecteren. Ze noemen hun methode "Conceptuele Weergaven". Hier is hoe het werkt, vertaald naar alledaags taal:

1. De Twee Spiegels (De "Conceptuele Weergaven")

De auteurs kijken niet naar de hele AI tegelijk, maar naar de laatste stap voordat de AI een beslissing neemt. Ze gebruiken twee soorten spiegels om te zien wat er in die laatste stap gebeurt:

De "Grijze" Spiegel (De Veelwaardige Weergave):
Stel je voor dat je een foto van de keuken neemt waar je ziet hoeveel elke kok (neuron) aan het werk is. Sommigen werken hard (hoge waarde), sommigen slapen (lage waarde).
- Wat het doet: Het meet precies hoe sterk elke "kok" reageert op een ingang (bijv. een foto van een fruit).
- Het resultaat: Je kunt zien of de AI een appel herkent door te kijken naar de "energie" van de koks. Het is heel nauwkeurig, maar nog steeds een beetje wiskundig en abstract.
De "Zwart-Wit" Spiegel (De Symbolische Weergave):
Nu maken we het simpeler. We vragen de koks: "Ben je aan het werk of niet?"
- Als een kok harder werkt dan een bepaalde drempel, zeggen we: JA (X).
- Als hij onder de drempel zit, zeggen we: NEE (geen X).
- Het resultaat: In plaats van getallen, krijgen we een lijstje met "Ja's" en "Nee's". Dit is veel makkelijker voor mensen om te lezen. Het is alsof we van een ingewikkeld recept overgaan naar een simpele boodschappenlijst: "Is er een appel? Ja. Is er een banaan? Nee."

2. De Vergelijking: Het "Gromov-Wasserstein" Meetlint

Hoe weet je of twee verschillende AI's (bijvoorbeeld een Google-model en een Facebook-model) op dezelfde manier denken?
Stel je voor dat je twee verschillende gebouwen hebt. Je wilt weten of ze hetzelfde plattegrond hebben, maar de kamers zijn anders gerangschikt.

De auteurs gebruiken een slim meetlint (de Gromov-Wasserstein afstand). Dit meetlint kijkt niet naar de namen van de kamers, maar naar de afstanden tussen de kamers.
Als de afstand tussen de "keuken" en de "slaapkamer" in beide gebouwen hetzelfde is, dan zijn de gebouwen (de AI-modellen) qua structuur heel vergelijkbaar, zelfs als ze er anders uitzien.

3. Het Recept Ontdekken (Abductief Leren)

Dit is het meest magische deel. Nu we de "Ja/Nee-lijstjes" hebben, kunnen we ze combineren met wat wij mensen al weten (achtergrondkennis).

Het Probleem: De AI zegt: "Kok 13 is aan, Kok 4 is uit."
De Oplossing: We koppelen dit aan menselijke kennis. We weten dat "Kok 13" vaak aan gaat als het fruit rood is en rond.
Het Resultaat: We kunnen nu een regel opstellen die een mens begrijpt: "Als het fruit rood is en rond, dan is het waarschijnlijk een appel."

Dit is alsof we de geheime code van de chef vertalen naar een recept dat je zelf kunt gebruiken.

4. Wat hebben ze ontdekt? (De Experimenten)

Ze hebben dit getest op 24 verschillende AI's die foto's van fruit en andere dingen herkennen.

De "Grijze" Spiegel bleek een perfecte kopie van de AI te zijn. Als je deze gebruikt, doet hij bijna precies hetzelfde als de originele AI.
De "Zwart-Wit" Spiegel werkt het beste als de AI bepaalde soorten "koks" (activatiefuncties) gebruikt die zowel positief als negatief kunnen denken (zoals Tanh). Als de AI alleen maar positief denkt (zoals ReLU), wordt het lastiger om goede regels te maken.
Ze konden zelfs zien welke AI's op elkaar leken en welke niet, en ze konden regels vinden die de AI gebruikte om een appel te onderscheiden van een peer.

Waarom is dit belangrijk?

Vroeger moesten we AI's vertrouwen zonder te weten waarom ze iets deden. Met deze methode kunnen we:

Vertrouwen: We zien dat de AI echt weet wat hij doet (hij is niet zomaar gokken).
Vergelijken: We kunnen zien of twee AI's op dezelfde manier "leren".
Uitleggen: We kunnen de AI vragen: "Waarom dacht je dat dit een appel was?" en hij kan antwoorden met een simpele regel: "Omdat het rood en rond was," in plaats van met een onbegrijpelijk wiskundig getal.

Kortom: De auteurs hebben een vertaler bedacht die de complexe wiskunde van een AI omzet in simpele, menselijke regels, zodat we eindelijk kunnen begrijpen wat onze digitale helpers eigenlijk denken.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Neurale netwerken (NN) presteren uitstekend op diverse leeropgaven, maar hun "black-box"-karakter maakt ze moeilijk te verklaren voor mensen. Bestaande methoden voor interpretatie vallen vaak in twee categorieën:

Lokale uitleg: Methodes zoals saliency maps die uitleggen waarom een specifiek inputbeeld op een bepaalde manier werd geclassificeerd. Deze werken goed voor platte data (zoals afbeeldingen), maar zijn minder bruikbaar voor complexe, hoog-dimensionale data waar menselijke visuele inspectie onmogelijk is.
Globale uitleg: Methodes die het model als geheel proberen te karakteriseren. Deze zijn echter inherent moeilijker te ontwikkelen en minder onderzocht, hoewel ze essentieel zijn voor een volledig begrip van neurale netwerken.

De huidige literatuur staat vaak voor een keuze tussen nauwkeurigheid en interpretabiliteit, of vereist vooraf gedefinieerde concepten en handmatig ontworpen inputrepresentaties. Er is behoefte aan een formeel raamwerk dat neurale netwerken globaal analyseert, zonder de architectuur te beperken, en dat leidt tot menselijk begrijpbare regels.

Methodologie: Conceptuele Weergaven (Conceptual Views)

De auteurs introduceren Conceptuele Weergaven als een formeel raamwerk gebaseerd op Formele Conceptanalyse (FCA). Het doel is om de interne kennis van een neuraal netwerk te vertalen naar een symbolische structuur. De aanpak bestaat uit twee complementaire representaties, gebaseerd op de activaties van de laatste verborgen laag en de gewichten naar de outputlaag:

Waarde-rijke Conceptuele Weergave (Many-Valued Conceptual View):
- Dit is een continue representatie die de reële waarden van neurale activaties en gewichten vastlegt.
- Het bestaat uit twee matrices:
  - Objectweergave ( $O$ ): De activaties van de neuronen voor elke inputobject.
  - Klasseweergave ( $W$ ): De gewichten die de neuronen verbinden met de outputklassen.
- Deze matrices induceren een pseudo-metriek ruimte op objecten en klassen. Hierdoor kunnen objecten worden geclassificeerd op basis van hun gelijkenis met klassen (bijv. via 1-NN classificatie) in deze ruimte.
Symbolische Conceptuele Weergave (Symbolic Conceptual View):
- Dit is een discretisatie van de waarde-rijke weergave via conceptuele schaling (conceptual scaling) uit de FCA.
- Door drempelwaarden ( $\delta_O$ voor activaties en $\delta_W$ voor gewichten) toe te passen, wordt de continue data omgezet in een binaire relationele structuur (een formele context).
- Dit resulteert in een verzameling symbolische attributen (bijv. $n \geq \delta$ en $n \leq \delta$ ).
- Deze binaire structuur kan worden gebruikt om een conceptrooster (concept lattice) te construeren, wat een hiërarchische ordening van de geleerde concepten biedt.

Neuro-symbolische Integratie:
Het raamwerk maakt het mogelijk om achtergrondkennis (bijv. taxonomieën of menselijke annotaties) te integreren. Door subgroepontdekking (subgroup discovery) en abductief leren kunnen regels worden afgeleid die neuronen koppelen aan menselijk begrijpbare concepten (bijv. "als neuron X en Y actief zijn, dan is het fruit oranje").

Belangrijkste Bijdragen

Formeel Raamwerk: Een nieuwe, algebraïsche benadering voor globale analyse van NN's die niet afhankelijk is van auto-encoders of vooraf gedefinieerde concepten.
Architectuurvergelijking: Het gebruik van de Gromov-Wasserstein (GW) afstand op de conceptuele weergaven om neurale netwerken met elkaar te vergelijken. In tegenstelling tot methoden die direct activaties vergelijken (zoals CKA), vergelijkt deze methode de onderliggende pseudo-metriek ruimtes en is invariant ten opzichte van permutaties van neuronen.
Symbolische Vertaling: Een methode om neurale representaties om te zetten in een formaat dat geschikt is voor symbolische redeneermethoden (zoals beschrijvingslogica en beslissingsbomen), waardoor menselijke regels kunnen worden afgeleid.
Empirische Validatie: Een uitgebreide studie die de nauwkeurigheid, vergelijkbaarheid en interpretabiliteit van het raamwerk demonstreert.

Resultaten

De auteurs hebben hun methode getest op 24 ImageNet-modellen en het Fruits-360-dataset.

Nauwkeurigheid van de Waarde-rijke Weergave:
- De many-valued conceptual views fungeren als zeer nauwkeurige surrogaten voor de originele modellen.
- Een 1-NN-classificator op de pseudo-metriek ruimte bereikte een fideliteit van tot 0,999 voor veel modellen (bijv. ResNet152V2, EfficientNet).
- Euclidische afstand bleek over het algemeen superieur aan cosinus-afstand, vooral bij ResNet-modellen.
Vergelijking van Netwerken:
- De GW-afstand op de conceptuele weergaven slaagde erin om clusters van modellen te identificeren die overeenkomen met vergelijkbare architecturen.
- De weergave gebaseerd op gewichten (Class View) bleek fijner te clusteren dan die op activaties (Object View), wat suggereert dat de gewichtsstructuur architectuurspecifieke patronen beter vastlegt.
Symbolische Weergave en Interpretatie:
- De keuze van de activeringsfunctie is cruciaal. Tanh bleek de beste prestaties te leveren voor dichotomische schaling (drempel $\delta=0$ ), omdat het positieve en negatieve waarden goed scheidt.
- Modellen met ReLU presteerden slecht in de symbolische weergave omdat de positieve co-domein het moeilijk maakt om zinvolle negatieve attributen te construeren.
- Voor Tanh-modellen (op Fruits-360) bereikte een beslissingsboom op de symbolische weergave vergelijkbare nauwkeurigheid als het originele NN (tot ~98%), wat aantoont dat de symbolische vertaling een betrouwbaar surrogaat is.
- Conceptroosters konden worden gebruikt om hiërarchische relaties tussen klassen (bijv. verschillende fruitsoorten) te visualiseren en te analyseren.
Abductief Leren:
- Het was mogelijk om menselijk begrijpbare regels af te leiden die neuronen koppelen aan visuele kenmerken (kleur, vorm) en biologische taxonomieën. Bijvoorbeeld: "Fruit dat niet bruin is en niet oranje is, activeert neuron X."

Betekenis en Toekomstperspectief

Dit paper biedt een fundamentele brug tussen neurale netwerken en symbolische AI. De betekenis ligt in:

Globaliteit: Het biedt een holistisch inzicht in wat een model heeft geleerd, in plaats van alleen lokale uitleg voor individuele voorspellingen.
Onafhankelijkheid: Het vereist geen wijzigingen in de modelarchitectuur (post-hoc analyse) en geen vooraf gedefinieerde concepten.
Redeneerbaarheid: Door de vertaling naar FCA kunnen geavanceerde symbolische redeneermethoden worden toegepast op neurale netwerken.

Beperkingen en Toekomst:

Het raamwerk is momenteel beperkt tot feed-forward netwerken met een duidelijke laatste verborgen laag (geen recurrente netwerken of Transformers zonder aanpassing).
De kwaliteit van de symbolische weergave hangt sterk af van de activeringsfunctie (Tanh is preferabel boven ReLU voor deze methode).
De grootte van conceptroosters kan exponentieel groeien, wat directe visualisatie beperkt, hoewel computationele analyse (zoals het afleiden van implicaties) mogelijk blijft.
Toekomstig werk richt zich op het uitbreiden naar andere modaliteiten (tekst, tijdreeksen) en het integreren met Concept Bottleneck Models.

Kortom, de auteurs tonen aan dat neurale netwerken kunnen worden "gelezen" als formele conceptuele structuren, wat leidt tot een nieuwe generatie van interpreteerbare en vergelijkbare AI-systemen.

Conceptual Views of Neural Networks: A Framework for Neuro-Symbolic Analysis

1. De Twee Spiegels (De "Conceptuele Weergaven")

2. De Vergelijking: Het "Gromov-Wasserstein" Meetlint

3. Het Recept Ontdekken (Abductief Leren)

4. Wat hebben ze ontdekt? (De Experimenten)

Waarom is dit belangrijk?

Probleemstelling

Methodologie: Conceptuele Weergaven (Conceptual Views)

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

Unsupervised Point Cloud Pre-Training via Contrasting and Clustering

Combining Tree-Search, Generative Models, and Nash Bargaining Concepts in Game-Theoretic Reinforcement Learning

3D-LFM: Lifting Foundation Model

Sparse Training for Federated Learning with Regularized Error Correction

ConjNorm: Tractable Density Estimation for Out-of-Distribution Detection