VISIONLOGIC: From Neuron Activations to Causally Grounded Concept Rules for Vision Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar mysterieuze kunstenaar hebt die elke foto die je hem geeft, perfect kan herkennen. Hij ziet een hond en zegt: "Dat is een husky!" Maar als je vraagt: "Waarom?", dan knikt hij alleen maar en zegt: "Omdat ik het zo voel." Hij is een zwart doosje. Je weet wat hij doet, maar niet hoe of waarom.

Dit is het probleem met moderne kunstmatige intelligentie (AI) voor beeldherkenning. Ze zijn zo goed, maar zo ondoorzichtig.

Deze paper introduceert VISIONLOGIC, een nieuwe manier om deze AI's niet alleen te laten zien wat ze zien, maar om uit te leggen waarom ze een beslissing nemen, en wel op een manier die we kunnen vertrouwen.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het probleem: De "Valse Vrienden"

Tot nu toe probeerden wetenschappers de AI te begrijpen door te kijken naar statistieken. Ze zeiden bijvoorbeeld: "Kijk, elke keer als de AI een koe ziet, licht er een bepaald stukje van de foto op waar het gras is. Dus de AI denkt: gras = koe."

Maar dit is gevaarlijk! Stel je voor dat je een foto van een koe in de wei ziet. De AI denkt misschien: "Ah, gras!" en concludeert daaruit dat het een koe is. Maar als je een foto van een schaap in dezelfde wei ziet, denkt de AI misschien ook: "Gras! Dus dit is ook een koe."
De AI heeft een valse vriend gevonden: gras en koeien komen vaak samen voor, maar gras veroorzaakt niet dat het een koe is. Dit is een correlatie, geen oorzaak. De oude methoden konden dit onderscheid niet maken.

2. De oplossing: VISIONLOGIC (De Detective)

VISIONLOGIC is als een slimme detective die niet alleen kijkt naar wat er aanwezig is, maar actief test wat er gebeurt als je iets weghaalt. Het werkt in drie stappen:

Stap 1: Van "Gedachten" naar "Regels" (De Vertaler)

De AI heeft duizenden interne "neuronen" (zoals kleine gedachten) die allebei aan en uit gaan. VISIONLOGIC pakt deze chaotische gedachten en vertaalt ze naar simpele ja/nee-regels.

Voorbeeld: In plaats van "neuron 452 is 0.87 aan", zegt VISIONLOGIC: "Is er een puntige oor? JA." of "Is er een staart? JA."
Het maakt van de complexe wiskunde een lijstje met duidelijke, logische regels.

Stap 2: De "Koffie-Test" (Het Causale Bewijs)

Dit is het meest unieke deel. Om te bewijzen dat een regel echt belangrijk is, doet VISIONLOGIC een experiment.
Stel je voor dat je een schilderij hebt en je wilt weten of de rode vlek in het midden de reden is dat het een "sfeervolle avond" is.

De oude methode: Kijkt naar het schilderij en zegt: "Er is een rode vlek, dus het is sfeervol."
De VISIONLOGIC methode: Neemt een kwast en veegt de rode vlek weg (vervanging door ruis).
- Als het schilderij nu niet meer als "sfeervolle avond" wordt gezien, dan was die rode vlek echt de oorzaak.
- Als het schilderij er nog steeds "sfeervol" uitziet, was de rode vlek misschien gewoon toeval.

VISIONLOGIC doet dit automatisch en heel snel. Het veegt stukjes van de foto weg en kijkt of de AI nog steeds dezelfde conclusie trekt. Alleen de stukjes die echt nodig zijn, worden bewaard als "waarheid".

Stap 3: De Regels Samenvoegen (De Recept)

Uiteindelijk heeft VISIONLOGIC een lijstje met bewezen regels voor elke categorie.

Voor een "Hond": "Moet een snuit hebben (ja) EN een staart (ja) EN geen wolvenoren (nee)."
Voor een "Wolf": "Moet een puntige snuit hebben (ja) EN grote oren (ja)."

Deze regels zijn causaal onderbouwd. De AI heeft bewezen dat als je de snuit verwijdert, het geen hond meer is.

Waarom is dit geweldig?

Betrouwbaarheid: Het voorkomt dat de AI op "valse vrienden" (zoals gras bij koeien) afgaat. Het leert de echte oorzaken.
Menselijk begrip: Mensen kunnen deze regels lezen en begrijpen. "Ah, de AI dacht dat het een wolf was omdat hij grote oren zag." Dat is iets wat we kunnen controleren.
Werkt voor iedereen: Of de AI nu een oude CNN is of een moderne Vision Transformer, VISIONLOGIC werkt voor beide.

Conclusie

VISIONLOGIC is als het geven van een recept in plaats van alleen het eindgerecht. Het zegt niet alleen "dit is een taart", maar legt uit: "Ik heb dit als taart geïdentificeerd omdat er chocolade, eieren en bloem in zaten, en als ik de chocolade weghaal, is het geen taart meer."

Het maakt de "zwarte doos" van de AI transparant, eerlijk en begrijpelijk voor ons allemaal.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Diepe leermodellen voor computerzicht (zoals CNN's en Vision Transformers) hebben uitstekende prestaties geleverd, maar hun "black-box"-karakter blijft een grote hindernis voor betrouwbaar AI. Bestaande interpretatiemethoden, met name concept-gebaseerde uitlegmethoden (zoals TCAV, ACE en CRAFT), proberen hoogwaardige semantische concepten te onthullen in plaats van pixel-level attributiekaarten.

Echter, deze bestaande methoden lijden aan een fundamenteel tekort:

Correlatie vs. Causaliteit: Ze vertrouwen bijna uitsluitend op correlatieve bewijzen (statistische samenhang) zonder causale validatie. Dit kan leiden tot valse of misleidende uitleg, waarbij dataset-biasen worden verward met echte modelredenering (bijv. het associëren van "weide" met "koe" omdat ze vaak samen voorkomen, zonder dat de weide causaal is voor de classificatie).
Gebrek aan principieel causaal bewijs: Er ontbreekt een methodologische basis om robuuste, interpreteerbare concepten te valideren die daadwerkelijk causaal verantwoordelijk zijn voor de beslissingen van het model.

Methodologie: Het VISIONLOGIC Framework

VISIONLOGIC is een nieuw neuraal-symbolisch raamwerk dat betrouwbare, hiërarchische uitleggen produceert in de vorm van globale logische regels over causaal gevalideerde concepten. Het proces verloopt in drie fasen:

1. Afleiding van Predicaten uit Neuronactivaties

Het model transformeert continue neuronactivaties naar binaire predicaten ( $p_j(x) \in \{0, 1\}$ ).
In plaats van willekeurige drempelwaarden te gebruiken, leert het framework per kanaal optimale drempelwaarden ( $T_j$ ) en scherpte-parameters ( $s_j$ ) via differentieerbare poorten.
Het introduceert rank-gevoelige predicaten: een predicat wordt alleen geactiveerd als de bijdrage van dat kanaal tot de voorspelling binnen de top- $k$ (bijv. top-1, top-2, top-3) ligt én de activatie boven de drempel is. Dit zorgt voor een compacte vocabulaire en voorkomt proliferatie van onnodige predicaten.
Het systeem ondersteunt "polysemantische" neuronen (waarbij één neuron meerdere concepten kan coderen) door specifieke takken voor positieve en negatieve responsen te definiëren.

2. Inductie van Logische Regels en Inferentie

Op basis van de geleerde predicaten worden symbolische regels geïnduceerd die de beslissingslogica van het model benaderen.
Voor elke klasse wordt een profiel opgesteld door de frequentie van predicaten te tellen.
Voor een nieuwe invoer wordt een uitlegscore ( $S(x, c)$ ) berekend op basis van de gemiddelde rangorde van de actieve predicaten voor die klasse. De klasse met de laagste score (d.w.z. de meest karakteristieke predicaten) wordt gekozen.
Dit creëert een interpreteerbare, logische afleiding die de oorspronkelijke modelvoorspelling benadert.

3. Causale Verankering (Grounding) van Concepten

Dit is het kerninnovatieve onderdeel: predicaten worden gekoppeld aan visuele concepten in de invoerruimte via ablatie-gebaseerde causale tests.
Iteratieve verfijning: Het systeem start met een groot boksje (bounding box) rond een vermoedelijk relevant gebied. Door dit gebied te vervangen door ruis (of vervaging) en te controleren of het predicat van "aan" naar "uit" schakelt, wordt causaal bewijs geleverd dat dit gebied essentieel is.
Het algoritme verfijnt het boksje iteratief tot de kleinste mogelijke regio die nog steeds het predicat activeert.
Segmentatie: Voor verdere precisie worden segmentatiemodellen (zoals Mask R-CNN of SAM) gebruikt om de regio te overlappen met objectgrenzen.
Regio's die consistent over meerdere beelden van dezelfde klasse worden gevonden, worden samengevoegd tot een causaal gevalideerd visueel concept.

Belangrijkste Bijdragen

Neuraal-Symbolisch Framework: VISIONLOGIC koppelt neurale representaties direct aan symbolische logische regels, waarbij het de kloof tussen complexe netwerken en menselijk begrijpelijk redeneren overbrugt.
Causale Validatie: Het is het eerste framework dat concepten niet alleen ontdekt, maar ook causaal valideert door middel van ablatietests en iteratieve verfijning, waardoor valse correlaties worden uitgesloten.
Efficiënt Verfijningsalgoritme: Een nieuw algoritme dat bounding boxes en segmentatiemaskers combineert om precies de causaal relevante beeldregio's te lokaliseren.
Grootschalige Menselijke Evaluatie: Uitgebreide studies tonen aan dat VISIONLOGIC de menselijke begrip van modelgedrag significant verbetert ten opzichte van state-of-the-art methoden.

Resultaten

Menselijke Evaluatie: In een studie met 531 deelnemers (in drie scenario's: bias-detectie, onduidelijke strategieën en falende gevallen) presteerde VISIONLOGIC consistent beter dan ACE, CRAFT en baselines. De "utility score" (hoe goed deelnemers het modelgedrag konden voorspellen) was significant hoger, met name bij het detecteren van bias (Husky vs. Wolf) en het begrijpen van complexe strategieën.
Modelprestaties: VISIONLOGIC behoudt de discriminatieve kracht van de oorspronkelijke modellen. Op ImageNet-1k bereikte het een Top-5 nauwkeurigheid van >90% op de beelden die door de regels werden gedekt, over verschillende architecturen heen (ResNet, ConvNeXt, ViT, Swin).
Interpreteerbaarheid: De gegenereerde regels zijn compact en de gevisualiseerde concepten (bijv. "vogelsnavel", "hondsoor", "kerktoren") zijn visueel duidelijk en causaal onderbouwd.
Architectuur-onafhankelijkheid: Het werkt zowel op CNN's als Vision Transformers, hoewel er verschillen zijn in de dichtheid van de predicaten (Transformers gebruiken vaak meer predicaten per concept).

Betekenis en Impact

VISIONLOGIC biedt een doorbraak in het veld van XAI (Explainable AI) door de afhankelijkheid van puur correlatieve methoden te doorbreken. Door causale validatie te integreren, biedt het:

Betrouwbaarheid: Uitleggen die niet misleidend zijn door dataset-bias.
Vertrouwen: Essentieel voor hoog-risico toepassingen (zoals medische diagnose of autonoom rijden) waar het begrijpen van waarom een beslissing wordt genomen cruciaal is.
Toekomstperspectief: Het legt de basis voor het ontwikkelen van modellen die niet alleen goed presteren, maar ook transparant en auditabel zijn in hun redeneringsproces.

Kortom, VISIONLOGIC transformeert de "black box" van diepe visiemodellen in een reeks van logische, menselijk begrijpelijke regels die stevig verankerd zijn in de causale structuur van de data.

VISIONLOGIC: From Neuron Activations to Causally Grounded Concept Rules for Vision Models

1. Het probleem: De "Valse Vrienden"

2. De oplossing: VISIONLOGIC (De Detective)

Stap 1: Van "Gedachten" naar "Regels" (De Vertaler)

Stap 2: De "Koffie-Test" (Het Causale Bewijs)

Stap 3: De Regels Samenvoegen (De Recept)

Waarom is dit geweldig?

Conclusie

Probleemstelling

Methodologie: Het VISIONLOGIC Framework

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation