Logic Explanation of AI Classifiers by Categorical Explaining Functors

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar mysterieuze robot hebt die beslissingen neemt. Bijvoorbeeld: "Is dit een hond of een kat?" De robot kijkt naar een foto en zegt: "Kat!" Maar als je vraagt: "Waarom?", dan haalt de robot zijn schouders op. Hij is een "zwarte doos" (opaque model). Hij weet het antwoord, maar kan het niet uitleggen.

In het vakgebied Explainable AI (XAI) proberen we deze robots een mond te geven. Meestal doen we dit door achteraf (post-hoc) te raden welke onderdelen van de foto belangrijk waren. Maar hier zit een groot probleem: de uitleg klopt vaak niet met hoe de robot echt denkt.

Dit artikel, geschreven door een team van onderzoekers uit Italië en het VK, komt met een slimme oplossing gebaseerd op wiskunde (specifiek Categorie-theorie). Laten we dit uitleggen met een paar simpele metaforen.

1. Het Probleem: De Verkeerde Vertaler

Stel je voor dat de robot werkt met zachte, vage getallen (zoals "iets meer dan half vol"). Maar de mens wil een harde, duidelijke uitleg ("Ja" of "Nee").

De onderzoekers geven een voorbeeld:

De robot zegt: "Als de input 0,2 en 0,2 is, is het resultaat 0,4 (Nee)."
Maar als de input 0,2 en 0,4 is, is het resultaat 0,6 (Ja).
Een simpele, slordige vertaler (een "naïeve" uitleg) kijkt alleen naar de drempel van 0,5. Hij ziet bij beide gevallen "0" en "0" en concludeert: "Ah, het is altijd Nee!"
Het probleem: Bij de tweede situatie is het resultaat eigenlijk Ja, maar de uitleg zegt Nee. De uitleg is onbetrouwbaar en tegenstrijdig. Het is alsof je een vertaler hebt die soms "ja" vertaalt als "nee", afhankelijk van de stemming.

Bij complexe neurale netwerken (die uit vele lagen bestaan) wordt dit nog erger. Als je elke laag apart uitlegt en die uitleggen samenvoegt, krijg je vaak een totaalverhaal dat niet klopt met wat de robot als geheel doet.

2. De Oplossing: De "Logische Architect" (De Functor)

De auteurs gebruiken een wiskundig gereedschap genaamd een Functor.

Laten we dit vergelijken met een architect die een gebouw vertaalt naar een plattegrond:

Het Gebouw (De AI): Een complex, 3D-gebouw met trappen, liften en muren (de neurale netwerken).
De Plattegrond (De Uitleg): Een 2D-tekening die je kunt begrijpen.

De meeste huidige methoden zijn alsof iemand snel een schets maakt van het gebouw. Die schets ziet er misschien mooi uit, maar de deuren zitten op de verkeerde plek of de trappen leiden nergens naartoe.

De Functor in dit artikel is een super-architect. Deze architect heeft een speciale regel: "Wat ook gebeurt in het echte gebouw, moet logisch gezien exact hetzelfde gebeuren op de plattegrond."

Als je in het gebouw van de eerste naar de tweede verdieping gaat, moet je op de plattegrond ook van vak A naar vak B gaan.
Als de architect twee gebouwen aan elkaar bouwt (compositie), moet de plattegrond van het nieuwe gebouw exact overeenkomen met het samenvoegen van de twee oude plattegronden.

Dit zorgt ervoor dat de uitleg altijd consistent is met de werking van de robot. Geen meer "ja" zeggen terwijl de robot "nee" bedoelt.

3. Wat doen ze precies? (De δ-COH methode)

Niet alle robots zijn makkelijk te vertalen. Sommige zijn gewoon te chaotisch.

De auteurs zeggen: "Oké, we gaan alleen die robots uitleggen die zich netjes gedragen (de zogenaamde δ-coherente functies)."
Voor robots die zich niet netjes gedragen, hebben ze een truc bedacht: ze "repareren" de robot of voegen een extra knop toe aan de uitleg.
- Analogie: Stel je voor dat een robot soms twijfelt. In plaats van een vage uitleg te geven, zeggen ze: "Als de robot twijfelt, voeg dan een extra vraag toe: 'Weet je het zeker?' (de 'nc' feature in het artikel). Dan wordt de uitleg weer perfect logisch."

4. Wat laten ze zien? (De Experimenten)

Ze hebben dit getest op twee scenario's:

Een logische puzzel (XOR): Hier werkte het perfect. De robot was al logisch, en de "architect" gaf een perfecte, foutloze uitleg.
Een moeilijke, vage puzzel (Fuzzy OR): Hier faalden de oude methoden. De uitleg was vaak onwaar. Maar met hun nieuwe "reparatie-methode" (de uitgebreide functor) kregen ze weer een betrouwbare uitleg, zelfs in de moeilijke gebieden waar de robot twijfelde.

Samenvatting in één zin

Dit artikel introduceert een wiskundige methode die ervoor zorgt dat de uitleg van een AI-robot nooit in tegenspraak is met de robot zelf, door de uitleg te behandelen als een logisch bouwwerk dat exact dezelfde regels volgt als het origineel.

Waarom is dit belangrijk?
Voor nu zijn veel AI-uitleggers slechts "schattingen". Met deze methode krijgen we voor het eerst een garantie dat de uitleg waarheidgetrouw is. Dit is cruciaal als we AI gebruiken in belangrijke situaties, zoals in de zorg of justitie, waar we niet kunnen riskeren dat de uitleg liegt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Logic Explanation of AI Classifiers by Categorical Explaining Functors" in het Nederlands.

Probleemstelling

Bestaande methoden voor Explainable AI (XAI), met name post-hoc technieken, proberen de beslissingen van ondoorzichtige (opaqu) modellen te verklaren door de meest relevante invoereigenschappen te identificeren of logische regels af te leiden uit de interacties tussen deze eigenschappen. Een fundamenteel tekortkoming van deze benaderingen is echter het gebrek aan logische consistentie en trouw (fidelity) ten opzichte van het onderliggende model.

Het paper illustreert dit probleem met een voorbeeld waarbij een continue functie (zoals de Łukasiewicz t-conorm) na een naïeve discretisatie (binaire drempelwaarde) leidt tot tegenstrijdige uitleg. Twee verschillende invoerparen kunnen dezelfde binaire representatie krijgen, maar leiden tot tegenovergestelde voorspellingen in het oorspronkelijke model. In diep neurale netwerken, die uit meerdere lagen bestaan, verergeren deze inconsistenties: als de uitleg van individuele lagen niet composioneel consistent is, is de totale uitleg van het netwerk onbetrouwbaar. Bestaande methoden respecteren vaak de functionele samenstelling niet, wat betekent dat de uitleg van de onderdelen niet noodzakelijk de uitleg van het geheel weergeeft.

Methodologie: Categorie-theoretische Benadering

De auteurs introduceren een wiskundig onderbouwde framework gebaseerd op Categorie-theorie om deze consistentieproblemen op te lossen. Het centrale idee is het definiëren van een "Explaining Functor" die logische gevolgtrekking behoudt bij het vertalen van continue fuzzy-functies naar binaire logische verklaringen.

De kerncomponenten van de methodologie zijn:

Definitie van $\delta$ -coherentie:
De auteurs introduceren een klasse van fuzzy-functies die "coherent" zijn met betrekking tot een projectie $\delta$ (bijv. een binaire drempelwaarde). Een functie $f$ is $\delta$ -coherent als het toepassen van de projectie op de uitkomst hetzelfde resultaat geeft als het toepassen van de projectie op de invoer voordat de functie wordt toegepast ( $\delta(f(x)) = \delta(f(\delta(x)))$ ). Alleen voor deze functies is een logisch consistente binaire vertaling mogelijk zonder verlies van informatie of tegenstrijdigheden.
Categorie van $\delta$ -coherente functies ( $\delta$ -COH):
Ze bewijzen dat de verzameling van $\delta$ -coherente functies een categorie vormt die gesloten is onder samenstelling. Dit betekent dat als je twee coherente functies combineert, het resultaat ook coherent is.
De Explaining Functor ( $F_\delta$ ):
Er wordt een functor gedefinieerd die de categorie van $\delta$ -coherente functies ( $\delta$ -COH) afbeeldt op de categorie van Boolese functies ( $B$ ). Deze functor, $F_\delta(f) = \delta \circ f$ , garandeert dat de logische structuur en gevolgtrekkingen behouden blijven bij de vertaling van het continue model naar een logische regel.
Omgaan met niet-coherente functies:
Aangezien veel neurale netwerken niet van nature $\delta$ -coherent zijn, stellen de auteurs een methode voor om dit probleem op te lossen via een quotiënt-categorie:
- Ze definiëren een equivalentierelatie tussen fuzzy-functies op basis van een "coherency-functie" $\Gamma$ (die een niet-coherente functie "corrigeert" naar een coherente versie).
- Ze construeren een nieuwe categorie van "quotiënt fuzzy-functies" waarin de samenstelling gedefinieerd wordt via de coherente representaties ( $\Gamma(g) \circ \Gamma(f)$ ).
- Hierdoor kan de explaining functor worden uitgebreid naar alle fuzzy-functies, waarbij eerst een coherente versie wordt gegenereerd en vervolgens de logische uitleg wordt afgeleid.

Belangrijkste Bijdragen

Identificatie van consistente categorieën: Het paper identificeert specifieke klassen van functies waarvan de Boolese uitleg per definitie consistent en combineerbaar is.
Definitie van Categorical Explaining Functors: Het introduceert en analyseert functors die logische formules koppelen aan concept-based fuzzy-functies, waarbij de eigenschap van samenstelling (compositionaliteit) strikt wordt gehandhaafd.
Wiskundige garantie van consistentie: In tegenstelling tot heuristische methoden, biedt deze aanpak een rigoureuze wiskundige garantie dat de gegenereerde uitleg logisch samenhangend is met het interne werkingsmechanisme van het model.
Praktische validatie: Het paper toont aan hoe deze theoretische constructies experimenteel kunnen worden toegepast om tegenstrijdige uitleg te voorkomen.

Experimentele Resultaten

De auteurs valideren hun theorie op synthetische benchmarks met twee scenario's:

XOR-functie (Natuurlijk coherent): Een Logic Explained Network (LEN) leert een functie die van nature $\delta$ $δ$ -coherent is.
- Resultaat: Het model bereikt hoge nauwkeurigheid en genereert logisch consistente, hoog-trouwe First-Order Logic (FOL) verklaringen.
Fuzzy OR-functie (Niet-coherent): Een LEN leert de Łukasiewicz t-conorm, die bekend staat om zijn inconsistentie bij binaire drempelwaarden.
- Resultaat zonder correctie: Hoewel de nauwkeurigheid hoog blijft, daalt de fidelity van de uitleg drastisch (van ~95% naar ~67%), wat leidt tot onbetrouwbare regels.
- Resultaat met Extended Explaining Functor: Door de post-hoc toepassing van de uitgebreide functor (via Theorema 3 en 4, waarbij een extra feature wordt toegevoegd om niet-coherente monsters te onderscheiden), stijgt de fidelity van de uitleg aanzienlijk (naar ~83,8%). De gegenereerde regels worden logisch consistent en betrouwbaar, zelfs in de moeilijke regio's van de functie.

Betekenis en Conclusie

Dit paper biedt een fundamentele doorbraak in XAI door de kloof tussen heuristische uitlegmethoden en wiskundige rigorousheid te dichten. De belangrijkste implicaties zijn:

Compositionaliteit: Het framework garandeert dat uitleg van complexe, gelaagde modellen consistent blijft met de uitleg van hun onderdelen.
Betrouwbaarheid: Het voorkomt dat gebruikers misleidende of tegenstrijdige regels krijgen, wat cruciaal is voor toepassingen waar vertrouwen en veiligheid essentieel zijn.
Generalisatie: De aanpak is niet beperkt tot Boolese logica; de theorie kan worden gegeneraliseerd naar andere logische systemen en domeinen.

De auteurs concluderen dat hun categorische framework een principieel fundament legt voor "self-explainable" leersystemen, waarbij theoretische strengheid wordt gecombineerd met praktische interpretatie. Dit opent de weg voor toekomstig onderzoek naar het verbinden van verschillende XAI-methoden (zoals LIME of saliency maps) via categorische functors en het toepassen van deze principes op sub-symboolische data zoals afbeeldingen.

Logic Explanation of AI Classifiers by Categorical Explaining Functors

1. Het Probleem: De Verkeerde Vertaler

2. De Oplossing: De "Logische Architect" (De Functor)

3. Wat doen ze precies? (De δ-COH methode)

4. Wat laten ze zien? (De Experimenten)

Samenvatting in één zin

Probleemstelling

Methodologie: Categorie-theoretische Benadering

Belangrijkste Bijdragen

Experimentele Resultaten

Betekenis en Conclusie

Meer zoals dit

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA