Logic Explanation of AI Classifiers by Categorical Explaining Functors

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Dilemme de l'IA : "Je sais le faire, mais je ne sais pas l'expliquer"

Imaginez que vous avez un chef cuisinier génial (c'est votre Intelligence Artificielle ou IA). Il prépare des plats incroyables et gagne des concours. Mais il y a un problème : il est muet. Quand vous lui demandez "Pourquoi as-tu mis du sel ici ?", il ne répond que par des gestes mystérieux ou des chiffres incompréhensibles.

Pour comprendre son travail, des experts (les chercheurs en XAI) essaient de deviner ses recettes en observant ses plats. C'est ce qu'on appelle les méthodes "post-hoc" (après coup).

Le problème : Parfois, ces experts se trompent. Ils disent : "Ah, il a mis du sel parce qu'il y avait du poivre !", alors que le chef a en fait mis du sel pour une autre raison. Ou pire, ils donnent deux explications contradictoires pour deux plats presque identiques. C'est comme si le chef changeait de recette sans prévenir, et que l'explication ne collait plus à la réalité.

🧩 La Solution : Des "Traducteurs" Mathématiques Rigoureux

Les auteurs de ce papier (Stefano, Francesco, et leurs collègues) disent : "Arrêtons de deviner au hasard ! Nous avons besoin d'une méthode mathématique qui garantit que l'explication est toujours fidèle à la pensée du chef."

Pour cela, ils utilisent une branche des mathématiques appelée Théorie des Catégories.

L'analogie : Imaginez que la Théorie des Catégories est comme un système de rails de train. Si vous mettez un wagon (une explication) sur les rails, il est garanti d'arriver à destination sans dérailler, même si le train passe par plusieurs gares (plusieurs couches de l'IA).

🛠️ Le Secret : Le "Foncteur Explicatif"

Le cœur de leur découverte est un outil qu'ils appellent un "Foncteur Explicatif".

Le monde flou (L'IA) : L'IA travaille avec des nombres précis et flous (comme 0,73 ou 0,42). C'est le monde des "fonctions floues".
Le monde logique (L'Humain) : Nous, humains, pensons en règles claires : "Si A et B, alors C". C'est le monde des "fonctions booléennes" (Vrai/Faux).

Le problème, c'est que passer du monde flou au monde logique est comme essayer de traduire un poème complexe en une phrase simple : on perd souvent le sens ou on invente des choses.

Leur solution : Ils ont créé un "traducteur spécial" (le foncteur) qui ne se contente pas de traduire mot à mot. Il vérifie que la structure logique est préservée.

L'analogie du pont : Imaginez un pont entre deux rives. Si vous marchez sur le pont, vous ne tombez pas. Ce "foncteur" est un pont mathématique solide. Il garantit que si vous combinez deux explications simples (comme deux pièces de Lego), le résultat final correspondra exactement au comportement global de l'IA.

🚧 Le Problème des "Règles Cassées"

Les chercheurs ont remarqué que certaines règles de l'IA sont "cassées" (incohérentes).

Exemple simple : Imaginez une règle qui dit "Si la température est supérieure à 0,5, il fait chaud".
- Cas A : Température = 0,49. Règle : "Pas chaud".
- Cas B : Température = 0,51. Règle : "Chaud".
- Mais si l'IA a une petite erreur de calcul et que 0,49 devient 0,50, la règle change brusquement. C'est incohérent.

Les auteurs ont inventé une méthode pour "réparer" ces règles cassées avant de les expliquer.

L'analogie du mécanicien : Si une pièce de voiture ne tourne pas bien, au lieu de dire "c'est la faute du moteur", on ajoute un petit correctif (une pièce supplémentaire) pour que tout tourne rond, puis on explique le fonctionnement du moteur réparé.

🧪 Les Résultats : Ça marche !

Ils ont testé leur méthode sur des "IA de synthèse" (des robots factices créés pour l'expérience).

Sans leur méthode : Les explications étaient souvent fausses ou contradictoires (comme dire "Il pleut" et "Il fait beau" en même temps pour le même ciel).
Avec leur méthode : Les explications étaient parfaitement cohérentes. Si l'IA prenait une décision, l'explication logique correspondait exactement à la raison interne de cette décision.

🌟 En Résumé

Ce papier propose une nouvelle façon de rendre l'IA compréhensible :

Arrêter de deviner : Ne plus se fier à des approximations approximatives.
Utiliser des maths solides : Utiliser la théorie des catégories pour créer un lien infaillible entre la "boîte noire" de l'IA et nos explications humaines.
Garantir la vérité : S'assurer que l'histoire qu'on raconte sur l'IA est exactement ce que l'IA a fait, sans contradictions ni mensonges involontaires.

C'est comme passer d'un traducteur automatique qui fait des erreurs à un interprète professionnel certifié qui garantit que chaque mot dit en français correspond exactement à la pensée originale en japonais.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'Intelligence Artificielle Explicable (XAI) repose souvent sur des techniques a posteriori (post-hoc) qui tentent d'extraire des règles logiques ou des attributions de caractéristiques à partir de modèles pré-entraînés opaques. Bien que les méthodes avancées puissent générer des explications sous forme de règles logiques interactives, elles souffrent d'un défaut fondamental : l'incohérence logique.

Le problème central identifié par les auteurs est l'absence de garantie que les explications extraites soient fidèles au raisonnement sous-jacent du modèle, en particulier lors de la composition de modules (comme dans les réseaux de neurones profonds).

Exemple d'incohérence : Une approximation booléenne naïve d'une fonction continue (comme la t-conorme de Łukasiewicz) peut conduire à des règles contradictoires. Par exemple, deux entrées différentes peuvent être discrétisées de la même manière (par exemple, toutes deux à 0) mais produire des sorties de classes opposées (0 et 1) après application de la règle logique extraite.
Conséquence : Les explications extraites peuvent se contredire entre elles ou ne pas refléter fidèlement le comportement du modèle, rendant les interprétations trompeuses. De plus, les explications extraites couche par couche ne garantissent pas la cohérence de l'explication globale du modèle composé.

2. Méthodologie : Une approche fondée sur la Théorie des Catégories

Pour résoudre ce problème, les auteurs proposent un cadre théorique rigoureux basé sur la Théorie des Catégories, un domaine mathématique conçu pour étudier les processus et leur composition.

A. Définition des Catégories

Les auteurs définissent deux catégories principales :

$\mathcal{F}$ (Fuzzy Functions) : Objets = espaces flous $[0, 1]^n$ ; Morphismes = fonctions continues.
$\mathcal{B}$ (Boolean Functions) : Objets = espaces booléens $\{0, 1\}^n$ ; Morphismes = fonctions booléennes.

Le défi est de construire un foncteur (une application préservant la structure) entre ces deux catégories qui soit cohérent.

B. La notion de $\delta$ -cohérence

Les auteurs introduisent la classe des fonctions $\delta$ -cohérentes ( $\delta$ -COH). Une fonction $f$ est $\delta$ -cohérente si la projection de son résultat est égale au résultat de la projection de son entrée :
$\delta(f(x)) = \delta(f(\delta(x)))$
où $\delta$ est une projection (ex: une fonction de seuillage booléen). Seules les fonctions appartenant à cette catégorie garantissent que leur explication booléenne est logique et non contradictoire.

C. Le Foncteur Explicatif ( $F_\delta$ )

Pour les fonctions $\delta$ -cohérentes, les auteurs définissent un foncteur explicatif $F_\delta : \mathcal{C}_\delta \to \mathcal{B}$ .

Ce foncteur mappe une fonction floue vers sa version booléenne ( $\delta \circ f$ ).
Propriété clé : Ce foncteur préserve la compositionnalité. Si $g \circ f$ est une composition de fonctions, alors l'explication de la composition est égale à la composition des explications : $F_\delta(g \circ f) = F_\delta(g) \circ F_\delta(f)$ . Cela garantit que l'explication globale est cohérente avec les explications des sous-composants.

D. Extension aux fonctions non-cohérentes

La plupart des fonctions réelles ne sont pas naturellement $\delta$ -cohérentes. Pour traiter ce cas, les auteurs proposent deux stratégies pour "corriger" les fonctions non-cohérentes et les rendre compatibles avec le foncteur :

Extension du domaine : Ajouter des variables d'entrée supplémentaires pour dissocier les points d'entrée qui causent des incohérences.
Modification de la sortie : Remplacer les sorties incohérentes par celles d'une fonction de référence cohérente.

Pour formaliser cela, ils introduisent une relation d'équivalence ( $\equiv_\Gamma$ ) basée sur une fonction de correction $\Gamma$ . Ils construisent alors une nouvelle catégorie de fonctions floues quotient ( $\mathcal{C}_{(\delta, \Gamma)}$ ). Sur cette catégorie, ils définissent un nouveau foncteur explicatif qui associe à n'importe quelle fonction floue une explication booléenne cohérente, en passant par la classe d'équivalence unique $\delta$ -cohérente.

3. Contributions Clés

Identification de catégories fonctionnelles cohérentes : Définition mathématique rigoureuse des fonctions dont les explications booléennes sont intrinsèquement cohérentes et combinables par composition.
Définition du "Foncteur Explicatif" : Introduction d'un foncteur catégoriel qui associe des formules logiques aux fonctions floues basées sur des concepts, en préservant la structure logique et la compositionnalité.
Cadre général pour l'explication post-hoc : Proposition d'une méthode pour étendre ce cadre aux fonctions non-cohérentes via des classes d'équivalence, permettant de générer des explications fiables même pour des modèles complexes et non linéaires.
Preuve de concept expérimentale : Validation sur des benchmarks synthétiques démontrant la supériorité de l'approche par rapport aux méthodes heuristiques existantes.

4. Résultats Expérimentaux

Les auteurs ont testé leur approche sur deux scénarios utilisant des Réseaux de Neurones Explicables par la Logique (LEN) :

Scénario 1 (Fonction $\delta$ -cohérente) : Apprentissage d'une fonction XOR booléenne.
- Résultat : Le modèle atteint une précision de 95,5% et une fidélité des explications de 94,8%. Les explications FOL (Logique du Premier Ordre) générées sont parfaitement cohérentes avec le modèle.
Scénario 2 (Fonction non- $\delta$ -cohérente) : Apprentissage de la t-conorme de Łukasiewicz (OU flou), connue pour être incohérente avec un seuillage simple.
- Sans correction : Bien que la précision du modèle reste élevée (88,4%), la fidélité de l'explication chute drastiquement à 67,1%. Les règles générées sont trompeuses (ex: $x \lor \neg x = 1$ , une tautologie qui n'explique rien).
- Avec le foncteur explicatif étendu : En appliquant la correction (ajout d'une feature "non-cohérente" $nc$ ), la fidélité des explications remonte à 83,8%. Les nouvelles règles ( $\neg x \land \neg nc$ et $x \lor nc$ ) capturent correctement le comportement du modèle dans les zones critiques.

Conclusion des résultats : L'approche permet de maintenir une haute fidélité explicative même pour des fonctions intrinsèquement incohérentes, là où les méthodes standards échouent.

5. Signification et Impact

Cet article représente une avancée significative pour la XAI en passant d'une approche heuristique à une fondation mathématique rigoureuse.

Garantie de cohérence : Contrairement aux méthodes actuelles qui peuvent produire des explications contradictoires, l'approche par foncteurs garantit que la composition des explications locales reflète fidèlement le comportement global du modèle.
Interprétabilité structurelle : Elle permet de traiter les pipelines d'apprentissage complexes (composés de multiples couches) comme des structures catégorielles, assurant que l'interprétabilité est préservée à travers toute la chaîne de traitement.
Flexibilité : Le cadre est généralisable à d'autres types de logiques et de données, offrant une base théorique pour unifier différentes méthodes d'explication (comme LIME, SHAP, ou les règles) sous un même formalisme catégoriel.

En résumé, ce travail propose une théorie unifiée pour l'apprentissage auto-explicable, assurant que les explications générées ne sont pas seulement lisibles par l'humain, mais aussi logiquement soundes et fidèles au fonctionnement interne de l'IA.

Logic Explanation of AI Classifiers by Categorical Explaining Functors

🧠 Le Dilemme de l'IA : "Je sais le faire, mais je ne sais pas l'expliquer"

🧩 La Solution : Des "Traducteurs" Mathématiques Rigoureux

🛠️ Le Secret : Le "Foncteur Explicatif"

🚧 Le Problème des "Règles Cassées"

🧪 Les Résultats : Ça marche !

🌟 En Résumé

1. Problématique

2. Méthodologie : Une approche fondée sur la Théorie des Catégories

A. Définition des Catégories

B. La notion de δ\deltaδ-cohérence

C. Le Foncteur Explicatif (FδF_\deltaFδ​)

D. Extension aux fonctions non-cohérentes

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA

B. La notion de $\delta$ -cohérence

C. Le Foncteur Explicatif ( $F_\delta$ )