YOLOv10 with Kolmogorov-Arnold networks and vision-language foundation models for interpretable object detection and trustworthy multimodal AI in computer vision perception

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un détective très rapide et très efficace nommé YOLO (You Only Look Once). Ce détective regarde des photos et crie immédiatement : « C'est une voiture ! », « C'est un piéton ! » ou « C'est un chat ! ». Il est super rapide, parfait pour les voitures autonomes qui doivent réagir en une fraction de seconde.

Mais il y a un problème : ce détective est un peu comme un magicien. Quand il vous dit « Je suis sûr à 99 % que c'est un chien », vous ne savez pas pourquoi il est si sûr. Est-ce parce que le chien est bien éclairé ? Ou est-ce qu'il se trompe parce qu'il y a du brouillard ? Parfois, il a l'air confiant alors qu'il est complètement perdu.

C'est là que cette recherche intervient. Les auteurs ont créé un système de « double vérification » intelligent pour rendre ce détective transparent et digne de confiance. Voici comment cela fonctionne, expliqué simplement :

1. Le Détective (YOLOv10)

C'est le premier cerveau. Il regarde l'image et trouve les objets. Il sort une liste de prédictions avec un score de confiance (ex: 85 %). Mais ce score est une « boîte noire » : on ne sait pas ce qui a influencé ce chiffre.

2. Le Traducteur Transparent (Le Réseau KAN)

Pour comprendre le détective, les chercheurs ont ajouté un deuxième cerveau, appelé Réseau KAN (basé sur les mathématiques de Kolmogorov-Arnold).

L'analogie du Chef de Cuisine : Imaginez que le détective (YOLO) est un chef qui prépare un plat complexe. Le KAN est un inspecteur de cuisine qui ne cuisine pas, mais qui analyse exactement ce qui a été mis dans la soupe.
Comment ça marche ? Au lieu de regarder l'image entière, l'inspecteur regarde 7 ingrédients clés que le chef a utilisés :
1. La position de l'objet (gauche/droite, haut/bas).
2. La taille de l'objet.
3. Le score de confiance du chef.
4. Le type d'objet (chat, voiture, etc.).
5. La taille de l'image.
La Magie des Courbes : Le KAN trace des courbes lisses pour chaque ingrédient. Il peut vous dire : « Ah, quand la voiture est très petite (ingrédient taille), la confiance du chef chute doucement. » ou « Quand l'objet est un camion (ingrédient type), la confiance monte en flèche. »
Le Résultat : Si le détective dit « C'est un camion » mais que l'inspecteur KAN voit que l'image est floue et que la taille est bizarre, il vous avertit : « Attention ! Le chef est confiant, mais les ingrédients ne collent pas. Ne faites pas confiance à cette prédiction ! » C'est comme un système d'alarme qui vous dit quand le détective commence à halluciner.

3. Le Narrateur (Le Modèle Vision-Langage)

Pour rendre les choses encore plus claires pour les humains, les chercheurs ont ajouté un troisième élément : un narrateur automatique (basé sur un modèle appelé BLIP).

L'analogie du Guide Touristique : Si vous regardez une photo floue d'une rue, le détective voit juste des formes. Le narrateur, lui, regarde la photo et dit : « Voici une photo d'une rue de Bath avec un bus partiellement caché par un arbre et un peu de brouillard. »
Pourquoi c'est utile ? Cela permet de croiser les informations. Si le détective dit « C'est un bus » et que le narrateur dit « C'est un bus caché par un arbre », le système comprend que la situation est difficile et que la confiance doit être plus faible.

En Résumé : Pourquoi c'est génial ?

Imaginez que vous conduisez une voiture autonome dans la pluie.

Sans ce système : La voiture voit un objet, dit « C'est un piéton, je suis sûr à 90 % ! » et freine brusquement. Mais en réalité, c'était juste un sac plastique. Panique inutile.
Avec ce système :
- Le détecte voit le sac.
- L'inspecteur KAN regarde les ingrédients : « L'objet est petit, flou, et la texture ne correspond pas à un humain. La confiance devrait être de 10 %, pas 90 %. »
- Le narrateur ajoute : « C'est un objet indistinct dans la pluie. »
- Décision finale : La voiture ne freine pas brutalement. Elle ralentit prudemment.

L'objectif final de cette recherche est de créer une Intelligence Artificielle qui ne ment pas. Elle ne se contente pas de donner une réponse, elle explique pourquoi elle a cette réponse et vous dit quand elle n'est pas sûre d'elle. C'est la différence entre un oracle mystérieux et un partenaire de confiance avec qui vous pouvez discuter.

Each language version is independently generated for its own context, not a direct translation.

Titre : Détection d'objets interprétable et IA multimodale fiable : YOLOv10 couplé aux réseaux de Kolmogorov-Arnold et aux modèles fondationnels vision-langage

1. Problématique

Les systèmes de détection d'objets en temps réel, tels que les modèles You Only Look Once (YOLO), sont largement utilisés pour la perception visuelle des véhicules autonomes et d'autres applications critiques. Cependant, ils souffrent d'un manque de transparence interne :

Opacité des scores de confiance : Dans des scènes visuellement dégradées (flou, occlusion, faible texture) ou ambiguës, les scores de confiance générés par le modèle sont souvent peu fiables et ne fournissent aucune explication sur la raison pour laquelle une détection est acceptée ou rejetée.
Manque d'interprétabilité : Les surfaces de décision apprises sont hautement non linéaires et dépendent de manière opaque de caractéristiques géométriques et sémantiques.
Besoin de fiabilité : Pour le déploiement en sécurité critique (véhicules autonomes), il est essentiel de pouvoir distinguer les prédictions fiables des prédictions incertaines et de comprendre les facteurs influençant ces décisions.

2. Méthodologie

Les auteurs proposent un cadre unifié combinant trois composantes principales pour créer un pipeline de perception interprétable et multimodal :

A. Le Détecteur de Base (YOLOv10)

Utilisation de YOLOv10 comme détecteur d'objets en temps réel.
Le modèle génère des prédictions structurées sous forme de tuples : position normalisée $(x, y)$ , taille normalisée $(w, h)$ , score de confiance $(conf)$, indice de classe $(c)$ et échelle relative de l'image $(s = \frac{wh}{640^2})$ .
Ces sept caractéristiques numériques servent d'entrée pour le modèle de substitution (surrogate).

B. Le Modèle de Substitution Interprétable (Réseau Kolmogorov-Arnold - KAN)

Au lieu d'utiliser un réseau de neurones classique (MLP) opaque, les auteurs emploient un Réseau de Kolmogorov-Arnold (KAN).
Fondement théorique : Basé sur le théorème de représentation de Kolmogorov-Arnold, qui stipule que toute fonction multivariée continue peut être exprimée comme une superposition finie de fonctions univariées continues.
Architecture :
- Le réseau remplace les poids appris par des fonctions de spline entraînables (splines B-splines d'ordre 3) sur chaque connexion entre les entrées et les unités cachées.
- Architecture : 7 entrées $\rightarrow$ 16 unités cachées $\rightarrow$ 1 sortie (estimation de confiance).
- Avantage clé : La structure additive permet de visualiser directement l'influence de chaque caractéristique individuelle via des graphiques de dépendance partielle, rendant la fonction de confiance transparente et lisible.

C. Le Modèle Vision-Langage (BLIP)

Intégration d'un modèle fondationnel BLIP (Bootstrapped Language-Image Pretraining).
Fonction : Génère des légendes descriptives en langage naturel pour chaque scène détectée.
Objectif : Fournir un contexte sémantique et linguistique qui complète les explications numériques du KAN, créant ainsi une interface multimodale légère sans altérer la couche d'interprétabilité.

3. Contributions Clés

Cadre d'interprétabilité post-hoc : Utilisation innovante des KAN comme substitut interprétable pour modéliser la confiance de YOLOv10, permettant de visualiser comment les caractéristiques géométriques et sémantiques influencent la fiabilité.
Transparence des scores de confiance : Capacité à identifier précisément les situations (flou, occlusion) où la confiance du détecteur est faible ou non fiable, offrant des insights exploitables pour la filtrage ou l'atténuation des risques.
Analyse structurelle des unités cachées : Démonstration que les unités cachées du KAN se spécialisent de manière cohérente (certaines pour la classe, d'autres pour la confiance), offrant une structure interne lisible contrairement aux "boîtes noires" traditionnelles.
Interface Multimodale Intégrée : Combinaison réussie de l'interprétabilité numérique (KAN), de la détection visuelle (YOLO) et de l'explication linguistique (BLIP) dans un seul pipeline cohérent.

4. Résultats Expérimentaux

Les expériences ont été menées sur le jeu de données COCO et des images du campus de l'Université de Bath.

Performance du KAN : Le modèle de substitution atteint une fidélité élevée ( $R^2 \approx 0.995$ ) sur l'ensemble des données, prouvant qu'il capture avec précision la relation fonctionnelle entre les entrées et la confiance de YOLOv10.
Analyse des Caractéristiques :
- Les graphiques de dépendance partielle montrent que l'indice de classe et le score de confiance initial sont les facteurs dominants influençant la sortie.
- Les dimensions géométriques (largeur, hauteur) ont une influence plus faible mais monotone et stable.
- L'échelle de l'image a un impact négligeable, indiquant que la confiance n'est pas biaisée par la résolution.
Robustesse aux conditions dégradées :
- Dans des scènes de haute qualité (camions, voitures de police), le KAN et le détecteur s'accordent étroitement.
- Dans des scènes difficiles (occlusion partielle, flou, encombrement), le KAN identifie correctement une baisse de fiabilité, signalant que la détection est moins fiable même si le détecteur original maintient un score élevé.
Monotonie et Stabilité : L'analyse de monotonie confirme que les relations apprises sont lisses et stables, sans artefacts de surapprentissage, ce qui renforce la confiance dans les explications fournies.

5. Signification et Impact

Ce travail représente une avancée significative vers une IA de confiance (Trustworthy AI) dans la vision par ordinateur :

Sécurité pour les Véhicules Autonomes : En fournissant une estimation de confiance interprétable, le système permet aux véhicules autonomes de prendre des décisions plus sûres (ex: passer le relais à un conducteur humain ou ralentir) lorsque le modèle détecte une incertitude élevée dans des conditions ambigües.
Explicabilité Actionnable : Contrairement aux méthodes d'IA explicable (XAI) post-hoc complexes, l'approche KAN offre des visualisations directes et intuitives des mécanismes de décision.
Multimodalité Pratique : L'intégration de légendes générées par IA enrichit la perception humaine sans sacrifier la performance temps réel ni la transparence du modèle sous-jacent.

En conclusion, cette étude démontre qu'il est possible de déployer des détecteurs d'objets rapides et précis tout en maintenant un niveau élevé de transparence et de fiabilité, essentiel pour l'adoption de l'IA dans des environnements critiques.