SphOR: A Representation Learning Perspective on Open-set Recognition for Identifying Unknown Classes in Deep Learning Models

Each language version is independently generated for its own context, not a direct translation.

🎩 Le Problème : Le Dilemme du Garde de Sécurité

Imaginez un garde de sécurité très intelligent (une Intelligence Artificielle) qui travaille dans un musée.

Sa formation : Il a appris à reconnaître 5 types de tableaux célèbres (des chats, des voitures, des avions, etc.).
Le problème : Un jour, un visiteur lui montre un objet étrange qu'il n'a jamais vu (par exemple, un robot ou un animal imaginaire).
L'erreur classique : La plupart des intelligences artificielles actuelles sont trop confiantes. Elles vont dire : "Ce n'est pas un robot, c'est forcément un chat !" (même si ça ressemble à un robot). C'est ce qu'on appelle le "Piège de la Familiarité" : l'IA préfère forcer une réponse connue plutôt que d'admettre son ignorance.

Le but de la recherche SpHOR est d'apprendre à ce garde de sécurité à dire : "Je ne connais pas cet objet, c'est un inconnu", tout en restant très précis pour les objets qu'il connaît déjà.

🌟 La Solution : SpHOR (L'Architecte de l'Espace)

Les chercheurs de l'Université de Melbourne proposent une nouvelle méthode appelée SpHOR. Au lieu d'entraîner l'IA de la manière habituelle, ils changent la façon dont elle "voit" et "organise" le monde dans sa tête.

Voici les trois ingrédients magiques de SpHOR, expliqués avec des analogies :

1. La "Salle de Bal Sphérique" (Représentation Sphérique) 🌍

Imaginez que l'IA place chaque objet qu'elle voit sur une immense sphère (comme une boule de bowling géante).

Avant : Les objets étaient placés dans un espace infini et plat. Les objets "inconnus" pouvaient se cacher n'importe où, parfois très près des objets connus, rendant la distinction difficile.
Avec SpHOR : Tout est contraint sur la surface de la sphère. Cela force l'IA à organiser les objets de manière très claire. Si un objet ne rentre pas bien dans les groupes connus sur cette sphère, il est immédiatement repéré comme un intrus. C'est comme si on forçait tous les invités à rester sur la piste de danse, ce qui rend les intrus beaucoup plus visibles.

2. Les "Chaises de Danse Orthogonales" (Orthogonalité) 🪑

Imaginez que chaque type d'objet (Chat, Voiture, Avion) a sa propre "zone de danse" sur la sphère.

Le problème habituel : Parfois, les zones se chevauchent. Un chat qui ressemble à un tigre peut se retrouver dans la zone du tigre, et l'IA se trompe.
La solution SpHOR : Les chercheurs imposent une règle stricte : les zones de danse doivent être orthogonales (perpendiculaires, comme les murs d'une pièce).
- Analogie : Imaginez que la zone "Chat" est un mur Nord, et la zone "Voiture" est un mur Est. Ils ne se touchent jamais. Si un objet essaie de se placer entre les deux murs, il est clairement dans un "espace vide" (l'espace ouvert) et l'IA sait qu'il s'agit d'un inconnu. Cela évite que l'IA confonde deux choses différentes.

3. Le "Mélangeur de Couleurs" (Mixup et Lissage) 🎨

Pour entraîner l'IA à être plus robuste, on utilise une astuce drôle : on mélange deux images ensemble avant de les montrer à l'IA.

Exemple : On prend 50% d'une photo de voiture et 50% d'une photo d'avion. L'IA voit une image floue, mi-voiture mi-avion.
L'effet : Au lieu de paniquer, l'IA apprend que cet objet flou ne doit pas être classé strictement comme "voiture" ou "avion", mais qu'il se situe dans une zone de transition. Cela apprend à l'IA à être plus tolérante et à mieux comprendre les zones frontières. C'est comme entraîner un garde de sécurité avec des déguisements bizarres pour qu'il apprenne à repérer ce qui ne va pas.

🏆 Les Résultats : Pourquoi c'est génial ?

Les chercheurs ont testé SpHOR sur des benchmarks très difficiles (comme distinguer des espèces d'oiseaux très similaires ou des modèles d'avions).

Moins d'erreurs : SpHOR réussit beaucoup mieux à dire "Je ne sais pas" quand il voit un objet inconnu, évitant ainsi le "Piège de la Familiarité".
Plus précis : Il ne perd pas sa précision pour les objets qu'il connaît déjà.
Économique : Contrairement à d'autres méthodes complexes qui demandent des super-ordinateurs, SpHOR est rapide et fonctionne bien même avec peu de données.

En Résumé 📝

SpHOR, c'est comme si on rééduquait le cerveau d'une intelligence artificielle :

On lui donne une sphère pour ranger ses connaissances (pour que tout soit bien rangé).
On lui impose des murs invisibles entre les catégories (pour qu'elles ne se mélangent pas).
On lui fait jouer avec des mélanges bizarres (pour qu'elle apprenne à reconnaître les zones floues).

Le résultat ? Une IA qui est non seulement très intelligente pour ce qu'elle connaît, mais surtout honnête quand elle rencontre quelque chose de nouveau. C'est une avancée cruciale pour des applications réelles comme les voitures autonomes (qui ne doivent pas confondre un sac plastique avec un piéton) ou le diagnostic médical (qui ne doit pas ignorer une nouvelle maladie).

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : La Reconnaissance en Ensemble Ouvert (OSR)

La reconnaissance en ensemble ouvert (Open-Set Recognition - OSR) vise à permettre aux réseaux de neurones profonds (DNN) d'identifier correctement les données appartenant à des classes inconnues lors de l'inférence, au lieu de les classer de force dans une classe connue (ce qui conduit à des erreurs de confiance élevée).

Le défi principal : Contrairement à la détection de données hors distribution (OOD) qui repose souvent sur des décalages de covariables (ex: un changement de modalité d'imagerie), l'OSR se concentre sur les décalages sémantiques (de nouvelles catégories). Le défi majeur est le "piège de la familiarité" (Familiarity Trap) : les classes inconnues peuvent être sémantiquement très proches des classes connues (ex: deux races de chiens différentes), partageant des attributs de fond ou de texture, ce qui les rend difficiles à séparer dans l'espace latent.
Limites des approches actuelles : La plupart des méthodes OSR entraînent simultanément l'extracteur de caractéristiques et le classifieur. Cela conduit à des représentations qui s'adaptent implicitement aux classes connues mais échouent souvent à structurer l'espace pour les classes inconnues. De plus, l'utilisation d'objectifs génériques (comme l'apprentissage contrastif supervisé standard) n'est pas spécifiquement conçue pour gérer les classes inconnues.

2. Méthodologie : SpHOR

Les auteurs proposent SpHOR, une méthode en deux étapes qui découple l'apprentissage de la représentation de l'entraînement du classifieur. L'objectif est de façonner explicitement l'espace des caractéristiques avant d'entraîner le classifieur.

Étape 1 : Apprentissage de Représentation Sphérique

Cette étape utilise un apprentissage supervisé pour structurer l'espace des caractéristiques selon trois innovations clés :

Représentations Sphériques et Distribution von Mises-Fisher (vMF) :
- Au lieu d'un espace euclidien non borné (qui augmente le risque d'espace ouvert), les caractéristiques sont normalisées en $L_2$ pour être projetées sur une hypersphère.
- Les classes sont modélisées comme des mélanges de distributions von Mises-Fisher, ce qui permet une interprétation mathématique intuitive basée sur l'alignement et l'uniformité.
Contrainte d'Orthogonalité (Orthogonality Regularizer - $R_{Ortho}$ ) :
- Pour éviter le piège de la familiarité, la méthode force les embeddings d'étiquettes (label embeddings) à être orthogonaux les uns aux autres.
- Cela garantit que chaque classe occupe un sous-espace linéaire distinct, réduisant les attributs partagés entre les classes et augmentant la séparation sémantique.
Intégration de Mixup et de l'Étalonnage des Étiquettes (Label Smoothing - LS) :
- Ces techniques sont intégrées directement dans la phase d'apprentissage de la représentation.
- Mixup crée des échantillons intermédiaires (ambigus) qui simulent des classes inconnues, forçant le modèle à apprendre à gérer les espaces "non-classiques".
- Label Smoothing atténue la confiance excessive du modèle.
- La fonction de perte combinée (vMFAL) optimise simultanément l'Alignement (attirer les échantillons vers leur prototype de classe) et l'Uniformité (répartir les échantillons ambiguës entre les prototypes).

Étape 2 : Entraînement du Classifieur

Une fois les représentations apprises, le réseau de projection et les embeddings d'étiquettes sont abandonnés. Un classifieur simple (MLP linéaire) est entraîné sur les caractéristiques extraites (froides/frozen) en utilisant une perte d'entropie croisée standard.

Règles de Scoring (Post-traitement)

Pour détecter les inconnus, SpHOR utilise des règles de scoring basées sur les scores du classifieur (MaxLogit), les caractéristiques (KNN) ou hybrides, avec un seuil de décision $\theta$ .

3. Contributions Clés

Méthode de découplage : Une approche en deux étapes qui apprend explicitement des représentations spécifiques aux classes avant d'entraîner le classifieur.
Nouvelles métriques d'évaluation : Introduction de la Séparabilité Angulaire (AS) et de la Séparabilité de Norme (NS) pour quantifier comment les techniques améliorent la géométrie de l'espace des caractéristiques (réduisant la proximité des inconnus aux connus et exploitant la norme des vecteurs pour la détection).
Analyse théorique : Démonstration que la perte proposée induit naturellement l'alignement et l'uniformité, et que la régularisation d'orthogonalité améliore la dispersion des classes.
Efficacité computationnelle : Contrairement aux méthodes contrastives (comme SupCon) qui ont une complexité quadratique $O(B^2)$ , SpHOR a une complexité linéaire $O(B \cdot C)$ , ce qui le rend robuste même avec de petits lots (batches).

4. Résultats Expérimentaux

Les expériences ont été menées sur des benchmarks à granularité fine (Semantic Shift Benchmark - SSB : CUB, Stanford Cars, FGVC-Aircraft) et à granularité large (Legacy CNN-32 benchmarks).

Performance SOTA : SpHOR atteint les meilleurs résultats (State-of-the-Art) sur le Semantic Shift Benchmark, avec des améliorations allant jusqu'à 5,1 % sur le score OSCR et 5,2 % sur l'AUROC par rapport aux méthodes existantes.
Robustesse : La méthode fonctionne bien même sans pré-entraînement sur ImageNet (contrairement à d'autres méthodes qui chutent drastiquement) et est moins sensible au choix de la règle de scoring.
Ablation Study :
- L'utilisation combinée de Mixup et de Label Smoothing améliore simultanément la séparabilité angulaire et la séparabilité de norme.
- La régularisation d'orthogonalité ( $R_{Ortho}$ ) améliore la dispersion des classes et l'AUROC.
- SpHOR surpasse les variantes euclidiennes (comme ARPL), confirmant l'avantage des représentations sphériques pour l'OSR.

5. Signification et Impact

Ce travail démontre que la conception explicite de l'espace de représentation est cruciale pour l'OSR, surpassant les approches qui reposent uniquement sur l'optimisation du classifieur.

Théorique : Il établit un lien fort entre la géométrie sphérique, l'orthogonalité des classes et la capacité à détecter les nouveautés sémantiques fines.
Pratique : SpHOR offre une solution robuste, efficace en calcul et performante pour des applications critiques (comme le diagnostic médical) où la capacité à rejeter les échantillons inconnus est aussi importante que la précision sur les classes connues. La méthode est particulièrement adaptée aux environnements à ressources limitées grâce à sa faible complexité et sa robustesse aux petits lots.