Geometrically Constrained Outlier Synthesis

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous entraînez un chien de garde (une intelligence artificielle) pour qu'il reconnaisse des pommes rouges (les données normales). Le problème, c'est que si vous lui présentez une poire verte, il risque de paniquer ou, pire, de dire avec une confiance absolue : « C'est une pomme ! ». C'est ce qu'on appelle le problème de la surconfiance face à l'inconnu.

Les chercheurs Daniil Karzanov et Marcin Detyniecki proposent une nouvelle méthode pour apprendre à ce chien de garde à dire : « Attends, ça ne ressemble pas à une pomme, je ne suis pas sûr ».

Voici comment ils y arrivent, étape par étape, avec des analogies du quotidien :

1. Le problème des anciennes méthodes : "Jeter des cailloux au hasard"

Avant, pour apprendre à l'IA à reconnaître l'inconnu, on lui montrait des exemples d'anomalies (des poires, des oranges, etc.). Mais comme on n'avait pas assez d'exemples, on créait des "fausses anomalies" virtuelles.

L'ancienne méthode (VOS) : C'était comme si on prenait un tas de pommes et qu'on leur jetait des cailloux au hasard pour les transformer en "choses bizarres". Le problème ? Parfois, le caillou tombait juste à côté de la pomme (trop facile à repérer), et parfois, il se cachait si bien dans le tas de pommes que le chien ne voyait pas la différence. C'était trop simpliste.

2. La nouvelle méthode (GCOS) : "La sculpture dans l'argile"

La méthode GCOS est beaucoup plus intelligente. Au lieu de jeter des cailloux au hasard, elle sculpte des anomalies directement dans la "matière" où l'IA pense (l'espace des caractéristiques).

Voici les deux étapes clés de leur recette :

Étape A : Trouver les "zones de silence" (L'analyse géométrique)

Imaginez que les pommes forment un gros nuage de points dans l'espace. La plupart des pommes sont très proches les unes des autres (c'est la direction où il y a beaucoup de mouvement).

L'idée : Les chercheurs disent : « Ne regardons pas là où il y a du mouvement. Regardons les directions où il y a très peu de mouvement, les "zones de silence" ».
L'analogie : Si vous êtes dans une foule (les pommes), marcher dans le sens de la foule est normal. Mais si vous essayez de marcher perpendiculairement à la foule, vous vous éloignez très vite du groupe. GCOS identifie ces directions "perpendiculaires" (les sous-espaces à faible variance) pour y placer ses fausses anomalies. Cela garantit que l'anomalie est bien à l'extérieur du groupe, mais pas n'importe où.

Étape B : Le "Coquillage de sécurité" (La coquille conforme)

Une fois qu'on a trouvé la direction pour s'éloigner, il faut décider à quelle distance s'arrêter.

Le problème : Si on s'éloigne trop peu, l'IA ne verra pas la différence. Si on s'éloigne trop, l'anomalie sera si bizarre que l'IA la repérera immédiatement sans apprendre grand-chose.
La solution (Le Coquillage) : Les chercheurs utilisent une règle mathématique appelée "coquille conforme". Imaginez un coquillage qui entoure le groupe de pommes.
- L'intérieur du coquillage, c'est le monde normal.
- L'extérieur, c'est le monde très étrange.
- La zone magique : C'est la coquille elle-même (la fine couche entre l'intérieur et l'extérieur).
- GCOS crée ses fausses anomalies exactement dans cette coquille. Ce sont des choses qui sont "juste assez étranges" pour être repérées, mais pas trop pour être ridicules. C'est comme entraîner un détective avec des casques limites, pas avec des crimes impossibles.

3. L'entraînement : "Le jeu de l'opposant"

Une fois ces fausses anomalies créées dans la "coquille", l'IA joue à un jeu :

Elle voit une vraie pomme (donnée normale).
Elle voit une fausse pomme créée dans la coquille (anomalie).
Elle doit apprendre à faire la différence.
Grâce à cette méthode, l'IA apprend à dessiner une frontière de décision beaucoup plus précise. Elle ne dit plus "Tout ce qui est rouge est une pomme", mais "Seules les pommes qui ressemblent exactement à celles-ci sont des pommes".

4. Pourquoi c'est génial ? (Les résultats)

Les chercheurs ont testé leur méthode sur des cas difficiles, comme :

Distinguer un Golden Retriever (normal) d'un Labrador (anomalie, car ce sont deux races de chiens très similaires).
Distinguer un œil sain d'un œil malade avec une maladie différente.

Le résultat ? GCOS est bien meilleur que les méthodes actuelles. Il réussit à repérer les "presque-pommes" ou les "presque-chiens" que les autres modèles confondent avec la réalité.

5. La touche finale : La "Garantie Mathématique"

En plus d'être plus performant, ce système utilise une technique appelée prédiction conforme.

L'analogie : Imaginez que l'IA ne vous donne pas juste un "Oui/Non", mais un certificat de confiance.
Au lieu de dire "Je suis sûr à 90%", elle dit : "Je suis sûr à 95% que c'est une pomme, et j'ai une garantie mathématique que je ne me trompe pas plus de 5 fois sur 100". C'est comme passer d'une intuition à un contrat légal.

En résumé

Cette paper propose une façon nouvelle de "fabriquer" des exemples d'erreurs pour entraîner les IA. Au lieu de faire des erreurs au hasard, ils sculptent des erreurs précises, juste à la limite de ce que l'IA peut comprendre, pour lui apprendre à être humble et prudent face à l'inconnu. C'est comme entraîner un athlète non pas avec des poids légers ou des poids impossibles, mais avec des poids parfaitement calibrés pour qu'il devienne champion.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les réseaux de neurones profonds pour la classification d'images souffrent souvent d'un excès de confiance (overconfidence) lorsqu'ils sont confrontés à des échantillons hors distribution (OOD - Out-of-Distribution). Cela signifie qu'un modèle peut attribuer une probabilité élevée à une classe incorrecte pour des données qui ne ressemblent à aucune classe d'entraînement.

Les défis spécifiques abordés par ce papier sont :

Limites des méthodes de synthèse existantes : Des approches comme la Virtual Outlier Synthesis (VOS) génèrent des outliers virtuels en supposant qu'ils suivent une distribution simple (ex: Gaussienne) en dehors du support des données. Cette hypothèse simpliste échoue souvent à capturer la complexité et la structure non-Gaussienne des anomalies réelles, surtout dans les espaces de caractéristiques (feature spaces) appris.
Benchmarks "Near-OOD" : La majorité des travaux se concentrent sur des benchmarks "Far-OOD" (données sémantiquement très différentes, ex: classifier des animaux sur des images de meubles). Or, le défi critique pour l'IA robuste est le Near-OOD, où les données hors distribution appartiennent au même domaine général mais à des sous-catégories non vues (ex: une nouvelle race de chien non présente à l'entraînement). Ces cas sont plus difficiles car les similarités dans l'espace des caractéristiques sont élevées.
Manque de garanties formelles : Les méthodes actuelles utilisent des seuils heuristiques pour détecter les OOD, sans garanties statistiques formelles sur les taux d'erreur.

2. Méthodologie : GCOS

L'auteur propose GCOS (Geometrically Constrained Outlier Synthesis), un cadre de régularisation qui génère des outliers virtuels en respectant la structure géométrique des données in-distribution (ID).

A. Synthèse Géométrique Contrainte

Au lieu d'échantillonner aléatoirement dans un espace gaussien, GCOS exploite la géométrie de l'espace latent appris par le réseau :

Analyse en Composantes Principales (PCA) : À partir des représentations cachées des données d'entraînement, une décomposition en valeurs propres est effectuée.
Sous-espaces de faible variance : Les auteurs identifient les directions de faible variance (les "petites" composantes principales). Se déplacer le long de ces directions produit des points statistiquement improbables (hors du manifold des données) tout en restant proches du centroïde de la classe, évitant ainsi des outliers triviaux ou trop éloignés.
Coquille Conformale (Conformal Shell) : Pour contrôler la difficulté des outliers synthétisés, une "coquille" est définie autour du centroïde. Les limites de cette coquille ( $\alpha_{inner}$ $α_{inn er}$ et $\alpha_{outer}$ $α_{o u t er}$ ) sont déterminées par des quantiles empiriques d'un score de non-conformité (calculé sur un ensemble de calibration).
- Cela garantit que les outliers générés ne sont ni trop proches des données réelles (indistinguables) ni trop faciles à détecter.
- Le processus utilise une recherche binaire pour trouver les valeurs de déplacement $\alpha$ qui correspondent aux seuils de quantiles (ex: 95e et 99e percentiles).

B. Objectif de Régularisation

Une fois les outliers synthétisés ( $Z_{ood}$ ), un objectif de régularisation contrastif est appliqué :

Fonction de perte : Une fonction de perte contrastive ( $L_{reg}$ ) est utilisée pour maximiser la séparabilité entre les échantillons ID et les outliers synthétiques dans un espace de scores choisi (par exemple, le score d'énergie ou la distance de Mahalanobis).
Stratégie Hybride : Le papier propose une approche hybride où la synthèse est guidée par la géométrie (distance de Mahalanobis) mais la régularisation optimise directement le paysage d'énergie (Energy-based score), connu pour sa robustesse.

C. Extension vers l'Inférence Conformale

En plus de l'entraînement, le cadre explore l'utilisation de l'inférence conforme pour la détection OOD. Cela permet de convertir les scores d'incertitude en p-values statistiquement valides, offrant des garanties formelles sur les taux d'erreur (contrôle du risque) lors de la phase d'inférence.

3. Contributions Clés

Nouvelle approche de synthèse : Remplacement des distributions paramétriques pré-définies par une synthèse géométrique basée sur les sous-espaces de faible variance du manifold appris.
Heuristique Conformale : Utilisation des quantiles de scores de non-conformité pour définir dynamiquement la difficulté des outliers synthétiques, assurant un équilibre optimal pour l'apprentissage.
Focus sur le Near-OOD : Évaluation rigoureuse sur des tâches où les données OOD partagent le même domaine sémantique que les données ID (ex: races de chiens, pathologies oculaires), un scénario plus critique que le Far-OOD.
Garanties Statistiques : Proposition d'un cadre unifiant l'apprentissage de la robustesse et l'inférence conforme pour obtenir des détecteurs d'anomalies avec des garanties d'erreur formelles.

4. Résultats Expérimentaux

Les expériences ont été menées sur quatre jeux de données Near-OOD : Colored MNIST, MVTec (défauts industriels), Stanford Dogs (races de chiens) et Retinopathy (pathologies oculaires).

Performance Supérieure : GCOS surpasse l'état de l'art (SOTA), y compris les méthodes VOS, Dream-OOD, NCIS et les approches basées sur l'énergie standard.
- Sur Colored MNIST, GCOS atteint un AUROC de 99.50% et un FPR95 de 1.00%, surpassant largement VOS (AUROC 94.71%, FPR95 18.50%).
- Sur MVTec, GCOS obtient un AUROC de 95.61% contre 80.37% pour VOS.
- La moyenne AUROC globale est de 93.47%, dépassant NCIS (91.97%) et Dream-OOD (85.76%).
Visualisation de l'Espace de Caractéristiques : Les projections UMAP montrent que GCOS génère des outliers dans des régions "off-manifold" difficiles, contrairement à VOS qui place souvent les outliers près des bords des clusters. GCOS permet de "flanquer" les frontières de décision plus étroitement autour des données réelles, réduisant ainsi la confiance excessive sur les points OOD.
Robustesse : Les résultats sont stables sur plusieurs graines aléatoires et s'étendent aux tâches de détection d'objets (PASCAL-VOC avec MS-COCO/OpenImages comme OOD).

5. Signification et Impact

Ce travail est significatif car il déplace la détection d'anomalies d'une approche heuristique vers une approche géométriquement fondée et statistiquement rigoureuse.

Robustesse Réelle : En se concentrant sur le Near-OOD et en générant des outliers qui respectent la structure complexe des données, GCOS prépare mieux les modèles pour des déploiements réels où les erreurs de classification peuvent avoir des conséquences graves (santé, industrie).
Efficacité : Contrairement aux méthodes récentes basées sur des modèles de diffusion (comme Dream-OOD) qui sont coûteuses en calcul, GCOS est léger et s'intègre directement dans le processus d'entraînement standard.
Futur de l'IA Fiable : L'intégration de l'inférence conforme offre une voie prometteuse pour créer des systèmes d'IA dont les incertitudes sont quantifiées avec des garanties mathématiques, essentiel pour les domaines critiques comme la médecine.

En résumé, GCOS propose une méthode élégante et efficace pour apprendre des frontières de décision robustes en exploitant la géométrie intrinsèque des données, comblant ainsi le fossé entre la synthèse d'anomalies et la théorie de la prédiction conforme.