From Misclassifications to Outliers: Joint Reliability Assessment in Classification

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous embauchez un gardien de sécurité très intelligent pour surveiller une usine. Ce gardien a deux missions principales :

Repérer les intrus (des objets ou des personnes qui ne devraient pas être là).
Être sûr de lui quand il identifie un objet normal (ne pas dire "C'est un feu !" s'il ne voit qu'un nuage de vapeur).

Jusqu'à présent, les chercheurs en intelligence artificielle (IA) traitaient ces deux missions comme des problèmes séparés. Ils entraînaient des gardiens spécialisés soit pour repérer les intrus, soit pour ne pas se tromper sur les objets normaux. Le problème ? Dans la vraie vie, un bon gardien doit faire les deux en même temps, et les méthodes actuelles échouent souvent à évaluer correctement cette double compétence.

Voici une explication simple de la nouvelle approche proposée dans cet article, basée sur des analogies du quotidien.

1. Le Problème : Le Gardien "À Double Visage"

Imaginez deux gardiens :

Le Gardien A est excellent pour repérer les intrus lointains (comme un chien qui aboie sur un camion au loin), mais il panique souvent et crie "Intrus !" pour des choses banales (comme un chat).
Le Gardien B est très calme et ne crie que pour les vrais dangers, mais il est un peu lent à repérer les intrus qui ressemblent un peu aux objets normaux.

Les anciennes méthodes de test regardaient le Gardien A pour sa capacité à repérer les intrus, et le Gardien B pour sa capacité à ne pas paniquer. Résultat ? On ne savait pas qui était le vrai meilleur gardien pour une situation complexe.

Les auteurs de cet article disent : "Arrêtons de les tester séparément ! Il faut les tester ensemble."

2. La Solution : Le Système à Double Score (La "Double Vérification")

Au lieu de demander au gardien de prendre une seule décision, les auteurs proposent un système à deux niveaux de contrôle, comme un aéroport moderne :

Le Portique de Sécurité (Score OOD) : Il vérifie d'abord : "Est-ce que cet objet vient de l'extérieur de notre base de données ?" Si oui, on l'arrête tout de suite.
Le Scanner de Confiance (Score ID) : Si l'objet passe le premier portique, on vérifie : "Est-ce que le gardien est vraiment sûr de ce qu'il voit ?"

Si le gardien n'est pas sûr à 100 %, il dit : "Je ne sais pas, je ne vais pas prendre de risque." C'est cela, la fiabilité : savoir quand ne pas répondre.

3. Les Nouveaux Outils de Mesure (DS-F1 et DS-AURC)

Comment on mesure la performance de ce nouveau système ? Les auteurs inventent deux nouveaux "thermomètres" :

DS-F1 (Le Meilleur Score Possible) : Imaginez que vous cherchez le moment parfait où le gardien est à la fois très précis et très rapide. Ce score cherche le point idéal où il ne rate aucun vrai danger et ne fait aucune fausse alerte, en ajustant les deux portiques (les seuils) simultanément.
DS-AURC (La Courbe de Risque) : Imaginez que vous regardez le gardien travailler toute la journée, de 8h à 18h. Parfois, il est très prudent (il rejette beaucoup de choses), parfois il est plus détendu. Ce score mesure le risque moyen sur toute la journée. Plus le score est bas, plus le gardien est fiable, même quand les conditions changent.

L'analogie du "Terrain de Golf" :
Les anciennes méthodes regardaient le gardien sur un seul trou de golf. Les nouvelles méthodes regardent tout le parcours. Parfois, un gardien est excellent sur un trou (repérer les intrus lointains) mais terrible sur un autre (gérer les intrus proches). Les nouveaux scores révèlent la vérité : un bon gardien doit être bon partout.

4. La Nouvelle Méthode d'Entraînement : SURE+

Après avoir inventé de meilleurs outils de mesure, les auteurs ont créé un nouveau gardien, nommé SURE+.

C'est comme si on prenait un gardien déjà très doué (appelé SURE) et qu'on lui donnait un entraînement spécial :

Des exercices de réalité virtuelle : On lui montre des images floues, des images avec du bruit, pour qu'il apprenne à rester calme (c'est l'augmentation de données).
Une méditation pour la stabilité : On l'entraîne à ne pas paniquer face aux petites variations (c'est l'optimisation "Sharpness-Aware").
Un coach qui corrige ses erreurs : On lui apprend à mieux distinguer les objets qui se ressemblent.

Résultat ? SURE+ est un gardien qui ne se trompe presque jamais, qui sait quand il ne sait pas, et qui reste fiable même face à des situations inattendues.

5. Ce que l'on a appris (Les Résultats)

Le "Double Score" gagne toujours : En utilisant les deux portiques de sécurité, on obtient toujours de meilleurs résultats que d'utiliser un seul portique.
La limite des "Intrus Proches" : Le système fonctionne très bien pour repérer les intrus qui sont très différents (comme un chat dans une usine de voitures). Mais il a encore du mal avec les intrus qui ressemblent beaucoup aux objets normaux (comme un chien qui ressemble à un loup). C'est le prochain grand défi.
La fiabilité avant tout : Dans des domaines critiques (comme détecter le feu ou la fumée), il vaut mieux qu'un système dise "Je ne sais pas" plutôt que de faire une erreur catastrophique.

En Résumé

Cet article nous dit : "Ne demandez pas à votre IA de choisir entre être prudente et être rapide. Demandez-lui d'être les deux."

En créant de nouvelles règles pour mesurer la fiabilité (les scores DS) et en entraînant un nouveau modèle (SURE+), les auteurs nous donnent les outils pour construire des intelligences artificielles plus sûres, plus honnêtes sur leurs limites, et donc plus dignes de confiance dans le monde réel. C'est un pas de géant vers une IA qui ne se contente pas d'être "intelligente", mais qui est aussi "responsable".

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Le déploiement de classificateurs d'apprentissage automatique dans des domaines critiques (sécurité, santé, etc.) exige plus qu'une simple haute précision sur des données d'entraînement (In-Distribution ou ID). Un système fiable doit également :

Détecter les entrées Hors Distribution (OOD) qui ne devraient pas être traitées par le modèle.
Anticiper ses propres erreurs sur les données ID en attribuant une faible confiance aux échantillons susceptibles d'être mal classés.

Le défi principal réside dans le fait que la recherche actuelle traite la détection OOD et la prédiction d'échec (failure prediction) comme deux problèmes distincts et isolés. Cette séparation conduit à des évaluations fragmentées et parfois contradictoires : un modèle peut exceller en détection OOD tout en étant peu fiable sur les données ID, ou vice-versa. Il manque un cadre unifié pour évaluer la fiabilité globale d'un système face à la fois aux erreurs de classification et aux données inconnues.

2. Méthodologie

L'article propose une approche unifiée reposant sur deux piliers : de nouvelles métriques d'évaluation et un nouveau cadre d'entraînement.

A. Métriques d'Évaluation Unifiées (Double Scoring)

Les auteurs introduisent un cadre d'évaluation basé sur deux fonctions de score et deux seuils distincts :

$s_{OOD}$ : Score de détection OOD (plus le score est élevé, plus l'échantillon est susceptible d'être ID).
$s_{ID}$ : Score de confiance de la classification ID (plus le score est élevé, plus la prédiction est susceptible d'être correcte).
$\tau_{OOD}$ et $\tau_{ID}$ : Seuil respectifs pour accepter un échantillon.

Un échantillon n'est accepté que s'il satisfait les deux conditions ( $s_{OOD} \ge \tau_{OOD}$ ET $s_{ID} \ge \tau_{ID}$ ). Cela divise l'espace des échantillons en quatre catégories (Vrai Accepté, Faux Accepté, Faux Rejet, etc.).

Sur cette base, deux nouvelles métriques sont proposées :

DS-F1 (Double Scoring F1) : Recherche le meilleur compromis entre précision et rappel en optimisant la paire de seuils $(\tau_{OOD}, \tau_{ID})$ . Contrairement au F1 classique qui optimise un seul seuil, DS-F1 explore une surface bidimensionnelle de décision.
DS-AURC (Double Scoring Area Under Risk-Coverage) : Évalue le risque moyen sur la couverture totale en considérant toutes les paires de seuils possibles. Pour chaque niveau de couverture, le risque minimal est sélectionné, offrant une borne inférieure optimiste de la performance.

Ces métriques garantissent mathématiquement que l'utilisation du double score ne dégrade jamais les résultats par rapport aux méthodes à score unique (DS-F1 $\ge$ F1 standard, DS-AURC $\le$ AURC standard).

B. Cadre d'Entraînement : SURE+

Les auteurs étendent le classificateur fiable existant SURE pour créer SURE+, conçu spécifiquement pour fonctionner dans des scénarios mixtes (ID + OOD). SURE+ intègre les composants suivants pour améliorer la robustesse et la calibration :

Augmentation de données unifiée : Combinaison de RegMixup (interpolation de caractéristiques) et de RegPixMix (perturbations au niveau des pixels) pour renforcer la cohérence face aux variations sémantiques et pixeliques.
Optimisation pour la fiabilité : Utilisation de F-SAM (Sharpness-Aware Minimization) pour trouver des minima plats, favorisant une meilleure généralisation et une estimation d'incertitude plus stable.
Ensemble de modèles stabilisé : Remplacement du Stochastic Weight Averaging (SWA) par une Moyenne Mobile Exponentielle (EMA) des paramètres, couplée à une normalisation par lots réajustée (Re-BN), pour une stabilité accrue sous des distributions mixtes.
Simplification : Suppression des composants complexes de SURE original (comme la Correctness Ranking Loss et le classificateur à similarité cosinus) qui apportaient peu de gains pour la détection OOD.

3. Résultats Expérimentaux

Les expériences ont été menées sur le benchmark OpenOOD, utilisant CIFAR-100 et ImageNet-1K comme données ID, avec des ensembles Near-OOD et Far-OOD variés.

Performance des métriques : Les résultats montrent que l'évaluation conjointe (DS-F1/DS-AURC) révèle des hiérarchies de modèles différentes de celles obtenues par des métriques isolées. Le double score permet d'identifier des modèles intrinsèquement plus robustes.
Avantage du Double Scoring : L'approche à double score surpasse systématiquement les approches à score unique, en particulier sur les scénarios Far-OOD (données très différentes). Cependant, les gains sont marginaux sur les scénarios Near-OOD (données visuellement similaires), soulignant les limites actuelles des méthodes post-hoc pour discriminer des distributions subtiles.
Efficacité de SURE+ :
- Sur CIFAR-100 (ResNet-18), SURE+ atteint une précision ID de 81,66 % et obtient les meilleurs scores DS-F1 et DS-AURC parmi toutes les stratégies d'entraînement testées.
- Sur ImageNet-1K (DINOv3 ViT-L/16), SURE+ atteint 88,49 % de précision et maintient une supériorité constante sur les métriques de fiabilité, démontrant sa scalabilité aux architectures Transformer.
- L'étude d'ablation confirme que chaque composant de SURE+ contribue significativement à la performance globale.

4. Contributions Clés

Perspective Unifiée : Démonstration que la détection OOD et la prédiction d'échec sont des aspects complémentaires de la fiabilité et doivent être évalués conjointement pour éviter des conclusions trompeuses.
Nouvelles Métriques : Introduction de DS-F1 et DS-AURC, des métriques rigoureuses basées sur le double score qui offrent une évaluation plus fidèle de la fiabilité des systèmes de classification.
Méthode SURE+ : Développement d'un classificateur robuste et reproductible qui intègre les avancées récentes en détection OOD et prédiction d'échec, surpassant l'état de l'art sur des benchmarks diversifiés.
Analyse des Limites : Identification claire que les méthodes actuelles peinent à améliorer la fiabilité dans les scénarios Near-OOD, indiquant un axe de recherche prioritaire.

5. Signification et Impact

Ce travail établit un nouveau standard pour l'évaluation de la fiabilité des modèles d'IA. En passant d'une évaluation fragmentée à une approche holistique, il fournit aux chercheurs et aux praticiens des outils pour sélectionner des modèles véritablement robustes pour le déploiement réel. La méthodologie SURE+ offre une base solide pour construire des systèmes de confiance capables de gérer l'incertitude et les données inconnues, un enjeu crucial pour l'IA sûre (AI Safety) dans des environnements critiques. Le code source est rendu public pour favoriser la reproductibilité et les recherches futures.