A Systematic Comparison of Training Objectives for Out-of-Distribution Detection in Image Classification

Cette étude présente une comparaison systématique de quatre objectifs d'entraînement pour la détection d'images hors distribution, révélant que la fonction de perte par entropie croisée offre les performances les plus cohérentes sur divers jeux de données et scénarios.

Furkan Genç, Onat Özdemir, Emre Akbas

Publié 2026-03-10
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🎯 Le Problème : Le "Même" et le "Différent"

Imaginez que vous formez un chien de garde (votre intelligence artificielle) pour reconnaître des chiens. Vous lui montrez des milliers de photos de chiens de toutes races. Il devient un expert : il sait dire "C'est un chien !" avec une grande certitude.

Mais que se passe-t-il si vous lui montrez une photo de chat ? Ou de voiture ?

  • Si le chien de garde est trop confiant, il pourrait dire "C'est un chien !" en voyant un chat, ce qui serait une erreur dangereuse (surtout si c'est un système de sécurité ou un médecin).
  • L'objectif de ce papier est d'entraîner le modèle non seulement à reconnaître ce qu'il connaît (les chiens), mais aussi à crier "STOP !" quand il voit quelque chose d'inconnu (un chat, une voiture, un fruit). C'est ce qu'on appelle la détection de données "hors distribution" (OOD).

🛠️ L'Enquête : Comment on entraîne le chien ?

Les chercheurs se sont demandé : "Quelle méthode d'entraînement est la meilleure pour apprendre au modèle à distinguer le familier de l'inconnu ?"

Ils ont testé quatre "professeurs" (des objectifs d'entraînement) différents pour apprendre au modèle la même chose :

  1. La Perte par Entropie Croisée (Cross-Entropy) : C'est le professeur classique. Il dit : "Si tu vois un chien, dis 'Chien' à 100%. Si tu vois autre chose, essaie de ne pas te tromper." C'est la méthode standard, celle qu'on utilise presque toujours.
  2. La Perte Triplet (Triplet Loss) : C'est le professeur de géométrie. Il prend trois photos : un chien (A), un autre chien (B), et un chat (C). Il dit : "Approche A de B, et éloigne-les tous les deux de C." Il force le modèle à créer des espaces vides entre les groupes.
  3. La Perte Prototype (Prototype Loss) : C'est le professeur de catégories. Il dit : "Pour chaque race de chien, imagine un 'super-chien' moyen (un prototype). Rapproche tous les vrais chiens de leur super-chien, et éloigne-les des super-chats."
  4. La Perte de Précision Moyenne (AP Loss) : C'est le professeur de classement. Il ne se soucie pas seulement de la bonne réponse, mais de l'ordre. Il dit : "Assure-toi que le score du chien est toujours plus haut que celui du chat, peu importe de combien."

🏁 Le Résultat de la Course (Sur différents terrains)

Les chercheurs ont fait courir ces quatre méthodes sur trois terrains de jeu différents (des jeux de données d'images) :

  • CIFAR-10/100 : Des images simples (comme des jouets ou des animaux de dessin animé).
  • ImageNet-200 : Des images réalistes et complexes (vraies photos de la vie).

Voici ce qu'ils ont découvert :

1. Le Professeur Classique (Cross-Entropy) est le plus fiable 🏆

C'est le grand gagnant de la fiabilité.

  • Analogie : C'est comme un vieux routier. Il ne fait pas toujours le record de vitesse, mais il arrive toujours à destination sans accident.
  • Résultat : Il est excellent pour reconnaître les chiens (précision) ET très bon pour dire "Ce n'est pas un chien" quand il voit un chat. Il fonctionne bien partout, même sur les gros jeux de données complexes.

2. Le Professeur de Géométrie (Triplet) a du mal à grandir 📉

  • Analogie : Imaginez un professeur qui essaie de comparer chaque élève avec deux autres élèves à chaque instant. Sur une petite classe (10 élèves), c'est facile. Mais sur une école de 200 classes (ImageNet), il devient fou et perd ses élèves.
  • Résultat : Ça marche bien sur les petits jeux de données, mais dès que le nombre de catégories augmente, le modèle devient confus et fait plus d'erreurs.

3. Le Professeur de Catégories (Prototype) est un bon équilibriste ⚖️

  • Analogie : Il est très fort pour organiser les choses dans des boîtes bien rangées.
  • Résultat : Il est excellent pour reconnaître les chiens (parfois même mieux que le classique), mais sa capacité à repérer les intrus (les chats) est un peu moins constante que celle du professeur classique.

4. Le Professeur de Classement (AP) est prometteur mais capricieux 🎢

  • Analogie : Il est très bon pour dire "Ceci est mieux que cela", mais parfois il se trompe sur combien c'est mieux.
  • Résultat : Il donne de très bons résultats sur certains jeux de données, mais il est moins stable que le classique quand les données deviennent trop complexes.

💡 La Leçon à retenir

Si vous construisez un système d'IA pour la sécurité (comme une voiture autonome ou un diagnostic médical) et que vous voulez être sûr qu'il détecte les choses inconnues :

  • Restez simple : N'essayez pas de réinventer la roue avec des méthodes complexes de géométrie ou de classement.
  • Le "Cross-Entropy" (la méthode classique) est votre meilleur ami. C'est le choix le plus sûr, le plus stable et le plus fiable pour détecter l'inconnu, même si d'autres méthodes peuvent sembler plus "intelligentes" sur le papier.

En résumé : Parfois, la méthode la plus simple et la plus éprouvée est celle qui sauve la mise quand les choses deviennent imprévisibles ! 🐕🚫🐱