Class Incremental Learning with Task-Specific Batch Normalization and Out-of-Distribution Detection

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous apprenez à cuisiner. D'abord, vous apprenez à faire des pâtes. Ensuite, vous apprenez à faire des gâteaux. Puis des sushis. Le problème, c'est que votre cerveau a une capacité limitée. Si vous essayez d'apprendre les sushis, vous risquez d'oublier comment faire les pâtes. C'est ce qu'on appelle en intelligence artificielle l'"oubli catastrophique".

Ce papier de recherche propose une solution élégante pour apprendre de nouvelles choses sans oublier les anciennes, même sans avoir accès aux vieux livres de recettes (les anciennes données).

Voici l'explication de leur méthode, imagée comme un restaurant intelligent.

1. Le Problème : Le Chef qui oublie

Dans l'apprentissage classique, on a un seul chef (le modèle) qui doit tout apprendre. Quand on lui donne une nouvelle tâche (ex: apprendre le japonais), il efface involontairement ce qu'il savait du chinois. C'est le "catastrophic forgetting".

Les chercheurs ont deux types de défis :

TIL (Task Incremental Learning) : On vous dit "Maintenant, on fait des pâtes". Le chef sait quel menu préparer.
CIL (Class Incremental Learning) : On vous donne une assiette et on ne vous dit rien. Le chef doit deviner : "Est-ce que c'est des pâtes, un gâteau ou des sushis ?" C'est beaucoup plus dur.

2. La Solution : Le Restaurant à "Salles Spéciales"

L'équipe propose de ne pas changer tout le restaurant à chaque fois, mais d'ajouter de petites salles spécialisées pour chaque nouveau type de cuisine.

A. Les "Batch Norms" Spécifiques (Les Salles de Bain Personnalisées)

Imaginez que le restaurant a une cuisine principale (le "Backbone") qui ne change jamais. C'est la structure solide du bâtiment. Mais pour chaque nouvelle tâche (pâtes, gâteaux, sushis), on ajoute une petite salle de bain privée juste avant la salle à manger.

Pourquoi ? Chaque type de nourriture a une "texture" différente. Les pâtes sont humides, les gâteaux sont secs. La "salle de bain" (Batch Normalization) ajuste l'humidité et la température des ingrédients pour qu'ils soient parfaits pour cette recette spécifique.
L'avantage : Ces salles de bain sont très petites et peu coûteuses à construire (peu de paramètres). On peut en ajouter des centaines sans agrandir le bâtiment entier. Cela permet d'apprendre vite (plasticité) sans détruire ce qui existe déjà (stabilité).

B. Le Détecteur de "Inconnu" (Le Portier)

Le vrai défi en CIL est de savoir quelle salle utiliser. Si vous entrez avec un plat inconnu, comment le chef sait-il si c'est une salle "Pâtes" ou "Gâteaux" ?

Ils ont ajouté un astuce géniale : une classe "Inconnu".

Imaginez que chaque salle a un portier. Si vous entrez dans la salle "Pâtes" avec un plat qui ressemble à un gâteau, le portier crie : "HÉ ! Ce n'est pas une pâte ! C'est de l'inconnu !"
Pendant l'entraînement, on montre au portier des plats d'autres cuisines et on lui dit : "Ceci est de l'inconnu pour toi".
Au moment du test : On essaie le plat dans toutes les salles. La bonne salle est celle où le portier dit le moins "C'est de l'inconnu !".
- Exemple : Si vous entrez dans la salle "Pâtes", le portier dit "C'est une pâte" (probabilité d'inconnu faible). Si vous entrez dans la salle "Gâteaux", le portier crie "C'est de l'inconnu !" (probabilité d'inconnu élevée). On choisit donc la salle "Pâtes".

C. L'Alignement (La Réunion des Portiers)

Au début, chaque portier a une opinion différente sur ce qu'est "l'inconnu". Pour que cela fonctionne, les chercheurs organisent une réunion d'alignement. Ils prennent quelques échantillons de toutes les anciennes cuisines et les montrent à tous les portiers pour qu'ils se mettent d'accord sur ce qui est "étranger". Cela rend le système très précis pour deviner la bonne salle.

3. Les Résultats : Un Restaurant Gagnant

Ils ont testé cette méthode sur :

Des images médicales (peau, pathologie) : comme un médecin qui apprend à diagnostiquer de nouvelles maladies sans oublier les anciennes.
Des images naturelles (animaux, objets) : comme un enfant qui apprend de nouveaux jouets.

Résultat : Leur méthode bat tous les autres records (State-of-the-Art).

Économie : Au lieu de construire un nouvel immeuble entier pour chaque tâche, ils ajoutent juste une petite salle de bain (15 000 paramètres de plus par tâche, contre des millions pour d'autres méthodes).
Précision : Ils oublient très peu et apprennent très bien.

En Résumé

C'est comme si vous aviez un cerveau qui garde ses connaissances de base intactes, mais qui ajoute de petits "filtres" personnalisés pour chaque nouvelle compétence. Et pour savoir quel filtre utiliser, il a un système de sécurité qui repère immédiatement ce qui ne correspond pas, lui permettant de choisir le bon filtre instantanément.

C'est une méthode plus petite, plus rapide et plus intelligente pour apprendre continuellement, comme un humain qui accumule des compétences sans jamais perdre celles qu'il a déjà acquises.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : L'oubli catastrophique et le compromis Plasticité/Stabilité

L'apprentissage profond nécessite généralement de grandes quantités de données pour atteindre de hautes performances. Cependant, dans des scénarios réels, les données arrivent souvent de manière séquentielle et par phases, avec des classes non chevauchantes entre les tâches. Les modèles doivent apprendre de nouvelles classes sans oublier les connaissances précédentes.

Le défi central est le compromis entre la plasticité (capacité à apprendre de nouvelles connaissances) et la stabilité (capacité à retenir les anciennes connaissances). Les méthodes existantes peinent souvent à équilibrer ces deux aspects tout en contrôlant la croissance des paramètres du modèle.

De plus, l'apprentissage incrémental se divise en deux paradigmes :

TIL (Task Incremental Learning) : L'identifiant de tâche (Task-ID) est connu lors du test.
CIL (Class Incremental Learning) : Le Task-ID est inconnu. C'est le cas le plus difficile et le plus proche des applications réelles, car le modèle doit sélectionner le bon classifieur parmi plusieurs sans information préalable sur la tâche.

2. Méthodologie Proposée

Les auteurs proposent un cadre d'apprentissage continu qui étend les méthodes TIL au domaine CIL en introduisant une détection de distribution hors distribution (OOD) pour prédire le Task-ID.

A. Normalisation par Lots (Batch Normalization - BN) Spécifique à la Tâche

Au lieu d'utiliser une seule couche BN partagée pour toutes les tâches (ce qui force le modèle à trouver un compromis de distribution), le modèle introduit des couches BN spécifiques à chaque tâche ( $\omega_t$ ) et des têtes de classification spécifiques ( $h_t$ ).

Fonctionnement : Le backbone convolutif (extraction de caractéristiques) est pré-entraîné et figé. Seules les nouvelles couches BN et les têtes de classification sont entraînées pour chaque nouvelle tâche.
Avantage : Les couches BN contiennent beaucoup moins de paramètres que les noyaux de convolution (ex: 15k paramètres contre 11M pour ResNet18), ce qui permet d'ajouter des modules pour chaque tâche avec une croissance de paramètres minimale, préservant ainsi la stabilité et limitant la mémoire.

B. Classe « Inconnue » et Détection OOD

Pour résoudre le problème de l'absence de Task-ID en phase de test, chaque tête de classification spécifique à une tâche est augmentée d'une classe supplémentaire : la classe « Inconnue » (Unknown).

Entraînement :
- Les échantillons de la tâche courante sont étiquetés avec leurs classes réelles.
- Les échantillons des tâches précédentes (stockés dans une mémoire de rappel) sont étiquetés comme « Inconnus » pour la tâche courante.
Inférence (Prédiction du Task-ID) :
- Un échantillon de test passe à travers tous les sous-modèles (têtes de classification).
- Le modèle sélectionne la tête de tâche qui attribue la probabilité la plus faible à la classe « Inconnue ».
- Une faible probabilité d'être « Inconnu » indique que l'échantillon appartient probablement à cette tâche spécifique.
- Une fois la tâche identifiée, la prédiction finale (Within-Task Prediction) est effectuée par cette tête spécifique.

C. Phase d'Alignement de la Détection OOD

Pour éviter que les scores de la classe « Inconnue » ne soient biaisés (car les premières tâches n'ont pas d'échantillons « Inconnus » en mémoire), une phase d'alignement est ajoutée après l'entraînement de chaque nouvelle tâche.

Cette étape affine toutes les têtes de classification existantes en utilisant un échantillonnage équilibré (méthode herding) des tâches passées.
Cela garantit que la probabilité de la classe « Inconnue » est cohérente et comparable entre toutes les têtes, améliorant ainsi la précision de la prédiction du Task-ID.

3. Contributions Clés

BN Spécifique à la Tâche en CIL : Première introduction de couches BN spécifiques à la tâche dans le paradigme CIL, permettant d'adapter les distributions de caractéristiques sans modifier le backbone principal.
Prédiction du Task-ID via OOD : Utilisation innovante d'une classe « Inconnue » pour transformer un problème de sélection de tâche en un problème de détection OOD, comblant ainsi le fossé entre TIL et CIL.
Efficacité des Paramètres : La méthode n'ajoute que ~15 000 paramètres par tâche (contre des millions pour d'autres méthodes comme MORE), offrant un excellent compromis entre performance et coût mémoire.
Performance SOTA : Atteinte des performances de l'état de l'art sur quatre jeux de données (deux médicaux et deux naturels).

4. Résultats Expérimentaux

Les expériences ont été menées sur :

Données médicales : Skin8 (lésions cutanées) et Path16 (pathologies diverses).
Données naturelles : CIFAR-100 et CUB-200 (oiseaux).

Résultats principaux :

Précision (Accuracy) : La méthode surpasse systématiquement les méthodes de référence (iCaRL, DynaER, MORE, DER++, etc.) en termes de Last-ACC (précision finale) et Avg-ACC (précision moyenne).
- Sur CIFAR-100, elle atteint ~80% d'Avg-ACC, surpassant MORE.
- Sur CUB-200 (données fines), elle obtient une amélioration significative de +2% par rapport à la deuxième meilleure méthode.
- Sur les données médicales, elle montre une robustesse supérieure, notamment avec de faibles tailles de mémoire.
Robustesse à la croissance des tâches : La méthode maintient une stabilité de performance même lorsque le nombre de tâches augmente (jusqu'à 50 tâches sur CIFAR-100), là où les méthodes baselines dégradent leurs performances.
Efficacité computationnelle :
- Temps d'inférence : Très stable et faible (~5 ms par image), ne dépendant pas du nombre de tâches.
- Taille du modèle : Croissance linéaire très faible des paramètres comparée aux méthodes d'expansion dynamique (DynaER) ou aux adaptateurs (MORE).

5. Signification et Impact

Cette recherche apporte une solution élégante et efficace au problème de l'oubli catastrophique dans l'apprentissage incrémental de classes :

Pragmatisme : En se passant de Task-ID, la méthode est directement applicable à des scénarios réels où l'origine des données n'est pas connue à l'avance.
Économie de ressources : Elle démontre qu'il n'est pas nécessaire d'augmenter massivement la taille du modèle pour apprendre continuellement. L'utilisation de la BN comme mécanisme d'adaptation est beaucoup plus légère que l'ajout de couches complètes ou d'adapters complexes.
Généralité : La méthode fonctionne aussi bien sur des architectures lourdes (ResNet50) que légères (MobileNetV2) et sur des domaines très différents (médical vs naturel), prouvant sa robustesse.
Perspective : Elle ouvre la voie à l'utilisation de mécanismes de détection OOD non pas seulement pour rejeter des données, mais comme un outil central pour la gestion de la mémoire et la sélection de modèles dans l'apprentissage continu.

En conclusion, cette approche propose un équilibre optimal entre plasticité, stabilité et efficacité des paramètres, établissant une nouvelle référence pour l'apprentissage incrémental de classes.