One Adapter for All: Towards Unified Representation in Step-Imbalanced Class-Incremental Learning

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un chef cuisinier talentueux (votre modèle d'intelligence artificielle) qui apprend de nouvelles recettes au fil du temps. Le problème classique de l'apprentissage continu, c'est que si vous ajoutez une nouvelle recette, vous risquez d'oublier les anciennes. C'est ce qu'on appelle l'"oubli catastrophique".

Jusqu'à présent, les chercheurs supposaient que vous appreniez toujours le même nombre de nouvelles recettes à chaque fois (par exemple, 10 nouvelles recettes chaque semaine). Mais dans la vraie vie, ce n'est pas comme ça ! Parfois, vous recevez un gros lot de 50 nouvelles recettes d'un coup (comme une nouvelle saison de fruits), et parfois, vous n'en recevez que 2 ou 3 (un petit ajout quotidien).

C'est ce que les auteurs appellent le déséquilibre par étapes : certaines étapes sont gigantesques, d'autres minuscules.

Le Problème : Le "Bruit" des Petites Étapes

Les méthodes actuelles traitent toutes les étapes de la même manière, comme si elles avaient toutes la même importance.

Le gros lot (étape grande) : Apporte beaucoup d'informations solides et stables.
Le petit lot (étape petite) : Apporte peu d'informations, ce qui crée du "bruit" et de l'instabilité.

Si vous mélangez tout cela sans filtre, le petit lot bruyant vient perturber la structure solide construite par le gros lot. C'est comme essayer de peindre un chef-d'œuvre (le gros lot) en ajoutant quelques gouttes de peinture instable (le petit lot) qui font couler la toile. De plus, garder un carnet de recettes séparé pour chaque étape devient trop lourd et lent à consulter.

La Solution : "One-A" (Un Seul Adaptateur pour Tous)

Les auteurs proposent une méthode géniale appelée One-A. Imaginez que vous n'avez pas un carnet de recettes séparé pour chaque semaine, mais un seul et unique carnet de recettes que vous mettez à jour continuellement.

Voici comment cela fonctionne, avec des analogies simples :

1. L'Alignement de l'Espace (La Boussole)

Quand vous apprenez une nouvelle recette, vous ne voulez pas réinventer toute la cuisine. Vous voulez juste ajuster votre style.

L'idée : Quand arrive une petite étape (peu de recettes), la méthode dit : "Attends, ne change pas la direction principale de notre cuisine (définie par les gros lots). Reste dans le couloir que nous avons déjà construit."
L'analogie : C'est comme si le gros lot avait construit une autoroute solide. Le petit lot n'a pas le droit de construire une nouvelle route qui croise l'autoroute n'importe où ; il doit juste ajouter une petite bretelle d'accès qui s'aligne parfaitement sur l'autoroute existante. Cela empêche le chaos.

2. La Pesée Intelligente (Le Chef d'Orchestre)

Toutes les étapes ne se valent pas.

L'idée : La méthode utilise une balance intelligente. Si une étape apporte beaucoup d'informations (beaucoup de classes), elle a plus de poids dans la décision finale. Si elle en apporte peu, son influence est réduite.
L'analogie : Imaginez un conseil d'administration. Les membres qui ont beaucoup d'expérience (les gros lots) ont une voix plus forte que les stagiaires (les petits lots) pour décider de la direction de l'entreprise. On ne laisse pas un stagiaire décider de tout le plan stratégique.

3. Le Portail Directionnel (Le Filtre Magique)

C'est la partie la plus astucieuse. Même au sein d'une même étape, certaines informations sont plus importantes que d'autres.

L'idée : La méthode regarde chaque "direction" de l'information. Si une direction est déjà très forte et stable (ce qu'on appelle les "têtes" de la distribution), elle la protège fermement. Si une direction est faible ou vide, elle laisse passer les nouvelles informations pour combler les trous.
L'analogie : Imaginez un tamis. Si vous essayez de verser de l'eau dans un verre déjà plein (une direction forte), le tamis se ferme pour ne rien laisser passer (stabilité). Mais si le verre est vide ou à moitié vide (une direction faible), le tamis s'ouvre grand pour laisser entrer l'eau (plasticité). Cela permet d'apprendre du nouveau sans effacer l'ancien.

Le Résultat : Un Seul Cerveau, Toujours Rapide

Au lieu d'avoir des centaines de petits modules séparés (ce qui ralentirait le système), One-A fusionne tout cela en un seul module compact.

Avantage : Peu importe si vous avez appris 10 ou 1000 nouvelles choses, le temps pour faire une prédiction (la "cuisson" du plat) reste exactement le même. C'est rapide, léger et efficace.
Performance : Les tests montrent que cette méthode est non seulement plus rapide, mais aussi plus précise que les méthodes actuelles, même quand les étapes sont très déséquilibrées.

En Résumé

One-A est comme un chef cuisinier très organisé qui :

Ne garde qu'un seul carnet de recettes à jour.
Protège ses techniques de base (les gros lots) contre les petites erreurs (les petits lots).
Utilise un filtre intelligent pour ajouter du nouveau seulement là où c'est nécessaire.
Reste toujours rapide, même après des années d'apprentissage.

C'est une solution élégante pour apprendre continuellement dans un monde réel où les informations arrivent de manière désordonnée et inégale.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : L'Apprentissage Incrémental de Classes Déséquilibré par Étapes (SI-CIL)

L'apprentissage incrémental de classes (CIL) vise à apprendre de nouvelles classes au fil du temps tout en conservant les connaissances acquises précédemment, sans oublier catastrophiquement les tâches antérieures.

Le constat actuel : La majorité des méthodes CIL supposent un scénario équilibré, où chaque tâche incrémentale introduit le même nombre de classes.
La réalité du problème (SI-CIL) : Dans les applications réelles (ex: reconnaissance de vêtements saisonniers), le nombre de classes par tâche varie considérablement. Certaines tâches ("têtes") introduisent de nombreuses classes, tandis que d'autres ("queues") en introduisent très peu.
Les défis spécifiques :
- Biais d'optimisation : Les grandes tâches dominent l'espace de représentation, tandis que les petites tâches génèrent des mises à jour bruyantes et instables.
- Instabilité : Les mises à jour des petites tâches peuvent dégrader les connaissances stables acquises par les grandes tâches.
- Coût d'inférence : Les méthodes existantes (comme EASE ou CL-LoRA) maintiennent souvent un adaptateur par tâche, ce qui augmente linéairement le coût computationnel et le nombre de paramètres avec le nombre de tâches.
- Limites du rééquilibrage : Diviser artificiellement les grandes tâches en micro-tâches équilibrées augmente le nombre d'étapes d'apprentissage, aggravant l'interférence entre les tâches et le coût computationnel.

2. Méthodologie : Le Framework "One-A"

Les auteurs proposent One-A, un cadre unifié et conscient du déséquilibre qui fusionne incrémentalement les mises à jour de chaque tâche dans un seul adaptateur unique, maintenant un coût d'inférence constant.

La méthode repose sur trois piliers techniques principaux :

A. Alignement Asymétrique des Sous-espaces (Asymmetric Subspace Alignment)

Contrairement aux méthodes de fusion symétriques (comme KnOTS) qui traitent toutes les tâches de manière égale, One-A adopte une approche asymétrique basée sur la taille de la tâche.

Principe : Lorsqu'une nouvelle tâche arrive, on compare sa taille à celle de l'adaptateur accumulé. La tâche la plus grande (ou l'adaptateur accumulé) est désignée comme adaptateur de base ( $b$ ), et la plus petite comme adaptateur d'alignement ( $a$ ).
Mécanisme : On effectue une décomposition en valeurs singulières (SVD) sur l'adaptateur de base pour extraire son sous-espace dominant ( $U_b \Sigma_b V_b^T$ ). L'adaptateur de la petite tâche est ensuite projeté dans ce sous-espace dominant.
Objectif : Cela empêche les petites tâches de "tourner" ou de déformer le sous-espace principal appris par les grandes tâches, préservant ainsi la stabilité des connaissances majeures.

B. Pondération Globale Adaptative à l'Information (Information-Adaptive Global Weighting)

Même avec l'alignement, la fusion globale doit tenir compte de la quantité d'information apportée par chaque tâche.

Pondération : Les auteurs attribuent des poids ( $w_b, w_a$ ) basés sur un proxy d'information. Ils utilisent le nombre de classes de la tâche comme proxy, car il corrèle bien avec la diversité de l'information dans un contexte déséquilibré.
Fusion : La fusion des composantes singulières est une combinaison pondérée : $V_{fused} = w_b V_b + w_a V_{a \to b}$ . Cela permet de contrôler si la représentation fusionnée penche davantage vers la tâche dominante ou la tâche complémentaire.

C. Portail Directionnel (Directional Gating)

Pour résoudre le compromis entre stabilité (garder les anciennes connaissances) et plasticité (apprendre le nouveau), la méthode applique un contrôle fin au niveau de chaque direction singulière.

Logique : Les directions à haute énergie (correspondant aux valeurs singulières élevées de la tâche de base) sont préservées de manière conservatrice. Les directions à faible énergie (souvent associées aux détails ou au bruit) sont plus flexibles pour intégrer les nouvelles informations.
Implémentation : Un portail (gate) $g_i \in [0, 1]$ $g_{i} \in [0, 1]$ est calculé pour chaque direction singulière $i$ $i$ en fonction de la valeur singulière normalisée. Une fonction sigmoïde détermine la force de fusion :
- $g_i \approx 0$ : Préservation totale de la direction de base.
- $g_i \approx 1$ : Adoption totale de la mise à jour de la nouvelle tâche.
Résultat : Cela permet d'injecter des connaissances nouvelles sans détruire les structures critiques déjà apprises.

D. Objectif d'Optimisation

Pour améliorer l'apprentissage des représentations, surtout pour les petites tâches, un loss de contraste est ajouté comme objectif auxiliaire. Son poids est adaptatif : plus élevé pour les petites tâches (pour fournir une structure géométrique forte là où les données sont rares) et plus faible pour les grandes tâches.

3. Contributions Clés

Formalisation du SI-CIL : Introduction et analyse rigoureuse du problème de l'apprentissage incrémental avec des tailles de tâches déséquilibrées, un scénario négligé par la littérature précédente.
Stratégie de Fusion Asymétrique : Proposition d'une méthode de fusion qui ne traite pas toutes les tâches de manière égale, mais qui préserve activement les sous-espaces dominants des grandes tâches tout en intégrant de manière contrôlée les mises à jour des petites tâches.
Efficacité et Unification : Démonstration qu'un seul adaptateur fusionné peut atteindre des performances compétitives tout en maintenant un coût d'inférence constant, contrairement aux méthodes multi-adaptateurs.
Performance Robuste : Validation sur plusieurs benchmarks (CIFAR100, CUB200, ImageNet-A, ImageNet-R) montrant une supériorité par rapport aux méthodes de l'état de l'art (L2P, EASE, ACMap, CL-LoRA) dans des conditions de déséquilibre sévère.

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs jeux de données avec des facteurs de déséquilibre ( $\gamma$ ) allant de 0.001 à 0.05.

Précision : One-A obtient systématiquement la meilleure précision finale ( $A_T$ $A_{T}$ ) et la meilleure précision moyenne ( $\bar{A}$ $\overset{ˉ}{A}$ ) sur tous les jeux de données.
- Exemple : Sur ImageNet-A, One-A dépasse la méthode suivante (EASE) de 7.8% en précision finale.
- Exemple : Sur ImageNet-R, l'amélioration est de 9.4%.
Robustesse au déséquilibre : Même avec un déséquilibre extrême ( $\gamma = 0.001$ ), One-A maintient des performances élevées, tandis que les méthodes basées sur des prompts (L2P, DualPrompt) subissent une dégradation rapide due au surapprentissage sur les nouvelles tâches dominantes.
Efficacité d'inférence :
- One-A utilise 1 seul adaptateur à l'inférence.
- Les méthodes multi-adaptateurs (comme MOS ou EASE) nécessitent de parcourir plusieurs adaptateurs, augmentant le coût FLOPs d'un facteur ~40x.
- One-A offre le meilleur compromis précision-latence.
Analyse d'ablation : La suppression de l'un des composants (Alignement Asymétrique, Pondération Globale, ou Portail Directionnel) entraîne une baisse significative des performances, confirmant la nécessité de chaque module.

5. Signification et Impact

Ce travail est significatif car il comble un fossé entre les théories d'apprentissage incrémental (souvent idéalisées et équilibrées) et les contraintes du déploiement réel (données hétérogènes et imprévisibles).

Paradigme pratique : Il démontre que l'hypothèse d'un flux de tâches équilibré est trop restrictive pour les applications réelles et propose une solution viable pour les scénarios où la taille des mises à jour varie.
Efficacité opérationnelle : En fusionnant les connaissances dans un seul module, One-A résout le problème de l'accumulation de paramètres et de la latence d'inférence, rendant l'apprentissage continu plus viable pour les systèmes embarqués ou à grande échelle.
Stabilité vs Plasticité : La méthode offre un mécanisme élégant pour gérer le compromis fondamental de l'apprentissage continu, en protégeant les connaissances stables (grandes tâches) tout en restant plastique pour les nouvelles informations (petites tâches), sans nécessiter de rééchantillonnage ou de stockage de données passées (exemplar-free).

En résumé, One-A représente une avancée majeure vers des systèmes d'apprentissage continu robustes, efficaces et adaptés aux dynamiques réelles des données.