Key-Value Pair-Free Continual Learner via Task-Specific Prompt-Prototype

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Problème : L'Amnésie des Robots

Imaginez que vous apprenez à cuisiner. D'abord, vous apprenez à faire une omelette. Ensuite, on vous apprend à faire un gâteau. Puis un ragoût.

Le problème avec les intelligences artificielles (les "cerveaux" numériques), c'est qu'elles souffrent souvent d'une amnésie catastrophique. Dès qu'elles apprennent à faire le gâteau, elles oublient comment faire l'omelette. C'est comme si votre cerveau effaçait le chapitre "Petit-déjeuner" pour écrire le chapitre "Dessert".

Les chercheurs veulent créer un robot qui peut apprendre toute sa vie sans oublier ses anciennes compétences, un peu comme un humain.

🗝️ L'Ancienne Solution : Le Portefeuille de Clés (et ses défauts)

Pour aider ces robots à ne pas oublier, les scientifiques ont inventé une méthode appelée "Prompt Learning".

Imaginez que le robot possède un portefeuille rempli de clés (des "prompts").

Chaque clé ouvre une porte spécifique vers une compétence (une clé pour l'omelette, une pour le gâteau).
Quand on donne une image de poulet au robot, il doit chercher dans son portefeuille la bonne clé.

Le hic ?

La confusion : Si le poulet ressemble un peu à un canard, le robot peut se tromper et prendre la "clé canard". Il va alors utiliser la mauvaise recette ! C'est ce qu'on appelle l'interférence entre les tâches.
L'encombrement : Plus le robot apprend de nouvelles recettes, plus son portefeuille grossit. Trouver la bonne clé devient de plus en plus lent et difficile, comme chercher une aiguille dans une botte de foin de plus en plus grosse.

💡 La Nouvelle Solution : ProP (Le "Carnet de Recettes Personnalisé")

L'équipe de chercheurs propose une nouvelle méthode appelée ProP (Prompt-Prototype). Au lieu d'utiliser un portefeuille de clés, ils changent radicalement de stratégie.

Voici comment ça marche, avec une analogie simple :

1. Fini les clés, place aux "Moules" (Prototypes)

Au lieu de chercher une clé, le robot crée un moule (un "prototype") pour chaque nouvelle compétence.

Imaginez que pour apprendre à faire des gâteaux, le robot ne cherche pas une clé. Il crée un moule à gâteau unique.
Ce moule contient la "forme moyenne" de tous les gâteaux qu'il a vus.
L'astuce géniale : Le robot associe directement la recette (le "prompt") à ce moule spécifique. Il n'y a plus de recherche de clé. Si le robot voit un gâteau, il le compare directement à son moule à gâteau.

2. Pourquoi c'est mieux ?

Pas de confusion : Puisqu'il n'y a pas de portefeuille commun où tout se mélange, le robot ne risque plus de prendre la "clé canard" par erreur. Chaque compétence a son propre espace dédié.
Pas de ralentissement : Même si le robot apprend 1000 nouvelles recettes, il n'a pas besoin de fouiller dans un énorme portefeuille. Il compare simplement l'image à ses propres moules. C'est comme comparer une photo à un album photo, plutôt que de chercher une clé dans un tiroir.

3. Le "Stabilisateur" (La Régularisation)

Au début, quand le robot crée un nouveau moule, il peut être un peu "fou" (des valeurs extrêmes). Imaginez un moule à gâteau qui serait aussi grand qu'une maison !

Les chercheurs ont ajouté une petite règle (une "pénalité") qui dit : "Hé, calme-toi, ne fais pas des moules trop grands au début."
Cela force le robot à créer des moules stables et bien proportionnés dès le départ, ce qui l'aide à apprendre plus vite et plus sûrement.

🏆 Les Résultats : Un Robot Plus Intelligent

Les chercheurs ont testé cette méthode sur de nombreux jeux de données (comme des milliers d'images de chats, de voitures, de paysages).

Résultat : Le robot ProP se souvient de tout ce qu'il a appris, même après avoir vu des milliers de nouvelles choses.
Comparaison : Il bat tous les autres robots qui utilisent encore l'ancienne méthode des "clés". Il est plus rapide, plus précis et ne fait pas d'erreurs de confusion.
Le plus beau : Il n'a même pas besoin de garder de vieux exemples (comme des photos de chats d'il y a 5 ans) pour se souvenir. Il a juste besoin de ses "moules" bien rangés.

En Résumé

Cette recherche est comme passer d'un système de clés compliqué et encombrant à un système de moules personnels et organisés.

Avant : "Où est la clé pour les chats ? Espérons qu'elle n'est pas coincée avec la clé pour les chiens !"
Maintenant (ProP) : "J'ai un moule spécial pour les chats. Je compare l'image au moule. C'est un chat ! Point final."

C'est une avancée majeure pour créer des intelligences artificielles qui apprennent comme nous, sans jamais oublier, et sans se perdre dans leur propre mémoire.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'apprentissage continu (Continual Learning - CL) vise à permettre aux modèles d'acquérir de nouvelles connaissances tout en conservant les informations apprises précédemment, évitant ainsi l'oubli catastrophique. Bien que les méthodes basées sur les modèles pré-entraînés (PTM) et les prompts aient montré des performances remarquables, elles souffrent de limitations majeures :

Dépendance aux paires clé-valeur : Les méthodes actuelles (comme L2P, DualPrompt, Coda-Prompt) utilisent un « pool de prompts » partagé et s'appuient sur un mécanisme de paires clé-valeur pour sélectionner le prompt correspondant à la tâche d'un échantillon d'entrée lors de l'inférence.
Interférence inter-tâches : Ce mécanisme de sélection est sujet à des erreurs. Par exemple, la similarité de caractéristiques entre deux classes différentes (ex. : un chat persan et un chat tigré) peut entraîner une mauvaise correspondance de la clé, sélectionnant un prompt inapproprié et dégradant les performances.
Problèmes d'évolutivité : À mesure que le nombre de tâches augmente, le nombre de paires clé-valeur croît, augmentant la charge computationnelle et mémoire nécessaire pour la recherche rapide des clés correspondantes.
Instabilité de l'initialisation : L'initialisation aléatoire des prompts peut générer des valeurs extrêmes, perturbant l'apprentissage des caractéristiques.

2. Méthodologie : ProP (Prompt-Prototype)

Les auteurs proposent ProP, un cadre d'apprentissage continu qui élimine la nécessité des paires clé-valeur en liant directement un prompt spécifique à la tâche à un prototype de classe.

Architecture et Concepts Clés

Prompt Spécifique à la Tâche : Pour chaque nouvelle tâche $t$ , un prompt unique $\mathbf{p}_t$ est appris et optimisé pour moduler le modèle pré-entraîné (froid) afin d'extraire les caractéristiques optimales pour cette tâche spécifique.
Prototype de Tâche : Au lieu de stocker des clés pour la recherche, le modèle calcule un prototype $\mathbf{C}_t$ $C_{t}$ pour chaque tâche après l'entraînement. Ce prototype est une représentation moyenne des caractéristiques des classes de la tâche.
- Le prototype $\mathbf{C}_t$ $C_{t}$ est une concaténation de deux vecteurs :
  1. $\mathbf{c}_{t, \mathbf{p}_t}$ : Les caractéristiques moyennes obtenues via le modèle pré-entraîné finetuné avec le prompt spécifique.
  2. $\mathbf{c}_{t, \theta}$ : Les caractéristiques moyennes obtenues via le modèle pré-entraîné brut (sans prompt).
- Cette concaténation permet de conserver à la fois l'adaptabilité à la nouvelle tâche et la connaissance générale du modèle pré-entraîné.
Inférence sans Clé-Valeur : Lors de l'inférence (où l'ID de la tâche est inconnu), le modèle ne cherche pas de clé. Au lieu de cela, il génère des caractéristiques pour l'entrée en utilisant chaque prompt appris $\mathbf{p}_i$ (pour $i=1 \dots T$ ) et calcule la similarité (cosinus) entre ces caractéristiques et les prototypes correspondants $\mathbf{C}_i$ . La classe est déterminée par la similarité maximale. Cela crée un sous-espace de représentation dédié et compact pour chaque tâche.

Optimisation et Régularisation

Fonction de Perte : L'entraînement utilise une perte d'entropie croisée ( $\mathcal{L}_{CE}$ ) pour l'optimisation des prompts.
Régularisation L2 : Pour éviter que l'initialisation aléatoire des prompts ne produise des valeurs extrêmes, une perte de régularisation L2 ( $\mathcal{L}_{L2}$ $L_{L 2}$ ) est ajoutée spécifiquement lors de l'initialisation. Cela pénalise les grandes valeurs initiales, assurant une stabilité et une généralisation accrues.
- Perte totale : $\mathcal{L} = \mathcal{L}_{CE} + \lambda \mathcal{L}_{L2}$ .

3. Contributions Principales

Suppression des paires clé-valeur : ProP élimine la dépendance aux mécanismes de recherche par clé-valeur, éradiquant ainsi l'interférence inter-tâches et les goulots d'étranglement liés à la scalabilité.
Couplage Prompt-Prototype : L'introduction d'un mécanisme où le prompt spécifique à la tâche est lié directement à un prototype partageant le même ID de tâche. Cela intègre l'information spécifique à la tâche sans étapes de récupération supplémentaires.
Initialisation Régularisée : L'ajout d'une contrainte de régularisation L2 lors de l'initialisation des prompts pour stabiliser l'apprentissage et éviter les dérives de caractéristiques.
Performance sans Exemples (Replay-free) : La méthode atteint des performances supérieures sans stocker d'échantillons des tâches précédentes (replay), ce qui est crucial pour la confidentialité des données.

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs jeux de données de référence (CIFAR-100, CUB-200, ImageNet-R, ImageNet-A, ObjectNet, OmniBench, VTAB) avec un backbone ViT-B/16 pré-entraîné sur ImageNet-21K.

Performance Globale : ProP surpasse systématiquement les méthodes de pointe (L2P, DualPrompt, Coda-Prompt, APER) et les méthodes traditionnelles (LwF, iCaRL, DER) en termes de précision moyenne (Avg) et de précision finale (Last).
- Exemple : Sur ImageNet-R et ImageNet-A, ProP montre une amélioration moyenne de plus de 5 % par rapport aux meilleures méthodes existantes.
Robustesse : La méthode maintient de hautes performances même avec différentes configurations d'apprentissage incrémental (nombre de classes initiales vs incrémentales) et différents backbones (ViT-B/16-IN1K vs IN21K).
Comparaison avec le Replay : De manière surprenante, ProP atteint les meilleures performances sans stocker aucun exemple (0 exemplaires), surpassant même les méthodes basées sur le replay (comme iCaRL, DER) qui conservent 20 échantillons par classe.
Analyse d'ablation :
- La fusion par concaténation des caractéristiques (modèle pré-entraîné + modèle finetuné) s'avère supérieure aux méthodes de somme, pooling ou moyenne.
- La régularisation L2 améliore significativement la performance en stabilisant l'initialisation.
- La longueur du prompt ( $L_p$ ) n'a pas d'impact linéaire positif ; une longueur de 5 est suffisante.

5. Signification et Impact

Ce travail offre une nouvelle perspective pour la recherche en apprentissage continu :

Paradigme Simplifié : Il démontre que la complexité et les risques d'erreur associés aux mécanismes de recherche de clés (key-value) peuvent être évités en utilisant une approche basée sur la similarité directe avec des prototypes.
Efficacité et Scalabilité : En supprimant l'étape de recherche de clé, le modèle évite les interférences entre tâches et réduit la dépendance à la taille du pool de prompts, rendant le système plus robuste à l'ajout de nombreuses tâches.
Stabilité : L'approche garantit une meilleure stabilité de l'initialisation et une rétention des connaissances grâce à l'utilisation combinée des prototypes du modèle pré-entraîné et du modèle finetuné.

En conclusion, ProP établit un nouvel état de l'art pour l'apprentissage continu incrémental de classes (CIL) sans réhearsal, prouvant que l'association directe de prompts et de prototypes est une alternative plus efficace et scalable aux méthodes basées sur les paires clé-valeur.