Beyond Prompt Degradation: Prototype-guided Dual-pool Prompting for Incremental Object Detection

Ce papier propose PDP, un cadre novateur pour la détection d'objets incrémentielle qui surpasse les méthodes existantes en utilisant un découplage de prompts à double pool pour séparer les connaissances générales et spécifiques, ainsi qu'un module de génération de pseudo-étiquettes prototypiques pour corriger la dérive des prompts et atteindre des performances de pointe sur les benchmarks MS-COCO et PASCAL VOC.

Yaoteng Zhang, Zhou Qing, Junyu Gao, Qi Wang

Publié 2026-03-04
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'apprendre à un robot à reconnaître des objets dans des photos, mais avec une contrainte très difficile : il ne doit jamais oublier ce qu'il a déjà appris, même quand on lui montre de nouveaux objets. C'est ce qu'on appelle la "détection d'objets incrémentale".

Le problème, c'est que les méthodes actuelles utilisent une sorte de "mémoire magique" (appelée prompt) pour aider le robot. Mais cette mémoire a deux gros défauts :

  1. Le mélange des genres (Couplage) : On met tout dans le même tiroir. Les connaissances générales (comme "c'est un animal") se mélangent avec les détails spécifiques (comme "c'est un chat roux"). Résultat : le robot devient confus.
  2. La dérive (Drift) : Quand on lui apprend de nouvelles choses, le robot commence à oublier les anciennes. Par exemple, s'il apprend à reconnaître des "voitures", il peut commencer à penser que les "chats" qu'il connaissait avant sont en fait du "décor" (fond) et les ignorer.

Les auteurs de cet article, Yaoteng Zhang et son équipe, ont créé une solution géniale appelée PDP. Voici comment ça marche, avec des analogies simples :

1. La Bibliothèque à Deux Rayons (Le "Dual-Pool")

Au lieu d'avoir un seul grand tiroir pour toutes les connaissances, PDP construit une bibliothèque avec deux rayons distincts :

  • Le Rayon "Général" (Shared Pool) : C'est comme une bibliothèque de connaissances universelles. Ici, on range tout ce qui est utile pour tout le monde, comme "les objets ont des formes" ou "les ombres existent". Ce rayon est mis à jour tout le temps pour aider le robot à comprendre le monde de manière stable.
  • Le Rayon "Spécialisé" (Private Pool) : C'est comme un casier personnel pour chaque nouvelle tâche. Quand le robot apprend à reconnaître les "chats", il crée un casier spécial juste pour ça. Quand il apprend les "voitures", il en crée un autre. Cela empêche les connaissances de se mélanger et de se perturber mutuellement.

L'analogie : Imaginez un chef cuisinier.

  • Le Rayon Général, c'est sa connaissance des épices de base (sel, poivre) qu'il utilise pour tous les plats.
  • Le Rayon Spécialisé, c'est son carnet de recettes secrètes pour chaque nouveau plat qu'il invente.
    Grâce à cette séparation, le chef ne risque pas de mettre du sucre dans un plat salé par erreur, et il n'oublie pas ses bases tout en apprenant de nouvelles recettes.

2. Le Détective de Prototype (Le module PPG)

Le deuxième problème est que, quand le robot apprend de nouvelles choses, il se trompe souvent sur les anciennes. Il pense : "Ah, ce chat, je ne l'ai pas vu depuis longtemps, donc ce n'est pas un chat, c'est juste un fond d'écran." C'est ce qu'on appelle la "dérive des invites".

Pour régler ça, PDP utilise un Détective de Prototype :

  • Au lieu de se fier à un simple "score de confiance" (qui peut être trompeur), le robot garde en mémoire une "photo idéale" (un prototype) de chaque objet qu'il a déjà appris.
  • Quand il voit une image floue ou douteuse, il ne dit pas "je ne suis pas sûr". Il compare l'image à sa "photo idéale".
  • L'analogie : Imaginez que vous avez une photo de votre ami dans votre téléphone. Si vous voyez quelqu'un de loin qui ressemble à votre ami, même si vous n'êtes pas sûr à 100 %, votre cerveau dit : "Attends, il ressemble beaucoup à la photo de mon ami, donc c'est probablement lui."
  • Grâce à ce système, le robot peut créer de nouvelles "étiquettes" (pseudo-labels) fiables pour les objets anciens, même quand il est en train d'apprendre quelque chose de nouveau. Il ne les oublie pas.

Les Résultats

Grâce à cette double bibliothèque et ce détective intelligent, le robot PDP a battu tous les records précédents :

  • Il a appris de nouvelles choses sans oublier les anciennes (il est stable).
  • Il a appris très vite les nouvelles choses (il est plastique/adaptable).
  • Sur les tests standards (comme MS-COCO), il a amélioré les performances de plus de 9 %, ce qui est énorme dans ce domaine.

En résumé

L'article propose de séparer clairement ce que le robot apprend de nouveau et ce qu'il garde en mémoire générale, tout en utilisant des photos idéales (prototypes) pour s'assurer qu'il ne perd jamais de vue les objets qu'il connaît déjà. C'est une façon intelligente de dire au robot : "Apprends de nouvelles choses, mais garde toujours tes anciennes connaissances bien rangées et accessibles."