Learning to Select Visual In-Context Demonstrations

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'enseigner à un robot très intelligent (un modèle d'intelligence artificielle) comment estimer l'âge d'une personne sur une photo, ou comment juger la qualité d'une image. Le robot est déjà très doué, mais pour bien faire, il a besoin d'exemples. C'est ce qu'on appelle l'apprentissage "in-context" : on lui montre quelques exemples avant de lui poser la question.

Le problème, c'est quels exemples choisir ?

Le problème : La méthode du "Copain Copain" (kNN)

Jusqu'à présent, la méthode standard pour choisir ces exemples était très simple : on cherchait les images qui ressemblaient le plus à celle qu'on voulait analyser. C'est comme si vous demandiez à un ami de vous aider à deviner l'âge d'un enfant, et que vous lui montriez uniquement d'autres enfants qui ont exactement la même coiffure et le même t-shirt.

Les chercheurs appellent cela le k-NN (k plus proches voisins). C'est simple, mais c'est souvent inefficace pour des tâches complexes. Pourquoi ? Parce que si vous montrez 10 images de bébés blonds pour apprendre à un robot à estimer l'âge, il va penser que "tous les humains sont des bébés blonds". Il ne comprendra pas la diversité des âges (les adultes, les personnes âgées). Il manque de perspective.

La solution : L'agent "Curateur" (LSD)

Les auteurs de cette paper, Eugene Lee et son équipe, ont créé une nouvelle méthode appelée LSD (Learning to Select Demonstrations). Au lieu de chercher bêtement des images qui se ressemblent, ils ont entraîné un petit "agent intelligent" (un agent d'apprentissage par renforcement) pour agir comme un curateur de musée.

Voici comment cela fonctionne avec une analogie :

L'approche kNN (l'ancienne méthode) : C'est comme un photocopieur. Si vous lui donnez une photo d'un chat, il vous sort 10 copies de chats qui se ressemblent tous. C'est utile si vous voulez juste voir un chat, mais pas si vous voulez comprendre ce qu'est un "animal" en général.
L'approche LSD (la nouvelle méthode) : C'est comme un professeur de peinture. Si vous lui demandez d'expliquer la couleur "rouge", il ne va pas vous montrer 10 pommes rouges. Il va vous montrer une pomme rouge, un feu rouge, une rose, un coucher de soleil et un camion de pompier. Il choisit des exemples différents mais qui couvrent tout le spectre de la couleur rouge.

Comment l'agent apprend-il ?

L'agent LSD ne devine pas au hasard. Il joue à un jeu vidéo complexe :

Il regarde la photo qu'il doit analyser (le "query").
Il choisit un exemple dans une immense bibliothèque de photos.
Il le montre au robot principal pour voir si celui-ci devine mieux l'âge ou la qualité.
Si le robot devine mieux, l'agent reçoit un point (une récompense). Si le robot se trompe, l'agent perd un point.
Au fil du temps, l'agent apprend une stratégie : "Ah, pour deviner l'âge, je dois montrer un bébé, un adolescent, un adulte et un grand-père, pas juste des bébés !"

La grande découverte : Tout dépend de la tâche !

C'est le résultat le plus intéressant de l'article. Les chercheurs ont découvert une dichotomie (une séparation en deux) :

Pour les tâches "objectives" (comme l'âge ou la qualité d'image) :
- Ici, la réponse est une vérité factuelle. Un enfant a 5 ans, c'est 5 ans.
- Résultat : La méthode LSD (le professeur qui montre la diversité) gagne haut la main. Elle apprend au robot les "limites" du problème (le plus jeune, le plus vieux, le pire défaut, le meilleur défaut).
- Analogie : Pour apprendre à un élève à estimer la distance, vous lui montrez un mètre, un kilomètre et un centimètre, pas juste trois mètres.
Pour les tâches "subjectives" (comme le goût artistique ou la beauté) :
- Ici, la réponse dépend du sentiment humain. Une photo peut être belle pour certains, moins pour d'autres.
- Résultat : La méthode kNN (le photocopieur) fonctionne souvent mieux. Pourquoi ? Parce que si vous voulez juger la beauté d'une photo de coucher de soleil, vous voulez voir d'autres couchers de soleil similaires pour comparer. Montrer une photo de cuisine ou de chat n'aidera pas à juger la beauté du coucher de soleil.
- Analogie : Pour choisir un vin, vous voulez goûter des vins de la même région, pas un vin rouge, un vin blanc et une bière.

En résumé

Cette recherche nous apprend qu'il n'y a pas de "méthode magique" unique pour choisir des exemples.

Si vous voulez que votre IA soit précise et factuelle (comme un médecin ou un ingénieur), vous devez lui donner des exemples diversifiés pour qu'elle comprenne toute la gamme des possibilités. C'est là que l'agent intelligent (LSD) excelle.
Si vous voulez que votre IA soit sensible et artistique (comme un critique d'art), vous devez lui donner des exemples similaires pour qu'elle se concentre sur les détails fins.

L'innovation majeure est d'avoir créé un système capable de comprendre cette différence et d'adapter sa stratégie de sélection en conséquence, transformant l'IA en un véritable élève capable de tirer le meilleur de ses exemples.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage multimodaux (MLLM) s'adaptent aux tâches visiques grâce à l'apprentissage en contexte (In-Context Learning - ICL). La performance de cette approche dépend crucialement de la qualité des exemples de démonstration (démonstrations) fournis dans l'invite (prompt).

Limitation de l'état de l'art : La stratégie dominante consiste à utiliser une recherche de voisins les plus proches non supervisée (k-NN) basée sur la similarité des caractéristiques visuelles.
Le problème : Bien que simple, l'approche "priorité à la similarité" est sous-optimale pour les tâches de régression factuelle objective (ex: estimation de l'âge, qualité d'image). Elle tend à sélectionner des exemples redondants qui ne couvrent pas l'ensemble de l'espace de sortie de la tâche, empêchant le modèle de bien définir les limites de la régression.
Hypothèse centrale : La sélection optimale dépend de la nature de la tâche. Pour les tâches subjectives (préférences esthétiques), la similarité visuelle suffit. Pour les tâches objectives, il faut un ensemble diversifié d'exemples "frontières" pour couvrir l'espace de régression.

2. Méthodologie : Framework LSD (Learning to Select Demonstrations)

Les auteurs proposent LSD, un cadre d'apprentissage par renforcement (RL) qui reformule la sélection de démonstrations comme un problème de prise de décision séquentielle.

A. Formulation MDP (Processus de Décision de Markov)

Le processus est modélisé comme un MDP à horizon fini :

État ( $s_t$ ) : Comprend l'embedding de la requête ( $q$ ) et l'ensemble ordonné des démonstrations déjà sélectionnées ( $D_{t-1}$ ).
Action ( $a_t$ ) : Sélection d'une nouvelle démonstration dans un espace d'actions massif (l'ensemble du dataset, $N \approx 50\,000$ ).
Récompense ( $r_t$ ) : Calculée comme l'amélioration marginale de la performance du MLLM (réduction de l'Erreur Absolue Moyenne - MAE) après l'ajout de la nouvelle démonstration.
Objectif : Maximiser la récompense cumulative pour obtenir le meilleur ensemble de $K$ démonstrations.

B. Architecture du Réseau : Dueling DQN avec Décodeur Centré sur la Requête

Pour gérer l'espace d'actions discret et massif ( $O(N)$ ), les auteurs utilisent une architecture innovante :

Encodeur d'État Centré sur la Requête (Query-Centric State Encoder) :
- Utilise un Décodeur Transformer (et non un encodeur).
- La requête est le target (séquence de longueur 1) et les démonstrations sélectionnées sont la mémoire.
- Cela permet au modèle de pondérer dynamiquement les démonstrations en fonction de la requête spécifique, évitant l'effondrement de la politique (où le modèle choisirait toujours les mêmes exemples "génériques").
Têtes Dueling (Dueling Heads) :
- Value Head : Estime la valeur de l'état $V(s)$ .
- Advantage Head : Produit un vecteur de requête d'avantage ( $a_s$ ) de dimension $D$ .
Recherche Approximative (ANN) :
- Au lieu de calculer les valeurs Q pour tous les $N$ échantillons (impossible), le vecteur d'avantage $a_s$ est utilisé pour interroger un index FAISS.
- Le système récupère les $k$ candidats les plus proches (par produit scalaire) dans l'espace d'embedding, réduisant la complexité de $O(N)$ à $O(\log N)$ .

3. Contributions Clés

Reformulation du problème : Passage d'une sélection statique basée sur la similarité à un processus de décision séquentiel appris par RL.
Architecture Scalable : Combinaison d'un Dueling DQN et d'un décodeur Transformer centré sur la requête, permettant de gérer des espaces d'actions de grande taille via FAISS.
Découverte d'une dichotomie critique : Mise en évidence que la sélection apprise est nécessaire pour les tâches de régression objectives, mais que le k-NN reste optimal pour les tâches subjectives.
Généralisation : Démonstration que la politique apprise sur un MLLM (Gemma 3) se transfère efficacement à d'autres modèles (Qwen, Phi) sans réentraînement.

4. Résultats Expérimentaux

Les expériences ont été menées sur cinq benchmarks de régression visuelle : UTKFace (âge), AVA (esthétique), SCUT-FBP5500 (beauté), KonIQ-10k et KADID-10k (qualité d'image).

Performance sur les tâches objectives (UTKFace, KonIQ, KADID) :
- LSD surpasse significativement le k-NN et la sélection aléatoire.
- L'écart de performance (MAE) s'élargit à mesure que le nombre de démonstrations ( $K$ ) augmente.
- Analyse qualitative : LSD sélectionne des exemples diversifiés (âges variés, types de distorsions différents) qui définissent les bornes de la régression, tandis que le k-NN sélectionne des clusters redondants.
Performance sur les tâches subjectives (AVA, SCUT-FBP5500) :
- Le k-NN (basé sur la similarité visuelle) reste supérieur ou égal à LSD.
- Cela confirme que pour les préférences humaines subjectives, un "ancrage visuel" fort est plus efficace qu'une diversité artificielle.
Analyse de la politique apprise :
- Bien que l'agent n'ait pas accès aux étiquettes (labels) pendant la sélection, il apprend implicitement à sélectionner des exemples proches en espace de labels (réduction du MAE entre les labels des démos et la requête).
- L'ordre de sélection a moins d'impact que la composition de l'ensemble lui-même.
Généralisation Cross-MLLM :
- Une politique entraînée sur Gemma 3 fonctionne bien sur Qwen 2.5 et Phi-3.5, prouvant qu'elle a appris des heuristiques fondamentales de sélection plutôt que de sur-spécialiser sur un modèle spécifique.

5. Signification et Conclusion

Ce travail établit une frontière claire dans l'apprentissage en contexte visuel :

Pour les tâches subjectives : La similarité visuelle (k-NN) est suffisante et préférable.
Pour les tâches objectives/factuelles : La sélection basée sur la similarité est insuffisante car elle crée de la redondance. Une sélection apprise et consciente de la diversité est strictement nécessaire pour que le modèle comprenne l'étendue de l'espace de régression.

LSD démontre qu'il est possible d'apprendre une politique de sélection généralisable et efficace qui équilibre pertinence visuelle et diversité, offrant une voie prometteuse pour optimiser les prompts des MLLM sans nécessiter de réentraînement coûteux du modèle lui-même.

Learning to Select Visual In-Context Demonstrations

Le problème : La méthode du "Copain Copain" (kNN)

La solution : L'agent "Curateur" (LSD)

Comment l'agent apprend-il ?

La grande découverte : Tout dépend de la tâche !

En résumé

1. Problématique

2. Méthodologie : Framework LSD (Learning to Select Demonstrations)

A. Formulation MDP (Processus de Décision de Markov)

B. Architecture du Réseau : Dueling DQN avec Décodeur Centré sur la Requête

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Conclusion

Articles similaires

Mitigating Forgetting in Continual Learning with Selective Gradient Projection

Boundary-aware Prototype-driven Adversarial Alignment for Cross-Corpus EEG Emotion Recognition

TED: Training-Free Experience Distillation for Multimodal Reasoning

A Step Toward Federated Pretraining of Multimodal Large Language Models

Robust Batch-Level Query Routing for Large Language Models under Cost and Capacity Constraints