Retrieving Counterfactuals Improves Visual In-Context Learning

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'apprendre à un ami à reconnaître des oiseaux très similaires, comme le Warbler à ailes dorées et le Warbler à ailes bleues. La seule différence est une petite tache noire sur la tête ou la couleur du ventre.

Si vous lui montrez simplement 10 photos d'oiseaux qui se ressemblent tous beaucoup (c'est ce que font les méthodes actuelles), votre ami risque de se tromper. Il va dire : « Ah, tous ces oiseaux ont un ventre gris, donc celui-ci doit être un Warbler à ailes bleues ! » Il a appris une corrélation trompeuse (ventre gris = bleu) au lieu de comprendre la cause réelle (tache noire sur la tête = bleu).

C'est exactement le problème que résout ce papier de recherche, intitulé CIRCLES.

Voici une explication simple de leur solution, avec quelques analogies :

1. Le Problème : Le "Copier-Coller" Visuel

Les modèles d'intelligence artificielle actuels (les VLM) sont comme des étudiants très studieux mais un peu naïfs. Quand on leur demande de résoudre un problème en regardant des exemples (ce qu'on appelle l'apprentissage "in-context"), ils regardent les exemples les plus similaires visuellement.

L'analogie : C'est comme si vous cherchiez un livre dans une bibliothèque en demandant au bibliothécaire : "Donnez-moi des livres qui ressemblent physiquement à celui-ci". Il vous donnera des livres avec la même couverture rouge. Mais si vous cherchiez un livre sur l'histoire de Rome, et que tous les livres rouges parlent de cuisine italienne, vous allez apprendre la mauvaise chose !

2. La Solution : CIRCLES (Le Détective Contrefactuel)

Les auteurs proposent une nouvelle méthode appelée CIRCLES. Au lieu de juste chercher des images qui ressemblent à la photo de départ, CIRCLES va modifier mentalement la photo pour voir ce qui change le résultat.

L'analogie du "Et si ?" :
Imaginez que vous avez un oiseau avec un ventre rayé. Au lieu de chercher juste d'autres oiseaux rayés, CIRCLES demande à l'IA : "Et si on changeait la couleur du ventre en gris uni, tout en gardant le reste identique ?"
Ensuite, l'IA cherche dans sa bibliothèque des oiseaux qui ont exactement ce nouveau ventre gris.
- Si l'oiseau devient un Warbler à ailes bleues quand on change le ventre, alors l'IA comprend que c'est le ventre qui compte, pas la couleur des ailes.

C'est ce qu'on appelle un exemple contrefactuel (un exemple basé sur une hypothèse "si ça avait été différent").

3. Comment ça marche en pratique ?

Le système CIRCLES fait deux choses en même temps pour créer un "cours" parfait pour l'IA :

La partie "Similaire" (Le contexte) : Il prend des images qui ressemblent à la photo de départ (comme les méthodes classiques). Cela donne une idée générale du sujet.
La partie "Contrefactuelle" (La leçon de logique) : Il prend des attributs clés (comme "couleur du bec", "motif de la queue") et crée des variations. Il montre à l'IA : "Voici un oiseau avec un bec rouge. Et voici le même oiseau, mais avec un bec bleu. Regarde, le nom de l'oiseau a changé !"

4. Pourquoi c'est génial ?

Pour les petits cerveaux : Les modèles d'IA plus petits (qui ont moins de connaissances internes) bénéficient énormément de cette méthode. C'est comme donner des lunettes de lecture à quelqu'un qui a du mal à voir les détails.
Quand il y a peu de données : Si vous avez très peu d'exemples à montrer (comme dans un monde où il y a peu de livres sur un sujet), CIRCLES crée des exemples "intelligents" qui comblent les trous de logique, là où les autres méthodes échouent.
Moins d'erreurs bêtes : En apprenant à distinguer les causes réelles des simples coïncidences, l'IA devient beaucoup plus robuste et moins susceptible de se faire piéger par des apparences trompeuses.

En résumé

Le papier dit essentiellement : "Arrêtez de juste montrer des exemples qui se ressemblent. Montrez des exemples qui changent un petit détail pour voir ce qui se passe."

CIRCLES transforme l'apprentissage de l'IA d'une simple mémorisation visuelle en une véritable compréhension des causes et des effets, un peu comme passer d'un étudiant qui recopie le tableau à un étudiant qui comprend vraiment la leçon de physique derrière les formules.

Each language version is independently generated for its own context, not a direct translation.

Titre : Retrieving Counterfactuals Improves Visual In-Context Learning

Auteurs : Guangzhi Xiong, Sanchit Sinha, Zhenghao He, Aidong Zhang (Université de Virginie)

1. Problématique

Les modèles vision-langage (VLM) ont obtenu des performances remarquables dans de nombreuses tâches de raisonnement multimodal. Cependant, ils éprouvent souvent des difficultés à :

Désenchevêtrer les attributs visuels fins (fine-grained visual attributes).
Reasonner sur les relations causales sous-jacentes, tendant plutôt à apprendre des corrélations superficielles ou des associations spurious (fausses corrélations) présentes dans les données d'entraînement.

Dans le cadre de l'Apprentissage Contextuel (In-Context Learning - ICL), où le modèle s'adapte à une nouvelle tâche via des exemples de démonstration fournis à l'inférence, les méthodes existantes reposent principalement sur une récupération passive basée sur la similarité (ex: RICES). Ces approches sélectionnent des exemples visuellement proches de la requête, mais qui partagent souvent des attributs non pertinents ou confondants. Cela limite la robustesse du modèle, en particulier dans des scénarios de pénurie d'information ou de décalage de distribution, car le modèle ne reçoit pas d'indication claire sur comment la modification d'un attribut spécifique affecte la réponse.

2. Méthodologie : Le Framework CIRCLES

Les auteurs proposent CIRCLES (Composed Image Retrieval for Causal Learning Example Selection), un cadre novateur qui enrichit les ensembles de démonstration en intégrant des exemples de type contre-factuel.

Le pipeline de CIRCLES se compose de trois étapes principales :

A. Identification des Attributs Clés

Pour une image de requête $I_q$ et une question $Q_q$ , le VLM est sollicité pour extraire les attributs visuels décisifs pour répondre à la question (ex: "couleur de la poitrine", "motif du ventre").

B. Récupération par Compréhension Causale (Composed Image Retrieval - CIR)

C'est le cœur de l'innovation. Au lieu de chercher uniquement des images similaires, CIRCLES génère des contre-factuels :

Intervention : Pour chaque attribut clé $a_i$ avec une valeur $v_i$ , le système imagine une intervention $do(a_i = v'_i)$ où l'attribut est changé vers une valeur alternative $v'_i$ , tout en gardant les autres attributs constants.
Génération de Caption Contre-factuelle : Le VLM génère une description textuelle de l'image modifiée (ex: "Un oiseau identique mais avec une poitrine grise au lieu de noire").
Récupération Hybride : Le système récupère des images de la base de données qui correspondent visuellement à cette description modifiée, tout en maintenant une forte similarité sémantique avec la question d'origine.
- Score de similarité = Similarité Image-Caption (pour la fidélité visuelle au contre-factuel) + Similarité Question-Question (pour le contexte sémantique).
- Cela permet d'isoler l'effet causal d'un attribut spécifique sur la réponse.

C. Récupération par Compréhension Corrélative (Standard Image Retrieval)

Pour compléter les exemples contre-factuels, CIRCLES récupère également des exemples standards basés sur la similarité image-image (comme RICES). Cela fournit un contexte général et des prototypes visuels réalistes.

D. Inférence Augmentée par Récupération

L'ensemble final de démonstrations $R$ est l'union des exemples causaux ( $R_{causal}$ ) et des exemples corrélatifs ( $R_{corr}$ ). Le VLM utilise cet ensemble mixte pour générer la réponse finale, apprenant ainsi à distinguer les attributs pertinents des corrélations accidentelles.

3. Contributions Clés

Cadre CIRCLES : Introduction d'une méthode d'ICL qui utilise activement la récupération d'images composées (CIR) pour construire des ensembles de démonstration contenant des exemples contre-factuels.
Amélioration du Raisonnement : Démontre que l'exposition à des variations d'attributs contrôlées permet aux VLM de raisonner de manière plus robuste et interprétable, au-delà des simples similarités de surface.
Performance Robuste : Validation empirique montrant des gains significatifs, en particulier pour les modèles de petite taille (où la connaissance interne est limitée) et dans des conditions de données rares.

4. Résultats Expérimentaux

Les expériences ont été menées sur quatre jeux de données variés :

Classification fine : CUB (oiseaux) et Flowers (fleurs).
VQA (Visual Question Answering) : OK-VQA et VizWiz.

Principaux résultats :

Performance Supérieure : CIRCLES surpasse systématiquement les méthodes de base (RICES, MUIER, MMICES) et le zero-shot sur tous les modèles (Gemma3, Qwen2.5-VL) et tous les jeux de données.
Gain sur les Petits Modèles : Les améliorations sont particulièrement marquées sur les modèles de 4B et 3B paramètres, suggérant que CIRCLES compense efficacement le manque de connaissances internes par un contexte riche.
Robustesse à la Pénurie d'Information : Dans des scénarios où jusqu'à 75% des données d'entraînement sont retirées, CIRCLES maintient une performance supérieure à RICES. L'écart de performance s'élargit à mesure que les données deviennent rares, prouvant que les exemples contre-factuels fournissent un signal d'apprentissage plus efficace que la simple similarité.
Analyse Qualitative : Les exemples récupérés par CIRCLES montrent clairement comment la modification d'un attribut (ex: changement de motif du ventre) modifie la classe de l'oiseau, guidant le modèle vers la bonne prédiction là où la similarité visuelle pure échoue (en confondant par exemple un Magnolia Warbler avec un Myrtle Warbler).

5. Signification et Impact

Ce travail marque une avancée significative dans l'apprentissage contextuel visuel en passant d'une logique de récupération passive (trouver "ce qui ressemble") à une logique de récupération active et causale (trouver "ce qui change l'issue").

Interprétabilité : CIRCLES offre une fenêtre sur le processus de raisonnement du modèle, en montrant quels attributs sont réellement décisifs.
Efficacité des Données : La méthode est particulièrement pertinente pour les applications réelles où les données étiquetées sont limitées, car elle permet d'exploiter au mieux les données disponibles en créant des variations sémantiques pertinentes.
Futur : L'approche suggère que l'intégration de mécanismes d'intervention causale (via le CIR) est une voie prometteuse pour améliorer la généralisation et la fiabilité des VLM, sans nécessiter de réentraînement coûteux des modèles de base.

En résumé, CIRCLES démontre que pour apprendre efficacement "in-context", il ne suffit pas de montrer des exemples similaires ; il faut aussi montrer des exemples qui varient de manière contrôlée pour révéler la structure causale de la tâche.