Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : L'IA qui regarde le décor au lieu du spectacle

Imaginez que vous apprenez à un enfant à reconnaître un oiseau.
Si vous lui montrez des photos d'oiseaux, mais que sur toutes ces photos, l'oiseau est perché sur une branche, l'enfant va probablement apprendre une astuce (une "corrélation fallacieuse") : "Ah, si je vois une branche, c'est un oiseau !".

Le problème, c'est que si vous montrez ensuite un oiseau qui flotte dans le ciel (sans branche), l'enfant sera perdu. Il ne regarde pas les ailes, le bec ou les plumes (les vrais indices), mais il cherche désespérément la branche.

C'est exactement ce qui arrive aux Vision Transformers (ViT), les modèles d'intelligence artificielle les plus avancés pour voir des images. Ils sont très forts sur les images "normales", mais dès qu'on change le décor (un fond différent, un dessin animé, une photo prise sous un angle bizarre), ils échouent lamentablement. Ils se sont habitués à regarder le fond de l'image plutôt que l'objet lui-même.

🛠️ La Solution : Le "Guidage par les Concepts" (CFT)

Les chercheurs de l'Université de Tel Aviv et de l'Open University ont inventé une méthode appelée CFT (Concept-Guided Fine-Tuning).

Au lieu de simplement dire à l'IA : "Regarde l'oiseau et ignore le fond" (ce qui est trop vague), ils lui disent : "Regarde spécifiquement le bec, les ailes et les plumes".

Voici comment ils font, étape par étape, avec une analogie simple :

1. Le Détective de Mots (LLM)

Imaginez que vous avez un détective très intelligent (une IA de texte, comme un Chatbot) qui n'a jamais vu d'images. Vous lui demandez : "Quelles sont les parties importantes d'un oiseau ?".
Il vous répond : "Un long bec, des ailes, des pattes, des plumes colorées".
C'est la première étape : générer une liste de concepts importants sans avoir besoin de dessiner des lignes autour des objets.

2. Le Peintre Automatique (VLM)

Ensuite, vous prenez ces mots ("bec", "ailes") et vous les donnez à un autre expert, un "peintre" qui connaît très bien les images (un modèle de vision).
Le peintre regarde chaque photo d'entraînement et dit : "Tiens, sur cette photo, je vois un bec ici, et des ailes là". Il crée automatiquement un masque (une zone colorée) qui met en évidence exactement ces parties, sans que personne n'ait eu à les dessiner à la main.

3. La Rééducation de l'IA

C'est ici que la magie opère. On prend le modèle d'IA qui a tendance à regarder le fond, et on le force à se concentrer sur les zones que le "peintre" a mises en évidence (le bec, les ailes).

L'objectif : Si l'IA regarde le bec, on la félicite. Si elle regarde le fond, on la corrige.
Le résultat : L'IA apprend à raisonner comme un expert : "Ce n'est pas parce qu'il y a de l'eau que c'est un canard, c'est parce que je vois un bec plat et des plumes".

🚀 Pourquoi c'est génial ?

Pas de travail manuel : Habituellement, pour entraîner une IA à être robuste, il faut des milliers d'images où des humains ont dessiné des contours précis autour des objets. Ici, tout est automatique. Les chercheurs ont utilisé seulement 1 500 images (3 par classe) pour entraîner le modèle sur la moitié des catégories d'ImageNet. C'est comme apprendre à conduire avec seulement 3 heures de pratique au lieu de 300 !
Robustesse incroyable : Après cette "rééducation", l'IA devient beaucoup plus forte. Elle ne se trompe plus quand l'arrière-plan change, quand l'objet est dessiné au crayon, ou quand il est vu sous un angle bizarre.
Compréhension profonde : L'IA ne fait pas juste "deviner" la bonne réponse. Elle a appris à regarder les bonnes choses. Les cartes de chaleur (qui montrent où l'IA regarde) prouvent qu'elle se concentre désormais sur les parties réelles de l'objet (le museau du chien, la roue de la voiture) et non plus sur le décor.

🏆 En résumé

Imaginez que vous apprenez à un étudiant à faire un examen.

L'ancien modèle apprenait par cœur : "Si la question a un fond bleu, la réponse est A".
Le nouveau modèle (CFT) apprend la logique : "La réponse A est correcte parce que le sujet a telle et telle caractéristique".

Cette méthode permet de créer des intelligences artificielles plus fiables, plus sûres et plus faciles à comprendre, capables de fonctionner dans le monde réel, où les choses ne sont jamais parfaites ni toujours dans le même contexte. C'est un pas de géant vers des IA qui "voient" vraiment, et non pas juste qui "devinent".

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les Transformers de Vision (ViT) actuels, bien que performants sur des benchmarks standards comme ImageNet, souffrent d'une faible robustesse face aux changements de distribution (Out-of-Distribution ou OOD).

Cause racine : Ces modèles ont tendance à apprendre des corrélations fallacieuses (spurious correlations), en se basant sur des indices de contexte ou de fond (textures, arrière-plans) plutôt que sur les caractéristiques sémantiques intrinsèques de l'objet.
Limites des méthodes existantes : Les approches de régularisation actuelles utilisent souvent des masques simples "premier plan / arrière-plan" (foreground-background). Cette séparation binaire est trop grossière : elle ignore la structure sémantique interne de l'objet (par exemple, distinguer le "bec" et les "ailes" d'un oiseau) et ne capture pas les concepts discriminatifs nécessaires à une reconnaissance robuste. De plus, ces méthodes nécessitent souvent des masques de segmentation ground-truth annotés manuellement ou un réentraînement complet, ce qui les rend peu évolutives.

2. Méthodologie : Concept-Guided Fine-Tuning (CFT)

Les auteurs proposent CFT, un cadre d'ajustement fin (fine-tuning) post-hoc, entièrement automatique et efficace en termes de données, pour orienter le raisonnement des ViT vers des concepts sémantiques significatifs.

Le processus se déroule en trois étapes principales :

A. Génération Automatique de Concepts (Sans annotation manuelle)

Proposition de concepts : Pour chaque classe, un grand modèle de langage (LLM, ici GPT-4o-mini) génère un ensemble de concepts sémantiques contextuels et discriminatifs (ex: "bec long", "plumes") sans utiliser d'étiquettes visuelles.
Validation et Ancrage Spatial : Un modèle de vision-langage (GroundedSAM, combinant GroundingDINO et SAM) est utilisé pour localiser spatialement ces concepts dans les images d'entraînement.
Filtrage : Les concepts sont validés selon deux critères : leur taux d'occurrence (présence fréquente dans la classe) et leur couverture spatiale (IoU par rapport à la région de l'objet). Seuls les concepts validés sont conservés.

B. Génération du Masque de Guidage Sémantique

Pour chaque image d'entraînement, un masque binaire $S(I)$ est généré en fusionnant les masques de segmentation de tous les concepts validés pour cette image. Ce masque représente les régions sémantiquement pertinentes (les concepts) plutôt qu'une simple silhouette d'objet.

C. Objectif d'Entraînement (Loss Function)

L'ajustement fin optimise les paramètres du modèle $\theta$ pour minimiser une perte totale $L$ composée de deux termes :

Perte d'Alignement ( $L_{align}$ ) : Elle vise à aligner la carte de pertinence du modèle $\Phi(I)$ $Φ (I)$ (calculée via AttnLRP, une méthode de propagation de pertinence fidèle aux Transformers) avec le masque de concepts $S(I)$ $S (I)$ .
- Lconcept : Maximise la pertinence dans les zones de concepts.
- Lnon-concept : Minimise la pertinence dans les zones d'arrière-plan (suppression des corrélations fallacieuses).
Perte de Cohérence de Classification ( $L_{cls}$ ) : Pour éviter que le modèle ne perde sa capacité de classification en se concentrant uniquement sur les explications, une perte de cohérence est ajoutée. Elle force la distribution de sortie du modèle à rester cohérente avec sa propre prédiction initiale (plutôt que d'utiliser l'étiquette ground-truth classique), préservant ainsi la précision in-distribution.

Efficacité des données : La méthode n'utilise qu'un sous-ensemble minimal de données (3 images par classe pour la moitié des classes d'ImageNet-1K, soit ~1500 images) et ne nécessite aucune annotation manuelle.

3. Contributions Clés

Cadre CFT : Introduction d'une méthode d'ajustement fin post-hoc qui guide les modèles vers des concepts sémantiques fins plutôt que vers des régions de premier plan globales.
Automatisation complète : Élimination du besoin de masques de segmentation annotés manuellement grâce à l'utilisation combinée de LLM et de VLM (Vision-Language Models).
Utilisation d'AttnLRP : Adoption d'une méthode d'explication fidèle aux Transformers pour calculer les cartes de pertinence, évitant les instabilités des méthodes basées sur les gradients.
Preuve de concept : Démonstration que les concepts sémantiques fins sont des signaux de supervision supérieurs aux masques de segmentation binaire pour la robustesse.

4. Résultats Expérimentaux

Les expériences ont été menées sur cinq benchmarks OOD (ImageNet-A, ObjectNet, ImageNet-R, ImageNet-Sketch, SI-Score) et trois modèles ViT (ViT-B, DINOv2, DeiT-III) ainsi que ConvNeXt-V2.

Robustesse OOD : CFT surpasse systématiquement les méthodes de base (GradMask, RRR, RRDA) et le modèle original.
- Exemple : Sur ImageNet-A (exemples adversariaux naturels), CFT améliore la précision Top-1 de ViT-B de 13.26% à 27.76% (vs 25.12% pour le meilleur concurrent).
- Les gains sont particulièrement marqués sur les datasets où les indices de fond sont trompeurs (ImageNet-A, ObjectNet).
Alignement des Cartes de Pertinence : Les cartes de pertinence générées par CFT montrent un meilleur accord avec les masques ground-truth d'objets (mIoU augmenté de ~6 à 10 points), prouvant que le modèle se concentre désormais sur les parties sémantiques de l'objet.
Généralisation : Les améliorations de robustesse se généralisent aux classes non vues lors de l'ajustement fin, indiquant que le modèle a appris un raisonnement plus robuste et non pas mémorisé des indices spécifiques à certaines classes.
Précision In-Distribution : La précision sur les données d'origine (ImageNet-V) est maintenue, voire légèrement améliorée dans certains cas, grâce à la perte de cohérence de classification.

5. Signification et Impact

Cet article propose une voie évolutive vers des modèles de vision plus fiables et interprétables.

Changement de paradigme : Il démontre que la simple séparation "objet/fond" est insuffisante pour la robustesse ; la granularité sémantique (les concepts) est cruciale.
Accessibilité : En ne nécessitant qu'un petit nombre d'images et aucune annotation manuelle, CFT rend l'amélioration de la robustesse accessible pour les grands modèles pré-entraînés sans coût de calcul prohibitif.
Interprétabilité : La méthode fournit non seulement de meilleures performances, mais aussi des explications (cartes de pertinence) qui correspondent mieux à l'intuition humaine sur la structure de l'objet.

En résumé, CFT transforme la façon dont les ViT raisonnent, en les forçant à ignorer les raccourcis contextuels pour se concentrer sur les caractéristiques sémantiques discriminatives, offrant ainsi une solution robuste aux défaillances des modèles actuels face aux distributions de données réelles.