Language-Guided Invariance Probing of Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Grand Défi : Les IA voient-elles vraiment ce qu'elles lisent ?

Imaginez que vous avez un détective très intelligent, capable de regarder une photo et de trouver la phrase qui la décrit le mieux parmi des milliers d'options. C'est ce que font les modèles Vision-Language (VLM) comme CLIP ou SigLIP. Ils sont excellents pour reconnaître des objets (un chat, une voiture) sans avoir besoin d'être rééduqués pour chaque nouvelle tâche.

Mais le papier pose une question cruciale : Ce détective est-il vraiment intelligent, ou est-ce juste un parrot qui répète ce qu'il a entendu ?

Pour le savoir, les chercheurs ont créé un test spécial appelé LGIP (une sorte de "test de réalité" pour l'IA).

🎭 Le Test en Deux Actes

Le test se déroule avec une seule photo fixe (par exemple, un chien rouge) et deux types de modifications de texte :

1. Le Test du "Parapluie" (L'Invariance)

Imaginez que vous décrivez votre chien.

Phrase A : "Un chien rouge est assis."
Phrase B : "Il y a un animal rouge qui se repose."

Le sens est le même, juste les mots changent.

Le but : L'IA doit dire "Oui, ces deux phrases correspondent à la photo". Elle ne doit pas paniquer si vous changez le style de la phrase. C'est comme si un ami vous reconnaissait même si vous portiez un chapeau différent.

2. Le Test du "Miroir Brisé" (La Sensibilité Sémantique)

Maintenant, on triche. On change un mot clé pour rendre la phrase fausse.

Phrase A (Vraie) : "Un chien rouge est assis."
Phrase B (Fausse) : "Un chat rouge est assis." (On a changé l'animal).
Le but : L'IA doit dire "Non ! La phrase B ne correspond pas à la photo". Elle doit être très sensible au changement de sens. Si elle dit "Oui, c'est pareil", c'est qu'elle est aveugle aux détails importants.

🏆 Les Résultats : Qui est le meilleur ?

Les chercheurs ont testé 9 modèles d'IA différents avec ce jeu. Voici ce qu'ils ont découvert :

🥇 Les Champions : La famille "CLIP" et "EVA"

Ces modèles sont comme de vrais détectives.

Ils comprennent que changer le style de la phrase (Parapluie) ne change pas la vérité.
Ils repèrent immédiatement quand on remplace un "chien" par un "chat" (Miroir Brisé) et rejettent la fausse phrase.
Analogie : C'est comme un ami qui vous connaît si bien qu'il vous reconnaît même avec une perruque, mais qui vous dirait immédiatement : "Hé, ce n'est pas toi sur cette photo, c'est ton frère !"

🥈 Les Problématiques : La famille "SigLIP"

Ces modèles sont comme des étudiants en stress qui mémorisent par cœur.

Ils sont très forts aux examens classiques (ils reconnaissent bien les objets).
MAIS, dans ce test spécial, ils échouent lamentablement.
- Ils ne font pas la différence entre "Un chien" et "Un chat" si le reste de la phrase est similaire.
- Ils préfèrent parfois la phrase fausse ("Un chat") à la vraie ("Un chien") !
Analogie : Imaginez un ami qui vous reconnaît toujours, mais qui, si vous lui dites "C'est ton frère sur cette photo" (alors que c'est vous), répond : "Ah oui, c'est vrai !" Il ne fait pas la différence entre la réalité et une erreur grossière.

💡 Pourquoi est-ce important ?

Le papier nous apprend que la performance classique ne suffit pas. Un modèle peut avoir un score de réussite de 90% sur les tests habituels, mais être totalement confus quand on change légèrement les mots.

Le danger : Si vous utilisez une IA pour chercher des photos de "voitures rouges" et qu'elle ne comprend pas la différence entre "rouge" et "bleu", elle vous montrera des voitures bleues.
La solution proposée : Les chercheurs suggèrent d'entraîner ces IA avec plus de "fausses phrases" (comme dans le test) pour les forcer à vraiment comprendre le sens, et pas juste à deviner.

En résumé

Ce papier nous dit : "Ne vous fiez pas seulement aux notes scolaires des IA. Il faut les tester avec des pièges linguistiques pour voir si elles comprennent vraiment le monde ou si elles font juste semblant."

Les modèles EVA et OpenCLIP passent le test avec brio, tandis que les modèles SigLIP (malgré leur popularité) semblent avoir du mal à distinguer le vrai du faux quand les mots changent un peu trop.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles vision-langage (VLM) tels que CLIP, OpenCLIP et SigLIP excellent dans les tâches de reconnaissance et de récupération « zero-shot » grâce à l'alignement des images et des textes dans un espace d'embedding partagé. Cependant, leur robustesse linguistique reste mal caractérisée.

Les évaluations standard (précision, scores de récupération) masquent souvent des comportements critiques :

Manque d'invariance : Le modèle réagit-il de manière instable à des paraphrases qui préservent le sens ?
Manque de sensibilité sémantique : Le modèle détecte-t-il correctement les contradictions lorsqu'un attribut visuel (objet, couleur, nombre) est modifié dans le texte ?

L'article pose la question fondamentale : Comment un VLM réagit-il lorsque la formulation du texte change, alors que l'image reste fixe ? Les benchmarks existants confondent souvent ces deux comportements, rendant difficile le diagnostic des fragilités spécifiques (ex: sensibilité aux priorités linguistiques vs ancrage visuel).

2. Méthodologie : LGIP

Les auteurs proposent LGIP (Language-Guided Invariance Probing), un protocole de diagnostic léger et agnostique au modèle, appliqué sur le jeu de données MS COCO (40 000 images, 5 légendes humaines chacune).

A. Construction des perturbations

Pour chaque paire (Image, Légende originale), LGIP génère deux familles de perturbations textuelles :

Paraphrases (Préservation du sens) :
- Simple : Ajout de préfixes ou de wrappers (ex: « Une photo de... »).
- Avancée : Réécriture syntaxique, substitution de synonymes, voix passive, réorganisation de clauses.
- Objectif : Mesurer la stabilité de la similarité (invariance).
Inversions Sémantiques (Semantic Flips) :
- Substitution ciblée d'un seul token (objet, couleur ou nombre) par un autre de la même catégorie, créant une contradiction avec l'image.
- Objectif : Mesurer la capacité du modèle à rejeter les légendes fausses (sensibilité).

B. Métriques

LGIP définit trois métriques clés pour évaluer un encodeur figé (frozen) :

Erreur d'invariance ( $E_{inv}$ ) : L'écart moyen de similarité cosinus entre la légende originale et ses paraphrases. Une valeur faible est souhaitable.
Sensibilité sémantique ( $E_{sens}$ ) : L'écart moyen de similarité entre la légende originale et les légendes inversées. Une valeur élevée indique que le modèle pénalise correctement les contradictions.
Taux de positivité (Positive Rate - PR) : La proportion de cas où la légende originale obtient un score supérieur à la légende inversée. Un PR proche de 0,5 indique un comportement aléatoire (échec), tandis qu'un PR élevé (>0,8) indique une robustesse.

3. Contributions Clés

Introduction de LGIP : Un benchmark diagnostique qui sépare explicitement l'invariance linguistique de la sensibilité sémantique, comblant un vide laissé par les métriques d'agrégation traditionnelles.
Protocole de génération automatisé : Création de paraphrases et d'inversions basées sur des règles (sans accès aux poids du modèle) sur un corpus massif (MS COCO).
Analyse comparative approfondie : Évaluation de neuf VLM populaires (CLIP, OpenCLIP, EVA02-CLIP, SigLIP, SigLIP2) révélant des faiblesses systématiques non détectées par les benchmarks zero-shot classiques.

4. Résultats Expérimentaux

L'étude porte sur neuf modèles, dont les variantes CLIP, OpenCLIP, EVA02-CLIP et la famille SigLIP.

A. Compromis Invariance-Sensibilité

Performances favorables : Les modèles EVA02-CLIP et les grandes variantes OpenCLIP (ViT-H/14) affichent le meilleur compromis : une faible erreur d'invariance (stabilité face aux paraphrases) et une forte sensibilité sémantique (rejet efficace des légendes inversées).
Échec des modèles SigLIP : Les modèles de la famille SigLIP (base et large) présentent une erreur d'invariance significativement plus élevée. Plus alarmant, leur Taux de positivité (PR) est proche de 0,5 (niveau du hasard) pour les légendes inversées, notamment pour les modifications d'objets et de couleurs. Cela signifie qu'ils préfèrent parfois une légende fausse à la description humaine originale.

B. Analyse par type de perturbation

Types d'erreurs : Les modèles CLIP/EVA maintiennent un PR élevé (>0,95) pour les inversions d'objets, tandis que SigLIP reste proche du hasard (~0,47).
Paraphrases avancées : Les paraphrases complexes augmentent l'erreur d'invariance pour tous les modèles, mais les modèles SigLIP restent globalement moins robustes aux variations linguistiques.
Inversions combinées : Même dans des scénarios combinant paraphrase et inversion sémantique, la séparation entre les familles de modèles (CLIP/EVA vs SigLIP) persiste.

C. Analyse de la cause (Gap CLIP vs SigLIP)

Les auteurs attribuent cette divergence à l'objectif d'entraînement :

CLIP/EVA : Utilisent une perte de contraste softmax symétrique qui impose un classement relatif au sein d'une batch (comparaison image-texte vs autres textes). Cela favorise naturellement la discrimination entre une description vraie et une fausse.
SigLIP : Utilise une perte sigmoïde par paire, évaluant les paires image-texte de manière indépendante sans contrainte de classement relatif direct. LGIP révèle que cette approche est moins efficace pour résoudre les conflits sémantiques locaux.

5. Signification et Implications

Diagnostic au-delà de la précision : LGIP démontre qu'une forte performance zero-shot ne garantit pas une compréhension sémantique fine ou une robustesse linguistique. Un modèle peut être excellent pour classer des images mais incapable de rejeter une description textuelle contradictoire.
Risques pour les applications :
- Une faible sensibilité sémantique peut entraîner des classements erronés dans les systèmes de recherche image-texte (retrouver des images non pertinentes pour une requête précise).
- Une faible ancrage visuel (object grounding) peut augmenter les hallucinations dans les modèles de VQA (Visual Question Answering).
Voies d'amélioration : L'article suggère d'enrichir l'entraînement des modèles par des légendes négatives structurées (générées par inversion sémantique) et d'optimiser conjointement la consistance aux paraphrases et la discrimination des inversions.

En conclusion, LGIP fournit un outil de diagnostic essentiel pour évaluer la véritable robustesse des VLM, révélant que les architectures basées sur le contraste (CLIP-style) surpassent actuellement les approches sigmoïdes (SigLIP) sur la capacité à ancrer le texte dans la réalité visuelle.