CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Mystère du "Sacs de Mots" : Pourquoi CLIP se trompe parfois

Imaginez que CLIP est un artiste très talentueux qui a appris à dessiner et à écrire en regardant des millions de photos et de légendes. Son but est de comprendre le monde : si vous lui montrez une photo d'un carré orange et d'un triangle bleu, il devrait pouvoir dire : "Ah, c'est ça !".

Mais récemment, les chercheurs ont remarqué une étrange habitude chez cet artiste. Si vous lui montrez la photo du carré orange et du triangle bleu, et que vous lui demandez de choisir entre deux légendes :

"Un carré orange et un triangle bleu" (Correct)
"Un carré bleu et un triangle orange" (Inversé)

CLIP a souvent du mal à faire la différence. Il semble confondre les deux. C'est comme s'il ne lisait pas la phrase dans l'ordre, mais qu'il jetait tous les mots dans un sac à dos (un "sac de mots" ou Bag-of-Words en anglais) et regardait juste quels mots étaient présents, sans se soucier de qui était associé à qui.

🔍 La Grande Révélation : Ce n'est pas un problème de mémoire, mais de traduction

L'équipe de chercheurs de l'Université de Tübingen s'est demandé : "Est-ce que CLIP est vraiment stupide et ne comprend pas la structure ? Ou est-ce qu'il comprend tout, mais qu'il y a un problème de communication entre ses deux cerveaux ?"

CLIP a deux parties :

Le cerveau des images (qui voit la photo).
Le cerveau du texte (qui lit la légende).

L'analogie du traducteur :
Imaginez que le "cerveau des images" et le "cerveau du texte" sont deux experts qui parlent deux langues différentes mais très proches.

Le cerveau des images sait parfaitement : "Ceci est un carré orange, et ceci est un triangle bleu". Il a la bonne information.
Le cerveau du texte sait aussi parfaitement : "Carré orange, triangle bleu". Il a aussi la bonne information.

Le problème, c'est que quand ils essaient de se parler pour vérifier si l'image correspond au texte, ils utilisent un traducteur automatique défectueux. Ce traducteur mélange les mots. Il dit au cerveau des images : "Le texte parle d'un carré bleu", alors que le texte parlait d'un carré orange.

Leur découverte majeure : CLIP n'a pas besoin d'apprendre à nouveau. Il possède déjà toute l'information nécessaire dans sa tête. Il suffit de réparer le traducteur.

🛠️ La Solution : Un simple "correcteur" de texte

Au lieu de réentraîner tout le cerveau de CLIP (ce qui serait comme réapprendre à un humain à parler depuis la naissance, une tâche énorme et coûteuse), les chercheurs ont ajouté une petite couche de correction, un peu comme un filtre magique ou un correcteur orthographique très rapide.

Ils ont entraîné ce petit filtre (une simple transformation mathématique, une "ligne droite" dans l'espace des données) pour aligner le cerveau du texte avec celui de l'image.

Résultat ?

Avant le filtre : CLIP devinait au hasard (comme un sac de mots).
Après le filtre : CLIP devient un expert. Il comprend parfaitement que le carré est orange et le triangle est bleu.

💡 Pourquoi c'est génial pour nous ?

C'est économique : On n'a pas besoin de réentraîner les énormes modèles d'IA (ce qui coûte des milliers d'euros en électricité et en temps). On ajoute juste un petit "correcteur" qui s'ajuste en quelques minutes.
C'est compatible : On peut utiliser ce correcteur sur les bases de données existantes. Imaginez que vous avez déjà une bibliothèque de millions de photos indexées par CLIP. Vous n'avez pas besoin de tout re-télécharger ou de tout re-classer. Vous installez juste le petit correcteur, et soudain, votre bibliothèque devient beaucoup plus intelligente pour trouver des détails précis.
C'est une leçon pour l'avenir : Cela nous apprend que les IA sont souvent plus intelligentes qu'on ne le pense. Parfois, elles ne manquent pas de connaissances, elles ont juste besoin qu'on les aide à mieux connecter leurs différentes parties.

En résumé

CLIP n'est pas un sac de mots confus. C'est un génie qui a deux cerveaux qui ne se comprennent pas bien. Les chercheurs ont découvert qu'il suffit d'ajouter un petit "pont" (une transformation linéaire) entre ces deux cerveaux pour que CLIP comprenne enfin la différence entre "un chien rouge" et "un rouge chien". C'est une solution simple, rapide et efficace pour rendre nos intelligences artificielles plus précises.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles vision-langage (VLM) comme CLIP (Contrastive Language-Image Pretraining) sont devenus la référence pour de nombreuses tâches en aval. Cependant, une limitation fondamentale a été identifiée : CLIP échoue souvent à gérer la compositionnalité, c'est-à-dire la capacité à lier correctement des attributs à leurs objets correspondants dans des scènes complexes.

Les études récentes suggèrent que CLIP se comporte comme un modèle Sac-de-Mots (Bag-of-Words - BoW). Par exemple, pour une image montrant "un carré orange et un triangle bleu", CLIP peut associer cette image à la légende "un carré bleu et un triangle orange", échouant ainsi à distinguer la structure et l'ordre des concepts. Ce phénomène, appelé "BoWness", limite la compréhension compositionnelle du modèle.

La question centrale de ce travail est de déterminer la source de cette défaillance :

Le manque d'information de liaison (binding) dans les encodages individuels (image ou texte) ?
Un simple défaut d'alignement entre les espaces d'embedding des deux modalités ?

2. Méthodologie

Les auteurs adoptent une approche en deux temps : d'abord, ils isolent les modalités pour vérifier la présence d'informations de liaison, puis ils proposent une méthode pour rétablir l'alignement.

A. Investigation Unimodale (Preuve de l'existence de l'information)

Pour déterminer si l'information de liaison est présente dans les embeddings bruts, les auteurs utilisent trois techniques :

Sondage Linéaire (Linear Probing) : Ils entraînent des classifieurs linéaires sur des embeddings CLIP figés (frozen) pour prédire l'attribut d'un objet spécifique (ex: la couleur du cube) dans des scènes à deux objets. Cela teste si l'information est linéairement séparable dans l'espace d'embedding.
Robustesse au nombre d'objets : Ils augmentent le nombre d'objets dans les scènes (sur le dataset CLEVR) pour voir si la capacité de liaison se dégrade.
Recherche Conjuguée (Conjunctive Search) : Inspiré de Campbell et al. (2024), ils testent la capacité du modèle à identifier un objet cible défini uniquement par une combinaison unique d'attributs (ex: une sphère rouge parmi des cubes rouges et des sphères vertes), ce qui nécessite une liaison précise des caractéristiques.

B. Amélioration de l'Alignement Cross-Modal (LABCLIP)

Hypothèse : Si l'information est présente unimodalement mais mal alignée, une transformation simple devrait suffire à rétablir la liaison.

LABCLIP (Linear Attribute Binding CLIP) : Les auteurs proposent d'appliquer une transformation linéaire $A$ $A$ aux embeddings textuels avant le calcul de similarité avec les embeddings d'images.
- Formule : $\langle f_{image}(x_{img}), A \cdot f_{text}(x_{txt}) \rangle$ .
Entraînement : La matrice $A$ est entraînée de manière contrastive en utilisant des échantillons négatifs générés par permutation des paires attribut-objet dans les légendes (ex: transformer "cube rouge et sphère bleue" en "cube bleu et sphère rouge"). Les encodeurs CLIP originaux restent figés.

3. Contributions Clés

Démontration que CLIP n'est pas un modèle BoW unimodalement :
- Les sondages linéaires montrent que les embeddings d'images et de textes contiennent une information de liaison attribut-objet fortement séparable (précision > 95% sur CLEVR et PUG:SPARE).
- Cette information reste robuste même avec un grand nombre d'objets (surtout pour le texte) et permet de réussir des tâches de recherche conjuguée complexes.
- Cela réfute l'idée que les encodeurs manquent de connaissances structurelles.
Identification de la cause racine : Le désalignement cross-modal.
- La défaillance de CLIP ne vient pas de l'absence d'information, mais de l'incapacité du mécanisme d'alignement contrastif standard à exploiter cette information de liaison lors de la mise en correspondance image-texte.
Proposition de LABCLIP :
- Une méthode légère (uniquement une couche linéaire) qui récupère les signaux de liaison existants.
- Elle permet d'améliorer la performance sans réentraîner les encodeurs massifs ni extraire à nouveau les caractéristiques, rendant la méthode compatible avec les bases de données vectorielles existantes.

4. Résultats

Performance Unimodale :
- Sur les datasets synthétiques (CLEVR, PUG:SPAR, PUG:SPARE), les sondages linéaires sur les embeddings CLIP originaux atteignent des précisions proches de 1.0 (ex: 0.96 sur CLEVR image, 1.0 sur CLEVR texte), prouvant que l'information de liaison est bien codée.
- En comparaison, un modèle entraîné comme un vrai BoW (sans liaison) obtient des scores bien inférieurs (0.66 pour l'image), confirmant que la structure de liaison est unique à CLIP.
Performance Cross-Modale (Recherche d'images/textes) :
- CLIP de base : Performe au niveau du hasard (ex: ~0.50-0.58 de précision) sur les tâches de liaison attribut-objet, confirmant le comportement BoW.
- LABCLIP : Après application de la transformation linéaire, la précision explose (ex: 0.95 sur CLEVR, 0.97 sur PUG:SPAR), se rapprochant des performances d'un CLIP entièrement réentraîné (Fine-tuned) qui nécessite des centaines de millions de paramètres.
- Sur des benchmarks réels (ARO, SugarCrepe), LABCLIP améliore significativement la compréhension compositionnelle par rapport au CLIP de base, rivalisant avec des méthodes de fine-tuning lourdes.
Analyse de l'alignement :
- L'analyse des coefficients des sondages linéaires montre que la similarité cosinus entre les sondages image et texte passe de ~0.20 (avant alignement) à ~0.75 (après LABCLIP), confirmant que la transformation aligne effectivement les signaux de liaison.

5. Signification et Impact

Efficacité et Économie de Ressources : Cette découverte change la perspective sur l'amélioration des VLM. Au lieu de réentraîner coûteusement des encodeurs massifs pour améliorer la compositionnalité, il suffit d'ajouter une couche linéaire légère sur les embeddings existants.
Compatibilité Rétroactive : LABCLIP peut être déployé sur des systèmes existants utilisant des bases de données vectorielles CLIP sans avoir à recalculer les embeddings d'images, ce qui est un avantage majeur pour l'industrie.
Compréhension Théorique : Le travail clarifie la nature des représentations de CLIP : elles sont riches en information structurelle, mais l'entraînement contrastif standard favorise un alignement global au détriment des liaisons fines attribut-objet. Cela ouvre la voie à de nouvelles stratégies d'alignement pour les futurs modèles vision-langage.

En résumé, le papier démontre que CLIP "sait" déjà faire la liaison attribut-objet, mais qu'il échoue à utiliser cette connaissance lors de la mise en correspondance image-texte. Une simple correction linéaire suffit à débloquer ce potentiel.

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

🎨 Le Mystère du "Sacs de Mots" : Pourquoi CLIP se trompe parfois

🔍 La Grande Révélation : Ce n'est pas un problème de mémoire, mais de traduction

🛠️ La Solution : Un simple "correcteur" de texte

💡 Pourquoi c'est génial pour nous ?

En résumé

1. Problématique

2. Méthodologie

A. Investigation Unimodale (Preuve de l'existence de l'information)

B. Amélioration de l'Alignement Cross-Modal (LABCLIP)

3. Contributions Clés

4. Résultats

5. Signification et Impact

Articles similaires

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions