MMLoP: Multi-Modal Low-Rank Prompting for Efficient Vision-Language Adaptation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un génie de la lampe (le modèle CLIP) qui a lu des milliards de livres et vu des milliards d'images. Il connaît tout le monde, mais il est un peu "rigide". Si vous lui demandez de reconnaître un nouveau type de chat très spécifique, il peut hésiter car il n'a jamais vu exactement ce chat dans ses livres.

Pour l'aider, on pourrait lui faire réapprendre tout ce qu'il sait (ce qui est long et coûteux), ou on pourrait lui donner un petit post-it (un "prompt") avec une instruction spéciale.

C'est là que les chercheurs ont eu une idée : au lieu de juste coller un post-it sur le texte, pourquoi ne pas en coller aussi sur les images ? C'est ce qu'on appelle le "prompting multi-modal". Mais attention, si on met trop de post-it, le génie devient confus et on a besoin d'une équipe entière de secrétaires pour gérer tous ces petits mots (des millions de paramètres).

Voici l'histoire de MMLoP, la nouvelle méthode proposée dans ce papier, racontée simplement :

1. Le Problème : Trop de post-it, trop de tracas

Les méthodes précédentes pour améliorer le génie étaient comme des tours de Lego géantes. Elles ajoutaient des milliers de pièces (paramètres) pour chaque couche de l'intelligence du modèle.

Avantage : Le génie devient très fort.
Inconvénient : C'est lourd, cher à construire, et ça risque de le faire oublier ses connaissances de base (il "surapprend" les exemples qu'on lui donne et oublie le reste).

2. La Solution MMLoP : Le "Squelette" intelligent

Les auteurs de MMLoP disent : "Et si on construisait la même tour de Lego, mais avec un squelette en fil de fer ?"

Au lieu de créer des post-it complets et individuels pour chaque couche, ils utilisent une technique appelée décomposition de rang faible (Low-Rank).

L'analogie : Imaginez que vous devez peindre un tableau. Au lieu d'acheter 1000 tubes de peinture différents (les anciennes méthodes), vous achetez 3 tubes de couleurs de base (le rang faible) et vous apprenez à les mélanger pour créer toutes les nuances nécessaires.
Le résultat : Vous avez presque la même capacité de création, mais avec 99% moins de peinture. MMLoP n'utilise que 11 500 paramètres (comme les méthodes simples), alors que les concurrents en utilisent des millions.

3. Les Trois Super-Pouvoirs (Les ingrédients secrets)

Comme le "squelette" est plus simple, il y a un risque que le génie perde un peu de sa finesse. Pour compenser, MMLoP ajoute trois astuces magiques :

A. L'Ancre de Sécurité (Self-Regulating Consistency Loss)

Le problème : Quand on apprend au génie une nouvelle tâche, il a tendance à oublier qui il est et à s'éloigner de ses connaissances initiales.
La solution : C'est comme mettre une ancre au fond de l'eau. À chaque fois que le génie apprend quelque chose de nouveau, on vérifie qu'il reste proche de sa "mémoire originale" (les images et textes qu'il connaissait déjà). Cela l'empêche de devenir fou et de tout oublier.

B. Le Correcteur de Dérive (Uniform Drift Correction)

Le problème : Parfois, l'apprentissage pousse tout le monde dans la même direction, comme si tout le monde marchait un peu vers la gauche. Ce n'est pas utile pour distinguer les choses entre elles.
La solution : C'est comme un niveau à bulle. On repère ce mouvement global inutle et on le retire. On garde seulement les différences qui aident vraiment à distinguer un "chat" d'un "chien".

C. Le Lien Invisible (Shared Up-Projection)

Le problème : Habituellement, le génie apprend les images et les textes séparément, comme deux personnes qui parlent dans des pièces différentes.
La solution : MMLoP leur donne un téléphone sans fil commun. Il force le "cerveau image" et le "cerveau texte" à utiliser la même structure de base pour communiquer. Ils apprennent ensemble, ce qui rend leur compréhension beaucoup plus cohérente, sans avoir besoin de construire un nouveau téléphone pour chacun.

4. Le Résultat : La course des paramètres

Si l'on regarde le graphique du papier (Fig. 1), c'est comme une course de voitures :

Les anciennes méthodes sont des camions de déménagement : ils sont lourds, consomment beaucoup de carburant (paramètres), et vont vite, mais c'est inefficace.
MMLoP est une voiture de sport légère : elle est très rapide, consomme très peu, et arrive à peu près au même endroit (voire mieux) que les camions.

En résumé :
MMLoP prouve qu'on n'a pas besoin de construire un monstre de paramètres pour avoir un modèle intelligent. En utilisant des "squelettes" intelligents, en gardant une ancre de sécurité, en corrigeant les déviations et en reliant les yeux et les oreilles du modèle, on obtient un système ultra-efficace qui apprend vite, oublie peu, et fonctionne sur plein de tâches différentes (de la reconnaissance de chats aux images satellites) avec très peu de ressources.

C'est comme dire : "Pour devenir un expert, il ne faut pas tout mémoriser par cœur, il faut juste savoir comment organiser ce qu'on sait déjà."

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'adaptation des modèles vision-langage (VLM) pré-entraînés, tels que CLIP, vers des tâches en aval (comme la classification d'images) pose un dilemme fondamental entre précision et efficacité paramétrique.

Le compromis actuel : Les méthodes d'apprentissage par "prompting" (comme CoOp) qui n'optimisent que les vecteurs de contexte textuel sont très efficaces en termes de paramètres (quelques milliers), mais leurs performances plafonnent. À l'inverse, les méthodes de "deep prompting" multi-modales (comme MaPLe ou CoPrompt) qui apprennent des prompts à la fois pour les encodeurs d'images et de texte à chaque couche du transformateur obtiennent de meilleures performances, mais au prix d'un nombre de paramètres entraînables explosif (plusieurs millions).
Le défi : Il existe une tension forte : les méthodes les plus précises abandonnent l'efficacité paramétrique (un avantage clé du prompting), tandis que les méthodes légères souffrent d'un manque de précision, en particulier dans la généralisation aux classes non vues (novel classes) et dans les scénarios "few-shot".
Question de recherche : Est-il possible de conserver les bénéfices du prompting profond multi-modal tout en ramenant le nombre de paramètres au niveau des méthodes textuelles précoces (comme CoOp) ?

2. Méthodologie : MMLoP

Les auteurs proposent MMLoP (Multi-Modal Low-Rank Prompting), un cadre qui permet un prompting profond multi-modal avec seulement 11 500 paramètres entraînables (comparable à CoOp), grâce à trois composantes principales :

A. Paramétrisation par Factorisation de Rang Faible (Low-Rank Factorization)

Au lieu d'apprendre des matrices de prompts complètes et indépendantes pour chaque couche $l$ de l'encodeur d'image ( $P_v^{(l)}$ ) et de texte ( $P_t^{(l)}$ ), MMLoP les décompose en produits de matrices de faible rang :
$P_v^{(l)} = U_v^{(l)} V_v^{(l)} \quad \text{et} \quad P_t^{(l)} = U_t^{(l)} V_t^{(l)}$
où $r \ll \min(d_v, d_t)$ est le rang (souvent $r=1$ ). Cela réduit drastiquement le nombre de paramètres et agit comme un régularisateur implicite contre le surapprentissage sur les données few-shot.

B. Couplage Inter-Modale via une Projection Montante Partagée (Shared Up-Projection)

Pour combler l'écart de performance dû à la réduction de capacité expressive, les auteurs introduisent un couplage structurel. Au lieu d'avoir des matrices $U$ indépendantes, ils imposent que les prompts visuels et textuels partagent la même matrice de projection montante $U^{(l)}$ à chaque couche :
$P_v^{(l)} = U^{(l)} V_v^{(l)} \quad \text{et} \quad P_t^{(l)} = U^{(l)} V_t^{(l)}$
Cette contrainte force les deux modalités à partager le même espace de sous-rang, favorisant l'alignement inter-modal et agissant comme un régularisateur supplémentaire sans coût paramétrique supplémentaire significatif.

C. Composants de Régularisation pour la Généralisation

Pour compenser la réduction de capacité du sous-espace de faible rang et améliorer la généralisation, trois mécanismes sont ajoutés :

Perte de Cohérence Auto-Régulée (Self-Regulating Consistency Loss - $L_{SCL}$ ) :
- Elle ancre les représentations apprises par le modèle prompting aux caractéristiques "zero-shot" figées de CLIP.
- Elle pénalise la déviation au niveau des features (norme L1) et au niveau des logits (divergence KL symétrique) entre le modèle prompting et le modèle CLIP original. Cela empêche le modèle de s'éloigner trop des représentations pré-entraînées.
Correction de Dérive Uniforme (Uniform Drift Correction - UDC) :
- Le tuning de prompts induit souvent un décalage global (bias) dans l'espace d'embedding qui affecte toutes les classes de manière uniforme, nuisant à la discrimination.
- La méthode calcule la moyenne des résidus entre les features prompting et les features zero-shot, puis soustrait ce décalage global. Cela préserve la structure discriminative spécifique aux classes tout en éliminant le biais de base.
Projection Montante Partagée (déjà mentionnée) :
- Elle assure l'alignement structurel entre les modalités.

3. Contributions Clés

Efficacité Paramétrique Extrême : MMLoP réalise un prompting profond multi-modal avec seulement 11,5K paramètres, soit environ 300 fois moins que MaPLe (3,5M de paramètres) et comparable à CoOp, tout en utilisant les deux encodeurs.
Nouvelles Techniques de Régularisation : Introduction d'une perte de cohérence symétrique (features + logits), d'une correction de dérive uniforme pour préserver la structure des classes, et d'un couplage inter-modal via une projection partagée.
Performance Supérieure : Le cadre surpasse la majorité des méthodes existantes, y compris celles avec des budgets paramétriques bien supérieurs, tout en maintenant une excellente généralisation aux classes non vues.

4. Résultats Expérimentaux

Les expériences ont été menées sur 11 jeux de données diversifiés (ImageNet, OxfordPets, Flowers101, EuroSAT, etc.) et trois protocoles d'évaluation :

Généralisation Base-to-Novel :
- MMLoP atteint une moyenne harmonique (HM) de 79,70 %, surpassant des méthodes lourdes comme CoPrompt (80,48 % avec 4,74M de paramètres) et MaPLe (78,55 % avec 3,5M de paramètres).
- Il obtient une précision sur les classes "novel" de 75,98 %, soit un gain de +4,19 % par rapport à la baseline IVLP, démontrant une forte capacité à éviter le surapprentissage aux classes de base.
Généralisation de Domaine (Domain Generalization) :
- Entraîné sur ImageNet, MMLoP obtient la meilleure précision sur ImageNet-R (77,63 %) parmi toutes les méthodes comparées, prouvant sa robustesse aux changements de distribution.
- Il atteint une précision moyenne cible de 60,46 %, surpassant MaPLe et CoPrompt avec une fraction des paramètres.
Classification Few-Shot (All-to-All) :
- Avec seulement 4 shots, MMLoP obtient la meilleure précision moyenne (77,5 %) parmi toutes les méthodes comparées, surpassant même CLIP-LoRA qui utilise des adaptateurs sur tout le backbone.

5. Signification et Impact

Ce travail remet en question la course aux paramètres dans l'adaptation des VLM. Il démontre que :

La complexité paramétrique n'est pas synonyme de performance.
Une conception intelligente de l'architecture (factorisation de rang faible) combinée à une régularisation rigoureuse (ancrage aux features zero-shot, correction de biais) permet d'atteindre l'état de l'art avec une efficacité extrême.
MMLoP rétablit l'efficacité paramétrique comme un objectif de premier plan, offrant une solution pratique pour le déploiement de modèles vision-langage sur des ressources limitées sans sacrifier la capacité de généralisation.

En résumé, MMLoP prouve qu'il est possible de concilier la puissance du prompting profond multi-modal avec la légèreté des méthodes textuelles précoces, en utilisant des principes mathématiques de faible rang et une régularisation basée sur la cohérence des représentations pré-entraînées.