Revisiting Model Stitching In the Foundation Model Era

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez deux chefs cuisiniers de classe mondiale, mais qui ont suivi des formations très différentes.

Le Chef A (DINOv2) est un expert en observation pure. Il voit les textures, les ombres et les formes géométriques avec une précision chirurgicale, mais il ne parle pas très bien le langage humain.
Le Chef B (SigLIP) est un expert en contexte. Il comprend parfaitement les mots, les scènes et les relations entre les objets, mais il est parfois moins précis sur les détails fins des textures.

Jusqu'à présent, si vous vouliez un plat parfait, vous deviez engager les deux chefs pour travailler en même temps. C'était excellent pour la qualité, mais cela coûtait cher (double salaire, double espace dans la cuisine, double temps de préparation).

La question que se posent les auteurs de cette recherche est la suivante : Peut-on prendre les premières étapes de la cuisine du Chef A et les combiner avec les dernières étapes du Chef B, en ajoutant juste un petit "traducteur" au milieu, pour obtenir le meilleur des deux mondes sans payer le double ?

C'est ce qu'ils appellent le "Model Stitching" (la couture de modèles).

Le Problème : La Couture Échouait

Dans le passé, les scientifiques ont essayé de "coudre" ces modèles ensemble. Ils prenaient les couches initiales d'un modèle et les raccordaient aux couches finales d'un autre via une petite couche de connexion (le "traducteur").

Mais souvent, ça ne marchait pas bien. C'était comme si le Chef A commençait à couper les légumes, puis le traducteur essayait de les donner au Chef B, mais le Chef B ne comprenait pas la façon dont le Chef A avait coupé les légumes. Le résultat était un plat raté, pire que si l'on avait juste utilisé un seul chef.

La Découverte : La Bonne Recette

Les chercheurs ont découvert que le problème n'était pas la couture elle-même, mais comment on entraînait le traducteur.

L'ancienne méthode (Échec) : On demandait au traducteur de faire en sorte que les légumes coupés par le Chef A ressemblent exactement à ceux que le Chef B aurait coupés à ce stade précis. Problème : même si les légumes ressemblent, la façon dont le Chef B va les cuire ensuite peut être totalement différente, et le plat final est raté.
La nouvelle méthode (Succès) : Au lieu de regarder les légumes au milieu, on demande au traducteur de s'assurer que le plat final ressemble à celui que le Chef B aurait fait tout seul.
- L'analogie : On ne demande pas au traducteur de copier la technique de coupe, mais de s'assurer que le goût final du plat est celui attendu.

Grâce à cette astuce simple (qu'ils appellent "Final Feature Matching"), ils ont réussi à combiner les forces des deux chefs. Le résultat ? Le plat final est souvent meilleur que celui d'un seul chef, car il bénéficie à la fois de la précision visuelle du Chef A et de la compréhension contextuelle du Chef B.

L'Application Magique : L'Arbre de Couture (VFM Stitch Tree)

C'est là que ça devient vraiment utile pour le futur.

Imaginez que vous voulez construire une intelligence artificielle qui voit et comprend le monde (comme un robot ou un assistant virtuel). Souvent, on a besoin de plusieurs "yeux" (modèles) différents pour bien comprendre une situation. Mais faire tourner 4 modèles en même temps est très lent et coûteux en énergie.

Les auteurs proposent une solution appelée VFM Stitch Tree (L'Arbre de Couture VFM) :

L'idée : Au lieu d'avoir 4 arbres (modèles) séparés qui grandissent depuis la racine, on fait en sorte qu'ils partagent la même racine et le même tronc (les premières couches communes).
La magie : Plus haut dans l'arbre, là où les besoins divergent (un modèle a besoin de voir les détails, l'autre de comprendre le contexte), l'arbre se sépare en branches spécialisées.
Le gain : Vous n'avez plus besoin de faire tourner 4 arbres entiers. Vous faites tourner un seul tronc commun, puis seulement quelques branches à la fin.

Résultat concret :

Vous obtenez 84 % des bénéfices d'avoir tous les modèles séparés.
Mais vous ne payez que 39 % du coût supplémentaire (en temps et en énergie).
Si vous voulez aller encore plus vite, vous pouvez partager encore plus de tronc et ne garder qu'une toute petite branche spéciale, obtenant 45 % des bénéfices pour seulement 4 % de coût en plus.

En Résumé

Cette recherche nous dit deux choses importantes :

On peut fusionner des intelligences différentes : Même si deux modèles ont appris des choses différentes, on peut les combiner intelligemment pour qu'ils se complètent, à condition de bien entraîner le "pont" entre eux.
On peut être plus économe : Au lieu de dupliquer tout le travail, on peut partager les bases et ne spécialiser que le haut de l'arbre. C'est comme construire un immeuble avec un seul fondation solide et plusieurs étages spécialisés, plutôt que de construire quatre immeubles séparés côte à côte.

C'est une avancée majeure pour rendre les intelligences artificielles plus puissantes, tout en les rendant plus rapides et moins gourmandes en énergie.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

À l'ère des Modèles de Base Visuels (VFMs) (comme CLIP, DINOv2, SigLIP), les architectures sont pré-entraînées sur des données massives et hétérogènes avec des objectifs variés (auto-supervisé, vision-langage, etc.). Une question fondamentale se pose : les représentations internes de ces modèles hétérogènes sont-elles compatibles ?

Le collage de modèles (Model Stitching) consiste à connecter les premières couches d'un modèle source à ses dernières couches via une couche de collage légère (stitch layer), tout en gelant les poids originaux.

Le défi : Les travaux antérieurs ont montré que des modèles entraînés sur le même jeu de données (ex: ResNet sur CIFAR-10) étaient "collables". Cependant, il est inconnu si des VFMs massifs, entraînés sur des données et avec des objectifs différents, peuvent être fusionnés efficacement.
L'hypothèse de départ : Les stratégies de collage traditionnelles (appariement de caractéristiques intermédiaires ou optimisation directe de la tâche) échouent probablement sur les VFMs, en particulier aux points de collage peu profonds, en raison de la divergence des représentations et des difficultés d'optimisation.

2. Méthodologie

Les auteurs proposent un protocole systématique pour évaluer et améliorer le collage de VFMs hétérogènes.

A. Formulation du Problème

Soit un modèle source $f_\theta$ et un modèle cible $f_\phi$ . On coupe le modèle source à la couche $n$ et on insère une couche de collage $S$ (apprenable) avant les couches $n+1$ à $N$ du modèle cible (gelées).
L'objectif est que le modèle collé $F = T_\phi^N \circ S \circ R_\theta^n$ atteigne une précision comparable à celle du modèle cible original.

B. Analyse des Stratégies d'Entraînement Existantes

Les auteurs évaluent deux approches classiques :

Appariement de caractéristiques de couche (Layer Feature Matching - LFM) : Minimiser la distance $L_2$ $L_{2}$ entre les caractéristiques du source et du cible au point de collage.
- Résultat : Échec. Bien que la distance locale soit faible, les erreurs s'accumulent à travers les couches gelées du modèle cible, entraînant une grande divergence des caractéristiques finales.
Entraînement par perte de tâche (Task Loss Training - TLT) : Optimiser directement la perte de la tâche en aval (ex: classification).
- Résultat : Échec aux points de collage peu profonds. Le gradient doit traverser de nombreuses couches gelées pour mettre à jour uniquement la couche de collage, créant un paysage de perte mal conditionné.

C. La Solution Proposée : Final Feature Matching (FFM) + TLT

Les auteurs introduisent une approche en deux étapes :

Pré-entraînement par Final Feature Matching (FFM) : Entraîner la couche de collage $S$ $S$ pour qu'elle minimise la distance $L_2$ $L_{2}$ entre les caractéristiques finales (avant la couche de sortie/logits) du modèle collé et celles du modèle cible.
- Mécanisme : Cela aligne les représentations finales, forçant implicitement un alignement local correct au point de collage pour éviter l'accumulation d'erreurs.
Affinement par TLT : Une fois initialisée par FFM, la couche $S$ est affinée avec la perte de la tâche en aval.

D. Validation Rigoureuse : Le Baseline "Self-Stitch"

Pour prouver que les gains ne proviennent pas simplement de l'ajout de capacité paramétrique (la couche de collage), les auteurs introduisent un contrôle Self-Stitch : ils insèrent la même couche de collage dans un modèle collé à lui-même (Source $\to$ Source et Cible $\to$ Cible). Si le modèle hétérogène (Source $\to$ Cible) surpasse ces contrôles, cela prouve une fusion de connaissances complémentaire.

3. Contributions Clés

Protocole Systématique : Une analyse exhaustive couvrant différents points de collage, familles de couches de collage (MLP, Linear, LoRA), pertes d'entraînement et tâches (classification, segmentation).
Découverte de la Stratégie FFM : Démonstration que l'appariement des caractéristiques finales (et non intermédiaires) est crucial pour rendre les VFMs hétérogènes collables, en particulier aux couches peu profondes.
Preuve de Fusion Complémentaire : Prouver que les modèles collés surpassent systématiquement les contrôles "Self-Stitch", indiquant que le collage fusionne des forces complémentaires (ex: structure perceptive de DINOv2 + ancrage sémantique de SigLIP).
Architecture VFM Stitch Tree (VST) : Proposition d'une nouvelle architecture pour les LLM multimodaux qui partage les premières couches entre plusieurs VFMs tout en conservant des branches spécialisées profondes, permettant un compromis contrôlé entre précision et latence.

4. Résultats Expérimentaux

Collage Réussite : Avec la méthode FFM + TLT, des VFMs hétérogènes (ex: DINOv2 $\to$ SigLIP2) sont collables avec une perte de précision négligeable, voire une amélioration par rapport aux modèles individuels.
Performance Supérieure :
- Sur des tâches de classification fine (fMoW, iNaturalist, Aircraft) et de segmentation (ADE20K), les modèles collés surpassent les contrôles Self-Stitch de +2,3% à +5,5%.
- L'approche FFM est robuste quel que soit le type de VFM (CLIP, DINOv2, SigLIP2, DINOv3).
Architecture des Couches de Collage : Les couches MLP (perceptrons multicouches) fonctionnent mieux que les couches linéaires ou LoRA, suggérant qu'une certaine capacité de "mismatch" contrôlé est bénéfique pour fusionner des informations complémentaires.
VFM Stitch Tree (VST) :
- Dans un scénario multimodal (LLaVA avec CLIP + DINOv2), VST permet de partager les premières couches.
- Efficacité : Avec seulement 4,3% de ressources supplémentaires (une couche spécialisée), VST récupère 45% du gain de performance d'un système utilisant deux VFMs complets (qui coûterait 100% de ressources en plus).
- Avec 39% de ressources, il récupère 84% du gain.

5. Signification et Impact

De l'Analyse à la Pratique : Le collage de modèles passe d'un outil purement diagnostique (pour mesurer la similarité des représentations) à une recette pratique pour intégrer des forces complémentaires de différents modèles de base.
Optimisation des Systèmes Multimodaux : La proposition VST offre un "bouton" de contrôle pour les ingénieurs, permettant d'ajuster dynamiquement le compromis précision/coût dans les systèmes LLM multimodaux sans avoir à déployer plusieurs encodeurs complets.
Compréhension des Représentations : L'étude révèle que les couches profondes des VFMs développent des représentations transférables et compatibles, tandis que les couches peu profondes sont plus spécifiques à l'objectif d'entraînement, expliquant pourquoi le collage fonctionne mieux aux points profonds.

En résumé, ce travail démontre que l'on peut fusionner efficacement des modèles de vision pré-entraînés hétérogènes en utilisant une stratégie d'entraînement adaptée (FFM), ouvrant la voie à des architectures modulaires plus efficaces et performantes pour l'IA multimodale.