Bridging Domains through Subspace-Aware Model Merging

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un chef cuisinier très talentueux, mais qui a un problème : vous avez appris à cuisiner dans trois restaurants très différents.

Dans le premier, vous avez appris à cuisiner des plats piquants (comme au Mexique).
Dans le deuxième, vous avez appris à cuisiner des plats très gras (comme dans un steakhouse américain).
Dans le troisième, vous avez appris à cuisiner des plats très légers et sains (comme dans un restaurant végétarien).

Chacun de ces "modèles" (vous-même dans chaque contexte) est excellent dans son domaine spécifique. Mais que se passe-t-il si vous essayez de fusionner ces trois versions de vous-même en une seule personne capable de cuisiner n'importe quel plat, même ceux que vous n'avez jamais vus (par exemple, un plat mexicain très sain) ?

Le Problème : Le Chaos dans la Cuisine

Si vous prenez simplement la moyenne de vos trois recettes (ce qu'on appelle le "mélange naïf"), le résultat est souvent un désastre.

Le goût piquant annule le goût sain.
La graisse annule la légèreté.
Vos muscles (les paramètres du modèle) se battent pour savoir quelle direction prendre. C'est comme si trois chefs essayaient de conduire la même voiture en même temps : l'un tourne à gauche, l'autre à droite, et la voiture ne bouge pas ou se brise.

Les chercheurs ont découvert que ce problème est encore pire quand on essaie de fusionner des modèles qui ont appris sur des différents types de données (par exemple, des photos de chats sous la neige vs des photos de chats dans le désert) que quand on fusionne des modèles pour des tâches totalement différentes (comme compter des chiffres vs reconnaître des paysages). Dans le cas des "domaines", les modèles veulent presque la même chose, mais avec des nuances contradictoires qui créent un conflit violent.

La Solution : SCORE (Le Chef Arbitre)

Pour résoudre ce chaos, les auteurs proposent une nouvelle méthode appelée SCORE. Voici comment cela fonctionne, avec une analogie simple :

Imaginez que chaque modèle (chaque version de vous) a une "boussole" interne qui pointe vers la direction qu'il pense être la meilleure.

Le modèle "neige" pointe vers le Nord.
Le modèle "désert" pointe aussi vers le Nord, mais un tout petit peu décalé vers l'Est.

Si vous essayez de les fusionner directement, les aiguilles des boussoles s'entrechoquent.

SCORE agit comme un architecte génie qui fait ceci :

Il crée une "Grille de Référence" commune : Au lieu de regarder les boussoles individuellement, il prend toutes les pointes des boussoles, les met ensemble et dessine une nouvelle grille de coordonnées parfaite et neutre. C'est comme tracer une carte géographique universelle qui convient à tout le monde.
Il traduit tout sur cette grille : Il prend la recette du modèle "neige" et la traduit dans cette nouvelle langue. Il fait de même pour le modèle "désert".
Il nettoie le bruit (L'étape "Trimming") : C'est le secret de SCORE. En regardant les recettes traduites, il remarque que certaines instructions sont contradictoires (par exemple, "ajoutez du sel" vs "n'ajoutez pas de sel").
- Il garde les instructions claires et importantes (la diagonale de la matrice).
- Il jette les instructions confuses et bruyantes qui ne font que créer des conflits (les "outliers" ou valeurs aberrantes hors de la diagonale).
Il recrée le modèle final : Il assemble les instructions nettoyées pour créer un nouveau chef, unique, qui sait naviguer aussi bien dans la neige que dans le désert, sans être confus.

Pourquoi c'est génial ?

Jusqu'à présent, pour avoir un modèle qui fonctionne bien partout, il fallait soit :

Entraîner un nouveau modèle de zéro (très long et coûteux en énergie).
Utiliser un "comité" de plusieurs modèles (comme avoir 3 chefs qui cuisinent en même temps et voter pour le plat final). C'est lent et ça prend beaucoup de place sur l'ordinateur.

SCORE permet de :

Prendre des modèles déjà existants (comme des chefs déjà formés).
Les fusionner en un seul modèle (un seul chef).
Obtenir un résultat meilleur que n'importe lequel des chefs individuels, capable de gérer des situations qu'il n'a jamais vues (comme un chat dans une forêt tropicale).

En résumé

Ce papier nous dit : "Ne mélangez pas simplement les ingrédients au hasard !"

Au lieu de faire une salade de paramètres qui s'annulent mutuellement, SCORE utilise une méthode mathématique intelligente (l'analyse des vecteurs singuliers) pour trouver le terrain d'entente entre les modèles. Il élimine les conflits et garde l'essentiel. Le résultat ? Un modèle unique, plus robuste, plus intelligent et capable de s'adapter à de nouveaux mondes sans avoir besoin de réapprendre tout depuis le début.

C'est comme transformer trois experts partisans en un seul sage capable de comprendre tout le monde.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'article aborde le défi de la généralisation de domaine (Domain Generalization - DG) dans le contexte de la fusion de modèles (Model Merging).

Contexte : La fusion de modèles permet de combiner plusieurs modèles finement ajustés (fine-tuned) en un seul modèle unique sans accès aux données d'entraînement ni réentraînement. Cela réduit la latence et le stockage.
Le problème : Les méthodes existantes de fusion (comme l'arithmétique des tâches, TIES, ou la fusion basée sur la décomposition en valeurs singulières - SVD) sont souvent évaluées dans des scénarios "in-distribution" ou multi-tâches. Cependant, leur performance en généralisation de domaine (c'est-à-dire sur un domaine cible jamais vu lors de la fusion) reste sous-exploitée.
Observation clé : Les auteurs constatent que lorsque l'on fusionne des modèles entraînés sur différents décalages de distribution (domaines), les conflits entre leurs sous-espaces de paramètres sont beaucoup plus intenses que dans les scénarios multi-tâches classiques. Les modèles partagent le même espace de labels mais apprennent des représentations spécifiques au domaine qui entrent en conflit lors de la fusion, dégradant les performances sur les données hors distribution (OOD).

2. Méthodologie : SCORE

Pour résoudre ce problème, les auteurs proposent SCORE (Subspace COnflict-Resolving mERging). Cette méthode vise à atténuer les conflits entre les directions singulières dominantes des différents modèles.

Le processus se déroule en plusieurs étapes pour chaque couche du réseau :

Décomposition SVD et Concaténation :
- Pour chaque modèle source $d$ , on calcule la différence par rapport au modèle pré-entraîné ( $\Delta_d = \theta_d - \theta_{pre}$ ).
- On effectue une SVD sur chaque matrice $\Delta_d$ pour extraire les vecteurs singuliers gauches ( $U_d$ ) et droits ( $V_d$ ) dominants.
- On concatène ces vecteurs pour former des matrices globales $U_*$ et $V_*$ .
Orthogonalisation (Création d'une base partagée) :
- Les vecteurs concaténés ne sont pas nécessairement orthogonaux. Pour créer une base commune robuste, on applique une SVD sur $U_*$ et $V_*$ eux-mêmes.
- Cela produit des bases orthogonales partagées $U_\perp$ et $V_\perp$ qui représentent le sous-espace commun le plus proche de tous les domaines.
Projection et Isolation des Conflits :
- Chaque matrice de tâche $\Delta_d$ est projetée dans cette nouvelle base partagée : $\Delta'_d = U_\perp^\top \Delta_d V_\perp$ .
- Dans cette nouvelle représentation :
  - Les éléments diagonaux représentent l'accord entre le domaine et la base partagée (information utile).
  - Les éléments hors-diagonaux capturent les conflits et les couplages entre les directions partagées (interférences).
Élagage (Trimming) :
- Au lieu de supprimer purement et simplement les éléments hors-diagonaux (ce qui perdrait de l'information) ou de les garder tous (ce qui introduit du bruit), SCORE applique une fonction d'élagage (trim).
- On conserve la diagonale et les éléments hors-diagonaux dont la magnitude est statistiquement significative (basée sur l'écart-type des éléments hors-diagonaux), tout en éliminant les valeurs aberrantes (outliers) qui représentent du bruit ou des conflits destructeurs.
Reconstruction :
- Les matrices élaguées sont sommées pour former la matrice fusionnée finale $\Sigma_{score}$ , qui est ensuite reconstruite dans l'espace d'origine : $\hat{M} = U_\perp \Sigma_{score} V_\perp^\top$ .

3. Contributions Clés

Analyse du chevauchement des sous-espaces : Les auteurs démontrent, via la métrique Subspace Alignment Ratio (SAR), que le chevauchement entre les sous-espaces des matrices de tâches est significativement plus élevé en généralisation de domaine qu'en apprentissage multi-tâches, expliquant pourquoi les méthodes de fusion classiques échouent souvent ici.
Proposition de SCORE : Une nouvelle méthode de fusion qui résout explicitement les conflits de sous-espaces singuliers en construisant une base orthogonale partagée et en élaguant sélectivement les interférences.
Évaluation rigoureuse : Mise en place d'un protocole d'évaluation "leave-one-domain-out" sur 8 benchmarks de généralisation de domaine (incluant des données naturelles et médicales) et 3 échelles de modèles (ViT-B/32, ViT-B/16, ViT-L/14).
Preuve de supériorité : Démonstration que SCORE surpasse systématiquement les méthodes existantes (Task Arithmetic, TIES, TSV, ISO-C, etc.) et même les ensembles de modèles (model ensembles) tout en conservant le coût d'inférence d'un seul modèle.

4. Résultats Expérimentaux

Les expériences ont été menées sur des modèles CLIP (Vision Transformer) et couvrent des datasets variés (PACS, DomainNet, ImageNet-R, NICO++, OfficeHome, TerraIncognita, FedISIC, RetinaDomains).

Performance globale : SCORE obtient la meilleure précision moyenne sur tous les benchmarks. Par exemple, sur ViT-B-32, il dépasse le deuxième meilleur concurrent de 0,74 points de pourcentage en moyenne.
Performance par dataset :
- Sur DomainNet, SCORE améliore la précision de 0,15 p.p. par rapport au meilleur concurrent.
- Sur NICO++ et OfficeHome, les gains sont respectivement de 0,40 p.p. et 0,49 p.p.
- Sur les datasets médicaux (FedISIC, RetinaDomains), SCORE montre une forte adaptabilité, obtenant les meilleurs résultats sur RetinaDomains avec ViT-L-14.
Comparaison avec les Ensembles (Ensembles) : SCORE surpasse les ensembles de modèles (logit ensemble) de 1,12 à 1,90 points de pourcentage, tout en évitant le surcoût computationnel et mémoire inhérent aux ensembles.
Ablation : L'étude montre que garder uniquement la diagonale est insuffisant, et garder toute la matrice sans élagage dégrade fortement les performances. La stratégie d'élagage (trim) de SCORE est cruciale pour équilibrer l'information partagée et supprimer le bruit.

5. Signification et Impact

Cet article est significatif car il comble un vide important dans la littérature sur la fusion de modèles : la généralisation de domaine.

Efficacité : Il offre une méthode "sans données" (data-free) et "sans optimisation" (optimization-free) pour créer des modèles robustes capables de généraliser à des distributions non vues, ce qui est crucial pour les déploiements réels où les données de test sont inaccessibles ou coûteuses.
Théorie : Il apporte une compréhension théorique sur la nature des conflits de paramètres lors de la fusion de modèles entraînés sur des décalages de distribution, reliant ces conflits à la géométrie des sous-espaces singuliers.
Applications : La méthode est particulièrement pertinente pour les domaines où la diversité des données est élevée (comme l'imagerie médicale ou la vision par ordinateur en conditions réelles) et où l'on dispose de plusieurs experts de domaine mais pas de données brutes pour un réentraînement massif.

En résumé, SCORE propose une approche élégante et efficace pour transformer une collection de modèles spécialisés en un modèle unique, généraliste et robuste, en résolvant mathématiquement les conflits géométriques entre leurs représentations internes.

Bridging Domains through Subspace-Aware Model Merging

Le Problème : Le Chaos dans la Cuisine

La Solution : SCORE (Le Chef Arbitre)

Pourquoi c'est génial ?

En résumé

1. Problématique

2. Méthodologie : SCORE

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

When both Grounding and not Grounding are Bad -- A Partially Grounded Encoding of Planning into SAT (Extended Version)

Teaching an Agent to Sketch One Part at a Time

Learning to Disprove: Formal Counterexample Generation with Large Language Models

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning