OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging

Each language version is independently generated for its own context, not a direct translation.

Imaginez que le monde de l'intelligence artificielle est comme un grand village de super-héros.

1. Le Problème : Trop de héros, pas assez de temps

Dans ce village, des développeurs créent des modèles d'IA (nos "héros") spécialisés dans des tâches très précises :

L'un est un expert pour lire des documents (OCR).
L'autre est un génie en géométrie.
Un troisième adore analyser des graphiques.
Un autre comprend parfaitement les vidéos ou les sons.

Le problème ? Chaque héros est très fort dans son domaine, mais nul dans les autres. De plus, créer un nouveau héros qui sait tout faire (un "Omni-héros") demande des années de travail et une énergie colossale (comme entraîner un cheval de course avec des milliers de litres de carburant).

Par ailleurs, les "héros" de base (les grands modèles comme Qwen ou LLaVA) évoluent lentement, tandis que les versions spécialisées changent très vite. Il est difficile de les garder tous à jour.

2. La Solution : Le "Fusion-Club" (Model Merging)

Au lieu de réentraîner un nouveau héros de zéro, les chercheurs proposent une idée géniale : fusionner les héros existants. C'est comme si vous preniez la force de Superman, la vitesse de Flash et l'intelligence de Batman pour en faire un seul être surpuissant, sans avoir besoin de les entraîner de nouveau.

C'est ce qu'on appelle le Model Merging (fusion de modèles). C'est gratuit, rapide, et ça ne nécessite pas de nouvelles données (pas besoin de réapprendre à lire ou à voir).

3. Le Défi : Mélanger sans casser

Jusqu'à présent, essayer de fusionner ces modèles était comme essayer de mélanger de la peinture de couleurs différentes : souvent, le résultat devient une boue grise et inutilisable. Les "mémoires" des différents héros se heurtaient et s'annulaient mutuellement.

De plus, il n'existait pas de "terrain d'entraînement" officiel pour tester si cette fusion fonctionnait vraiment pour les modèles multimodaux (ceux qui voient, entendent et parlent).

4. La Révolution : OptMerge (Le Chef d'Orchestre)

C'est là que l'équipe de l'article OptMerge intervient. Ils ont fait deux choses majeures :

A. Ils ont créé le "Grand Tournoi" (Le Benchmark)

Ils ont construit un terrain de jeu officiel avec des épreuves précises (comprendre des graphiques, lire du texte dans une image, résoudre des problèmes de géométrie, etc.) pour tester si les modèles fusionnés réussissent vraiment. Ils ont entraîné des experts pour chaque épreuve et ont rendu tout cela public.

B. Ils ont inventé la "Recette Magique" (L'algorithme OptMerge)

Pour fusionner les modèles sans créer de "boue", ils ont développé une méthode intelligente. Voici l'analogie :

Le bruit et les parasites : Quand on prend les connaissances d'un expert, il y a beaucoup de détails inutiles (du "bruit") qui polluent la fusion.
L'opération chirurgicale : OptMerge agit comme un chirurgien très précis. Il regarde les "vecteurs de tâche" (les changements de cerveau apportés par l'entraînement) et enlève le bruit.
L'optimisation : Au lieu de simplement additionner les cerveaux (ce qui crée des conflits), il ajuste finement la fusion pour que les connaissances s'harmonisent parfaitement, comme un chef d'orchestre qui s'assure que les violons et les cuivres jouent la même mélodie sans se marcher dessus.

5. Les Résultats : Mieux que la somme des parties ?

Les résultats sont bluffants :

La fusion bat l'entraînement classique : Le modèle fusionné (OptMerge) est souvent plus intelligent que s'il avait été entraîné sur toutes les données mélangées d'un coup, et ce, en utilisant beaucoup moins d'énergie et de temps.
L'effet "Omni" : En fusionnant un modèle qui voit, un qui entend et un qui voit des vidéos, ils ont créé un modèle "Omni" capable de comprendre le monde entier (images, sons, vidéos) sans avoir besoin de réapprendre à voir ou à entendre. C'est comme donner des oreilles à un aveugle et des yeux à un sourd instantanément.
Économie d'énergie : Alors qu'entraîner un tel modèle prendrait des semaines et des millions de dollars, cette méthode de fusion prend quelques heures et coûte presque rien.

En résumé

Imaginez que vous avez 5 amis : un cuisinier, un mécanicien, un médecin, un avocat et un artiste.

L'ancienne méthode : Vous essayez d'enseigner à chacun tout ce que font les autres. Ça prend des années et ils deviennent moyens partout.
La méthode OptMerge : Vous prenez les cerveaux de chacun, vous nettoyez les idées inutiles, et vous les combinez intelligemment pour créer un Super-Consultant qui est excellent en cuisine, mécanique, médecine, droit et art, le tout en une après-midi, sans avoir besoin de nouvelles recettes ou de nouveaux livres.

C'est cela, OptMerge : la clé pour créer des intelligences artificielles universelles, rapides, économiques et accessibles à tous, en assemblant les pièces détachées du monde open-source.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles de fondation (Foundation Models) évoluent lentement en raison de leurs coûts de calcul et de données prohibitifs, tandis que les modèles spécifiques à un domaine (fine-tunés) évoluent rapidement au sein des communautés open-source (ex: Hugging Face). Le fusionnement de modèles (Model Merging) vise à combiner plusieurs modèles experts en un seul modèle capable, réduisant ainsi les coûts de stockage et de service sans nécessiter de nouvelles données d'entraînement.

Cependant, plusieurs lacunes existent dans le domaine actuel :

La plupart des recherches se concentrent sur les modèles de classification visuelle ou les LLMs pour le code et les mathématiques.
Il n'existe pas de benchmark dédié pour les Modèles de Langage Multimodaux (MLLMs) qui distingue clairement les tâches d'entraînement et d'évaluation.
Les méthodes existantes peinent à fusionner efficacement des modèles avec des modalités différentes (vision, audio, vidéo) pour créer un modèle "Omni" (tout modalité) sans réentraînement coûteux.
Les méthodes de fusion actuelles souffrent souvent d'interférences entre les tâches et de bruit dans les vecteurs de tâche.

2. Méthodologie : OptMerge

Les auteurs proposent OptMerge, une méthode novatrice de fusion de modèles qui optimise les vecteurs de tâche (la différence de paramètres entre le modèle fine-tuné et le modèle de base) pour éliminer le bruit et améliorer la robustesse.

A. Le Benchmark MLLM

Avant de proposer une méthode, les auteurs ont construit le premier benchmark complet pour la fusion de MLLMs :

Tâches couvertes : VQA (Visual Question Answering), Géométrie, Analyse de graphiques (Chart), OCR, et Ancrage (Grounding).
Données : Collecte de plus de 100k échantillons par tâche pour un fine-tuning supervisé efficace.
Modèles de base : Utilisation de deux architectures distinctes pour tester la généralisation :
- InternVL2.5 (Fine-tuning complet / Full Fine-Tuning).
- Qwen2-VL (Fine-tuning LoRA / Low-Rank Adaptation).
Fusion de modalités : Création de modèles combinant vision-langage, audio-langage et vidéo-langage vers un modèle Omni.

B. L'Algorithme OptMerge

La méthode repose sur une optimisation des vecteurs de tâche ( $\tau$ ) basée sur une perte définie par les interactions entre les vecteurs de tâche. Elle traite différemment les cas de fine-tuning complet et LoRA :

Pour le Fine-Tuning Complet (Full Fine-Tuning) :
- Les vecteurs de tâche contiennent beaucoup de redondance et de bruit.
- Approche : Utilisation d'une approximation de rang faible (Low-Rank Approximation) via SVD (Décomposition en Valeurs Singulières).
- Le vecteur de tâche est centré, puis une SVD est appliquée pour isoler les composantes singulières principales ( $U_{1:k}, \Sigma_{1:k}, V_{1:k}^T$ ).
- Cela permet de supprimer le bruit (les valeurs singulières faibles) tout en préservant les connaissances essentielles, agissant comme une sélection de composantes principales (PCA) pour les vecteurs de tâche.
Pour le Fine-Tuning LoRA :
- La nature de rang faible de LoRA crée des défis d'optimisation (gradients nuls dans certaines directions).
- Problème observé : L'optimiseur (Adam) a tendance à augmenter la norme du vecteur fusionné pour minimiser la perte, ce qui déstabilise le modèle.
- Solutions techniques :
  - Remplacement de l'optimiseur Adam par SGD (Stochastic Gradient Descent) pour une meilleure stabilité et une régularisation implicite.
  - Initialisation du vecteur fusionné par la moyenne des vecteurs de tâche pour éviter une magnitude excessive.
  - Application directe de la SVD tronquée sans centrage préalable.

3. Contributions Clés

Benchmark MLLM Unifié : Introduction du premier benchmark de fusion de modèles pour les MLLMs, avec une catégorisation fine-grained des capacités (VQA, Géométrie, etc.) et des données d'entraînement publiques.
Méthode OptMerge : Proposition d'une méthode simple mais efficace qui élimine le bruit des vecteurs de tâche et optimise la fusion via une perte basée sur les interactions, améliorant les performances moyennes de 2,48 % par rapport aux méthodes de l'état de l'art.
Fusion de Modalités (Omni-Model) : Démonstration qu'il est possible de fusionner des modèles spécialisés (vision, audio, vidéo) en un seul modèle Omni sans données d'entraînement supplémentaires, exploitant la complémentarité des modalités.
Théorie et Analyse : Fourniture d'une borne théorique sur l'erreur de fusion, démontrant que le taux d'apprentissage et le nombre d'itérations influencent la performance de fusion (trop d'entraînement peut nuire à la fusion).

4. Résultats Expérimentaux

Les expériences ont été menées sur les modèles InternVL2.5 et Qwen2-VL, ainsi que sur des checkpoints réels provenant de Hugging Face.

Performance Supérieure : OptMerge surpasse systématiquement les autres méthodes de fusion (Task Arithmetic, TIES, DARE, WUDI, etc.) et rivalise avec, voire dépasse, l'entraînement mixte (Mixture Training) qui nécessite des données et un temps de calcul massif.
- Exemple : Sur Qwen2-VL, OptMerge atteint une moyenne de 63,30 % contre 60,55 % pour la moyenne pondérée et 60,29 % pour Task Arithmetic.
Fusion de Modalités : La fusion de modèles vision, audio et vidéo dépasse les modèles entraînés sur une seule modalité et surpasse même les méthodes de composition en ligne (Online Composing) qui nécessitent un stockage de paramètres séparé.
Efficacité Computationnelle :
- Le temps de résolution est drastiquement réduit (ex: 3,78h pour OptMerge vs 24,56h pour l'entraînement mixte sur Qwen2-VL-7B).
- La consommation mémoire GPU est bien inférieure (21,97 Go vs 256 Go).
Généralisation : La méthode fonctionne bien sur des modèles de grande taille (Qwen2.5-VL-32B) et sur des checkpoints hétérogènes provenant de la communauté open-source.

5. Signification et Impact

Ce travail marque une avancée significative pour le développement des MLLMs :

Accès Décentralisé : Il permet de créer des modèles puissants et polyvalents en fusionnant des contributions indépendantes sans partager de données privées, favorisant un développement décentralisé.
Économie de Ressources : En évitant le réentraînement (SFT) sur de vastes ensembles de données multimodales, OptMerge offre une voie scalable et peu coûteuse pour aligner les modèles "Omni".
Complémentarité des Modalités : Les résultats confirment que l'information multimodale est complémentaire ; la fusion de modèles spécialisés crée des capacités émergentes supérieures à la somme des parties.

En résumé, OptMerge établit un nouvel état de l'art pour la fusion de modèles multimodaux, prouvant qu'une approche "sans données" (data-free) et optimisée peut surpasser les méthodes d'entraînement traditionnelles en termes de performance, d'efficacité et de scalabilité.