Functionality-Oriented LLM Merging on the Fisher--Rao Manifold

Each language version is independently generated for its own context, not a direct translation.

🌍 Le Problème : Mélanger des recettes sans tout gâcher

Imaginez que vous avez plusieurs chefs étoilés (les modèles d'IA). Chacun est un expert dans un domaine différent :

Le Chef A est un génie de la cuisine italienne.
Le Chef B est un maître du sushi.
Le Chef C est un expert en pâtisserie.

L'objectif de la "fusion de modèles" est de créer un super-chef unique qui sait faire les trois, sans avoir à les réentraîner pendant des années.

Le problème actuel (la méthode "Euclidienne") :
Aujourd'hui, la plupart des méthodes pour fusionner ces chefs fonctionnent comme un mélangeur de smoothie grossier. On prend les ingrédients (les paramètres) de chaque chef, on les met dans un bol, et on fait une moyenne simple (50% de la sauce tomate, 50% de la sauce soja).

Le résultat ? Souvent, ça ne marche pas. Le mélange devient une bouillie sans saveur.
Pourquoi ? Parce que les "recettes" ne sont pas de simples ingrédients linéaires. Si vous mélangez deux chemins très différents à vol d'oiseau (en ligne droite), vous finissez souvent dans une zone où la cuisine est mauvaise (ce que les chercheurs appellent un "effondrement" ou collapse). Les saveurs s'annulent, et le modèle perd sa capacité à comprendre le contexte.

🧭 La Solution : La méthode "Karcher" sur une sphère

Les auteurs de ce papier proposent une approche plus intelligente, basée sur la géométrie.

L'analogie de la Terre (La Manifold) :
Imaginez que les compétences de nos chefs ne sont pas sur une table plate (un plan euclidien), mais sur la surface d'une grosse sphère (comme la Terre).

Si vous voulez aller de Paris à Tokyo, le chemin le plus court n'est pas de creuser un tunnel à travers la Terre (la ligne droite/Euclidienne), mais de suivre la courbe de la surface (le grand cercle/la géodésique).
Si vous essayez de faire une moyenne simple entre Paris et Tokyo en passant par le centre de la Terre, vous vous retrouvez au cœur de la planète, là où il n'y a ni air ni vie (c'est là que le modèle "crash" et perd ses capacités).

La nouvelle méthode (Karcher/Fisher-Rao) :
Au lieu de faire une moyenne à plat, cette méthode calcule le point central géométrique (le "barycentre") en restant toujours sur la surface de la sphère.

C'est comme si vous demandiez à un groupe de randonneurs de se rassembler au point le plus logique en marchant tous le long des sentiers de la montagne, sans jamais descendre dans la vallée (la zone de mauvaise performance).
Cela préserve l'intensité et la "direction" de chaque chef.

🛠️ Comment ça marche en pratique ? (L'astuce du "Proxy Sphérique")

Calculer exactement ce chemin courbe sur une sphère pour des modèles géants est mathématiquement très difficile (comme calculer la trajectoire exacte d'une balle de golf avec le vent, la rotation de la Terre et l'humidité).

Les auteurs ont trouvé une astuce géniale :

Ils traitent les paramètres du modèle comme des vecteurs (des flèches).
Ils normalisent ces flèches pour qu'elles aient toutes la même longueur (comme si on les plaçait sur une sphère parfaite).
Ils calculent la moyenne sur cette sphère, puis réajustent la taille.

C'est comme si, au lieu de mélanger les ingrédients au hasard, on alignait tous les chefs sur un cercle, on trouvait le point d'équilibre parfait, et on créait une nouvelle recette qui respecte l'équilibre de chacun.

🚀 Les Résultats : Pourquoi c'est mieux ?

L'article montre deux choses principales :

La stabilité quand on ajoute des experts :
- Si vous essayez de fusionner 2 chefs, les anciennes méthodes fonctionnent encore à peu près.
- Mais si vous essayez de fusionner 5, 10 ou 11 chefs très différents (un expert en code, un en médecine, un en poésie...), les anciennes méthodes s'effondrent totalement. Le modèle devient stupide.
- La méthode Karcher, elle, reste stable. Plus vous ajoutez de chefs, plus le super-chef devient polyvalent sans perdre sa mémoire.
La prévention de l'oubli (Effondrement) :
- Les anciennes méthodes font perdre de la "diversité" au modèle (les neurones s'endorment, la variance diminue). C'est comme si le super-chef avait oublié comment utiliser ses mains.
- La méthode Karcher garde le modèle "éveillé" et capable de faire des choses complexes, même après avoir fusionné beaucoup d'experts.

En résumé

Ce papier dit : "Arrêtez de faire des moyennes plates et simplistes pour fusionner des IA. Utilisez la géométrie courbe pour trouver le point d'équilibre parfait qui respecte la nature complexe de chaque modèle."

C'est comme passer d'un mélangeur bruyant qui écrase tout, à un chef d'orchestre qui sait exactement comment faire jouer chaque instrument ensemble pour créer une symphonie, même avec 50 musiciens différents.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La fusion de modèles (Model Merging) vise à combiner plusieurs grands modèles de langage (LLM) affinés (fine-tuned) en un seul modèle sans réentraînement. Bien que prometteuse, les approches existantes reposent majoritairement sur des heuristiques dans l'espace des paramètres (paramètre-space heuristics), ce qui engendre trois limitations majeures :

Inadéquation géométrique : Des méthodes comme la moyenne linéaire ou les "task vectors" opèrent dans des coordonnées euclidiennes. Or, l'objectif est de fusionner des fonctionnalités (comportements prédictifs), et non simplement des poids.
Effondrement de représentation (Representation Collapse) : Lorsque les modèles sources sont éloignés ou hétérogènes, les mélanges euclidiens provoquent une réduction de la variance des activations et une dégradation du rang effectif (rank collapse). Cela entraîne une chute brutale de la précision.
Limites d'extension : Les méthodes géométriques inspirées (comme SLERP) fonctionnent bien pour l'interpolation de deux modèles, mais ne s'étendent pas proprement à la fusion de $N > 2$ experts avec un objectif principiel.

L'article postule que les régions à faible perte forment des vallées courbes. Les points de contrôle affinés résident souvent sur de fines coques (shells) autour d'un modèle de base. Les interpolations linéaires (cordes) traversent ces courbures, sortant de la variété à haute performance et réduisant la norme des vecteurs de poids.

2. Méthodologie : La Moyenne de Karcher sur la Variété Fisher-Rao

Les auteurs reformulent le problème de fusion comme le calcul d'une moyenne de Karcher/Fréchet (barycentre géodésique) sur la variété Fisher-Rao.

A. Fondement Théorique

Au lieu de minimiser la distance euclidienne entre les poids, l'objectif est de minimiser la distance fonctionnelle entre les distributions prédictives. Pour de petits déplacements de paramètres, la métrique Fisher-Rao ( $d_{FR}$ ) relie la géométrie de l'espace des paramètres à la divergence des distributions :
$d^2_{FR}(\theta, \theta') \approx 2 \cdot KL(p_\theta \parallel p_{\theta'})$
L'objectif est donc de trouver le modèle $\theta^*$ qui minimise la somme pondérée des distances géodésiques (ou des divergences KL) par rapport aux experts :
$\theta^* := \arg \min_\theta \sum_{i=1}^N \alpha^{(i)} d^2_{FR}(\theta, \theta^{(i)})$

B. Algorithme Pratique : Approximation Sphérique

Calculer exactement les applications log/exp de Fisher-Rao pour des LLM modernes est intraitable. Les auteurs proposent une approximation légère basée sur deux observations empiriques :

Les checkpoints affinés résident sur une fine coque autour du modèle de base.
La réduction de norme est une cause principale d'échec.

L'algorithme proposé (KARCHER) :

Proxy Sphérique : Chaque bloc de paramètres est traité comme un vecteur et normalisé sur la sphère unité ( $S^{d-1}$ ).
Calcul du Barycentre : On calcule la moyenne de Karcher sur la sphère en utilisant des formules fermées pour les applications log/exp sphériques.
Préservation de la Norme : Le résultat est ré-échelonné par une norme représentative (moyenne des normes des sources).
Itération à Point Fixe : L'algorithme utilise une mise à jour itérative (équivalente à un pas de gradient riemannien) qui, pour deux modèles, se réduit au SLERP, mais qui s'étend naturellement à $N > 2$ modèles.

Cette approche préserve la géométrie courbe, évitant les raccourcis chordaux qui causent l'effondrement des caractéristiques.

3. Contributions Clés

Formulation Géométrique : Définition de la fusion de modèles comme le calcul d'une moyenne de Karcher sur la variété Fisher-Rao, ciblant directement la distance fonctionnelle (KL) plutôt que la distance des poids.
Algorithme Évolutif : Développement d'un algorithme à point fixe utilisant un proxy sphérique léger. Il généralise le SLERP (réservé à 2 modèles) à la fusion de $N$ experts de manière principielle.
Stabilité et Robustesse : Preuve empirique que la méthode reste stable même lorsque le nombre de modèles fusionnés augmente et que leur hétérogénéité s'accroît, atténuant les diagnostics d'effondrement (variance et rang).

4. Résultats Expérimentaux

Les expériences ont été menées sur la famille de modèles Qwen2.5 (de 135M à 14B paramètres) en fusionnant jusqu'à 11 modèles différents (incluant des instruct, des modèles de raisonnement, etc.).

Performance Globale : La méthode KARCHER surpasse systématiquement les baselines (LERP, SLERP, TIES, DARE, Model Stock, Arcee Fusion) sur des benchmarks variés (HellaSwag, BBH, MMLU-Pro, MuSR, GPQA-D).
- Exemple (Fusion de 2 modèles) : KARCHER atteint une moyenne de 0.597 contre 0.577 pour LERP et 0.575 pour SLERP.
- Exemple (Fusion de 5 modèles) : L'écart s'élargit considérablement. KARCHER maintient 0.610, tandis que les méthodes linéaires (LERP) chutent à 0.542 et les méthodes géodésiques à 2 modèles (Multi-SLERP) s'effondrent à 0.239.
Évolutivité (Scalability) :
- Les méthodes basées sur des règles euclidiennes ou des interpolations simples subissent un effondrement brutal dès que le nombre de modèles fusionnés dépasse 4 ou 5 ( $m \approx 5$ ).
- KARCHER reste stable et performante jusqu'à $m=11$ , démontrant que les barycentres géodésiques sont cruciaux lorsque les sources sont éloignées.
Diagnostic d'Effondrement :
- L'analyse de la variance des activations et du rang effectif (EffRank) par couche montre que KARCHER préserve la diversité des représentations bien mieux que LERP ou TIES.
- Les méthodes d'interpolation entraînent une perte drastique du rang effectif dans les couches profondes (effondrement), tandis que KARCHER maintient un rang élevé, indiquant une meilleure conservation des capacités du modèle.
Robustesse aux Échelles : La méthode fonctionne également bien lors de la fusion de modèles de tailles différentes (135M, 360M, 1.7B), bien que l'avantage soit plus marqué lorsque les modèles sont plus éloignés.

5. Signification et Conclusion

Cet article marque un tournant dans la fusion de modèles en passant d'une approche heuristique de l'espace des paramètres à une approche géométrique orientée fonctionnalité.

Signification Principale : Il démontre que la fusion de modèles n'est pas un problème linéaire. Pour fusionner efficacement de nombreux experts hétérogènes, il est impératif de respecter la courbure de la variété de perte (via la métrique Fisher-Rao).
Impact Pratique : La méthode KARCHER offre un moyen robuste de créer des modèles "super-héros" capables de maîtriser de multiples tâches sans réentraînement coûteux, en évitant le piège de l'effondrement des représentations qui limite les méthodes actuelles.
Limites : La méthode repose sur une approximation sphérique (proxy) et non sur la métrique Fisher-Rao exacte, ce qui pourrait s'écarter de la vérité dans des régions hautement non linéaires. De plus, elle nécessite l'accès aux paramètres du modèle et ne résout pas les problèmes de licence ou de sécurité inhérents à la fusion de modèles aux données d'entraînement différentes.

En résumé, cette approche propose une solution mathématiquement fondée et empiriquement supérieure pour l'agrégation de capacités dans les LLM, en particulier dans des scénarios de fusion à grande échelle et haute hétérogénéité.

Functionality-Oriented LLM Merging on the Fisher--Rao Manifold

🌍 Le Problème : Mélanger des recettes sans tout gâcher

🧭 La Solution : La méthode "Karcher" sur une sphère

🛠️ Comment ça marche en pratique ? (L'astuce du "Proxy Sphérique")

🚀 Les Résultats : Pourquoi c'est mieux ?

En résumé

1. Problématique et Contexte

2. Méthodologie : La Moyenne de Karcher sur la Variété Fisher-Rao

A. Fondement Théorique

B. Algorithme Pratique : Approximation Sphérique

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Conclusion

Articles similaires

Faster Stochastic Algorithms for Minimax Optimization under Polyak--Łojasiewicz Conditions

Tensor Completion Leveraging Graph Information: A Dynamic Regularization Approach with Statistical Guarantees

Federated Multi-Agent Mapping for Planetary Exploration

Random Scaling and Momentum for Non-smooth Non-convex Optimization

Exploring Low-Dimensional Subspaces in Diffusion Models for Controllable Image Editing