Functionality-Oriented LLM Merging on the Fisher--Rao Manifold

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superkrachtige robot (een Large Language Model of LLM) hebt. Deze robot is slim, maar hij is gespecialiseerd. Je hebt er eentje die een meester is in wiskunde, eentje die een expert is in poëzie, en eentje die fantastisch is in medische diagnoses.

De grote droom is: Kunnen we deze drie robots samenvoegen tot één super-robot die alles kan, zonder dat we ze opnieuw hoeven te leren?

Dat is wat "Model Merging" (model samenvoegen) probeert te doen. Maar tot nu toe ging dit vaak mis. De nieuwe paper van Jiayu Wang en collega's legt uit waarom dat zo is en biedt een slimme oplossing.

Hier is de uitleg in gewone taal, met een paar creatieve vergelijkingen.

1. Het Probleem: De "Gemiddelde" die faalt

Tot nu toe probeerden mensen deze robots samen te voegen door simpelweg hun "hersenen" (de getallen in de computer) te middelen.

De oude methode: Je neemt de wiskunde-robot en de poëzie-robot, en je doet alsof je een smoothie maakt. Je giet ze in een blender en draait aan de knop.
Het resultaat: Vaak krijg je een rommelige soep. De wiskundige kennis verdwijnt, de poëzie wordt saai, en de robot wordt verward. In de vaktaal noemen ze dit "collapse" (instorting). De robot verliest zijn creativiteit en precisie.

Waarom gaat dit mis?
Stel je voor dat de kennis van een robot niet ligt in een rechte lijn, maar in een berglandschap.

De "wiskunde-robot" staat op de top van de ene berg.
De "poëzie-robot" staat op de top van de andere berg.
Als je ze simpelweg middelt (de oude methode), loop je rechtstreeks door de vallei tussen de twee bergen. Maar in die vallei is het donker, modderig en onveilig. Je komt niet op de top van een nieuwe, mooie berg, maar zakt weg in de modder. Je robot wordt dan "slap" en onzeker.

2. De Oplossing: De "Fisher-Rao Manifold" (Het Kromme Pad)

De auteurs zeggen: "Wacht, we lopen verkeerd! We moeten niet door de vallei lopen, maar over de kromme hellingen van de bergen zelf."

Ze gebruiken een wiskundig concept dat klinkt als een ingewikkeld woord, maar het idee is simpel:

De oude manier: Kijkt naar een rechte lijn (Euclidisch). Alsof je een touw strak trekt tussen twee punten.
De nieuwe manier (Karcher-methode): Kijkt naar de kromme weg die het beste bij de vorm van de bergen past. Dit noemen ze de Fisher-Rao-manifold.

De Analogie van de Vlieger:
Stel je voor dat je twee vliegers hebt die hoog in de lucht vliegen.

Als je ze met een rechte lijn wilt verbinden, trek je ze naar beneden en krijg je een strakke, onnatuurlijke lijn.
Maar als je de wind en de kromming van de lucht (de "manifold") respecteert, vind je een pad dat beide vliegers hoog houdt. De nieuwe methode zoekt dit pad.

3. Hoe werkt hun nieuwe truc?

Ze hebben een algoritme bedacht dat werkt als een slimme GPS.

De Doelstelling: In plaats van te kijken naar de afstanden tussen de getallen (de gewichten), kijken ze naar de betekenis van de antwoorden. Hoe dichtbij liggen de antwoorden van de nieuwe robot bij de antwoorden van de oude robots?
De "Karcher-middelpunt": Dit is een wiskundige term voor het "centrum" van een groep punten op een kromme oppervlak. Stel je voor dat je drie vrienden hebt die elk een andere kant op kijken. De oude methode zou zeggen: "Kijk naar het gemiddelde van jullie gezichten." De nieuwe methode zegt: "Vind het punt waar jullie allemaal even ver van verwijderd zijn, maar waar jullie allemaal nog steeds op de goede weg blijven."
De "Sferische Proxy": Omdat het echt berekenen van die kromme wegen te zwaar is voor computers, gebruiken ze een slimme afkorting. Ze behandelen de kennis alsof het een bal is. Ze zorgen ervoor dat de nieuwe robot net zo "krachtig" (groot) blijft als de oude robots, zodat hij niet in elkaar zakt.

4. Waarom is dit beter?

De paper toont aan dat hun methode twee grote problemen oplost:

Stabiliteit: Als je meer robots samenvoegt (bijvoorbeeld 5 of 10 verschillende experts), breekt de oude methode volledig. De nieuwe methode blijft stabiel, zelfs als je heel veel verschillende experts toevoegt. Het is alsof je een orkest van 10 musici samenvoegt: de oude methode maakt lawaai, de nieuwe methode zorgt voor een harmonieus koor.
Geen "Geheugenverlies": Bij de oude methode verloor de robot vaak zijn "zin" (variatie) en werd hij saai. De nieuwe methode zorgt ervoor dat de robot zijn creativiteit en scherpte behoudt, zelfs na het samenvoegen.

Samenvatting in één zin

In plaats van de hersenen van verschillende slimme robots simpelweg door elkaar te husselen (wat leidt tot een verwarde soep), gebruiken deze onderzoekers een slimme wiskundige kaart om de beste route te vinden die alle slimme eigenschappen behoudt, zodat je één super-robot krijgt die alles kan.

De kernboodschap:
Het is niet belangrijk hoe ver de robots van elkaar staan in de computer, maar hoe ze zich gedragen. Door te kijken naar hun gedrag (hun antwoorden) en niet alleen naar hun interne getallen, kunnen we ze veel beter samenvoegen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Functionality-Oriented LLM Merging on the Fisher–Rao Manifold" in het Nederlands.

1. Probleemstelling

Het samenvoegen (merging) van meerdere fijngetune Large Language Models (LLMs) tot één model zonder hertraining is een veelbelovende techniek. Bestaande methoden, zoals lineaire middeling van gewichten of "task vectors", opereren echter in de Euclidische ruimte. Dit leidt tot drie fundamentele beperkingen:

Foute meetkunde: Deze methoden behandelen parameters als punten in een vlakke ruimte, terwijl het werkelijke doel is om functionaliteit (voorspellend gedrag) te combineren. De ruimte van waarschijnlijkheidsverdelingen is echter gekromd.
Representatie-instorting (Collapse): Wanneer de bronmodellen ver uit elkaar liggen of zeer heterogeen zijn, veroorzaken Euclidische blends vaak "variance collapse" (afname van de activatievariantie) en "rank collapse" (degradatie van de effectieve dimensie van activaties). Dit resulteert in een scherpe daling van de nauwkeurigheid.
Schaalbaarheid: Geometrisch geïnspireerde methoden (zoals SLERP) werken goed voor twee modellen, maar zijn moeilijk uit te breiden naar het samenvoegen van $N > 2$ experts met een principieel doel.

2. Methodologie: Fisher–Rao Karcher-middelpunt

De auteurs formuleren modelmerging niet als een gewichtsgemiddelde, maar als het berekenen van een (gewogen) Karcher/Fréchet-middelpunt op de Fisher–Rao-mannigfalt.

Theoretische Basis: De afstand tussen modellen wordt gemeten via de discrepantie tussen hun voorspellende verdelingen. Voor kleine parameterverplaatsingen is de Fisher–Rao (FR) metriek lokaal equivalent aan de Kullback-Leibler (KL)-divergentie:
$d^2_{FR}(\theta, \theta') \approx 2 \cdot KL(p_\theta \parallel p_{\theta'})$
Het doel is dus het minimaliseren van de verwachte KL-afstand tot de lerarenmodellen, wat overeenkomt met het minimaliseren van de negatieve log-likelihood (NLL).
Het Optimisatieprobleem: Gegeven experts $\{\theta^{(i)}\}$ en gewichten $\alpha^{(i)}$ , wordt het merged model $\theta^*$ gevonden door:
$\theta^* := \arg \min_{\theta} \sum_{i=1}^N \alpha^{(i)} d^2_{FR}(\theta, \theta^{(i)})$
De oplossing voldoet aan de voorwaarde dat de som van de Riemannische log-afbeeldingen (Log-map) naar de experts nul is.
Praktische Benadering (Sferische Proxy):
Het exact berekenen van de Fisher–Rao log/exp-afbeeldingen voor moderne LLMs is onberekenbaar. De auteurs introduceren een lichtgewicht sferische proxy:
1. Parameterblokken worden genormaliseerd naar de eenheidssfeer ( $S^{d-1}$ ).
2. Het Karcher-middelpunt wordt berekend op de sfeer met behulp van gesloten-formule log/exp-afbeeldingen.
3. Het resultaat wordt geschaald met een representatieve norm (bijv. de gemiddelde norm van de bronnen).
4. Dit behoudt de normen en voorkomt de "korte weg" (chord) die in Euclidische ruimte leidt tot instorting. Voor twee modellen reduceert dit tot SLERP, maar het schaalbaar naar $N > 2$ .

3. Belangrijkste Bijdragen

Formulering: Het definiëren van modelmerging als het vinden van een Karcher-middelpunt op de Fisher–Rao-mannigfalt, wat direct gericht is op het minimaliseren van functionele (KL) afstand in plaats van parameterafstand.
Algoritme: Het afleiden van een vast punt-iteratiealgoritme met een sferische proxy dat schaalbaar is naar meerdere experts ( $N > 2$ ) en lichtgewicht is.
Empirisch Bewijs: Het aantonen dat de methode stabiel blijft bij toenemende heterogeniteit en het aantal samengevoegde modellen, terwijl bestaande baselines instorten.

4. Resultaten

De methode (genaamd KARCHER) is geëvalueerd op diverse benchmarks (HellaSwag, BBH, MMLU-Pro, MuSR, GPQA-Diamond) met de Qwen2.5-familie.

Prestatie bij $N=2$ : KARCHER presteert consistent beter dan bestaande methoden zoals LERP, SLERP, TIES, DARE en Model Stock.
Schaalbaarheid ( $N > 2$ ): Dit is het sterkste punt. Terwijl Euclidische methoden (zoals Multi-SLERP, TIES, DARE) bij het samenvoegen van 5 of meer modellen abrupt instorten (gemiddelde prestatie daalt naar ~0.24), blijft KARCHER stabiel en verbetert zelfs (gemiddelde prestatie ~0.61 bij $N=5$ ).
Diagnostiek (Instorting):
- Variance & Rank: KARCHER behoudt aanzienlijk meer activatievariantie en effectieve rang (EffRank) in de diepere lagen van het netwerk vergeleken met interpolatiemethoden.
- Geometrie: De methode voorkomt dat het gemerged model de "hoogpresterende manigfalt" verlaat, wat de oorzaak is van de degradatie bij lineaire menging.
Robuustheid: De methode werkt goed over verschillende modelgroottes (van 135M tot 1.7B parameters) en bij het samenvoegen van modellen met verschillende schalen.

5. Betekenis en Conclusie

Dit paper biedt een fundamentele verschuiving in hoe we naar modelmerging kijken: van een parameter-gedreven heuristiek naar een functie-gedreven geometrische benadering.

Significantie: Het lost het probleem op dat bestaande methoden falen wanneer bronmodellen heterogeen zijn of wanneer er veel modellen worden samengevoegd. Dit maakt het mogelijk om kennis uit diverse, ver uiteenliggende experts te combineren zonder de kwaliteit te verliezen.
Toepassing: De methode is lichtgewicht, vereist geen extra training en kan direct worden geïmplementeerd in bestaande frameworks (zoals MergeKit).
Beperkingen: De methode maakt gebruik van een benadering (sferische proxy) in plaats van exacte Fisher–Rao-geodesieken, wat in zeer niet-lineaire gebieden van de loss-landscape kan afwijken. Ook zijn er geen globale convergentiegaranties voor willekeurige sets experts.

Kortom, KARCHER stelt een nieuwe standaard voor het samenvoegen van LLMs door de onderliggende kromming van de modelruimte te respecteren, waardoor stabiele en hoogwaardige geïntegreerde modellen mogelijk zijn.

Functionality-Oriented LLM Merging on the Fisher--Rao Manifold

1. Het Probleem: De "Gemiddelde" die faalt

2. De Oplossing: De "Fisher-Rao Manifold" (Het Kromme Pad)

3. Hoe werkt hun nieuwe truc?

4. Waarom is dit beter?

Samenvatting in één zin

1. Probleemstelling

2. Methodologie: Fisher–Rao Karcher-middelpunt

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers