Bridging Domains through Subspace-Aware Model Merging

Each language version is independently generated for its own context, not a direct translation.

Titel: Het Smaken van Verschillende Chefs tot één Perfecte Hoofdschotel

Stel je voor dat je een enorme keuken hebt met verschillende topchefs. Elke chef is gespecialiseerd in een heel specifiek type eten:

Chef A is de meester van rotsachtige gerechten (misschien een ruige, stevige stijl).
Chef B is de meester van sneeuwgerechten (licht, fris, winterse smaken).

Beide chefs maken fantastisch eten binnen hun eigen specialiteit. Maar wat gebeurt er als je ze samen wilt laten werken om een nieuwe, nog nooit eerder geziene smaak te creëren? Bijvoorbeeld: een gerecht dat zowel de ruigheid van de rotsen als de frisheid van de sneeuw combineert, zoals een bergtop in de winter.

Dit is precies het probleem dat dit wetenschappelijke artikel oplost.

Het Probleem: De "Kookstijl"-Conflicten

In de wereld van kunstmatige intelligentie (AI) hebben we vaak modellen die zijn getraind op specifieke "domeinen" (zoals foto's van dieren in de sneeuw, of auto's in de regen). Als we deze modellen simpelweg samenvoegen door hun "recepten" (de parameters) gemiddeld te nemen, gaat het vaak mis.

Waarom? Omdat de chefs (de AI-modellen) soms heel hardnekkig zijn. Ze denken dat hun eigen manier van koken de enige juiste is. Als je hun recepten door elkaar haalt, krijg je een rommelig gerecht waarin de smaken elkaar opheffen in plaats van versterken. In de technische taal noemen ze dit subruimte-conflicten. De "krachtlijnen" van de ene chef botsen met die van de andere, en het eindresultaat is een rommel.

De Oplossing: SCORE (De Grote Keukenmeester)

De auteurs van dit papier hebben een nieuwe methode bedacht, genaamd SCORE. Ze noemen het "Subspace COnflict-Resolving mErging". Laten we het simpel houden: SCORE is als een super-ervaren sous-chef die de recepten van alle chefs analyseert en een nieuwe, gedeelde basis creëert.

Hier is hoe SCORE werkt, stap voor stap, in gewone taal:

De Analyse (De SVD):
De sous-chef kijkt naar de "krachtlijnen" van elk recept. Hij zegt: "Oké, Chef A, jij bent heel sterk in 'rotsig'. Chef B, jij bent heel sterk in 'sneeuwig'." Hij pakt de belangrijkste onderdelen van elk recept.
Het Gedeelde Systeem (De Orthogonale Basis):
In plaats van de recepten zomaar door elkaar te gooien, bouwt SCORE een nieuw, neutraal kooksysteem. Dit is een soort "gemeenschappelijke taal" waarin alle chefs kunnen spreken zonder elkaar te verstoren. Het is alsof ze allemaal gaan koken op een nieuw fornuis met nieuwe potten die perfect op elkaar zijn afgestemd.
Het Schoonmaken (Het Trimmen):
Dit is het slimste deel. Als de chefs proberen te koken in dit nieuwe systeem, merken ze dat sommige richtingen in de weg lopen (conflicten).
- Als een chef zegt: "Ik wil hier rotsig koken" en een ander zegt: "Nee, hier moet het sneeuwig zijn", dan is dat een conflict.
- SCORE kijkt naar deze conflicten. Hij houdt de belangrijke, duidelijke smaken (de diagonale lijnen) en snijdt de rommelige, storende smaken weg (de off-diagonalen). Hij verwijdert de "ruis" die ontstaat door de botsing van stijlen.
Het Resultaat:
Wat overblijft is een perfect samengevoegd recept. Het nieuwe model kan nu niet alleen rotsachtige én sneeuwgerechten maken, maar ook nieuwe combinaties die geen enkele chef alleen had kunnen bedenken. Het is robuust en werkt goed, zelfs als je het voert op een situatie die ze nooit eerder hebben gezien (bijvoorbeeld een ijsberg in de woestijn).

Waarom is dit zo belangrijk?

Vroeger moest je voor elke nieuwe situatie een hele nieuwe AI trainen, wat veel tijd, geld en data kostte. Of je moest meerdere modellen tegelijk laten draaien, wat je computer traag maakt.

Met SCORE kun je:

Bestaande experts samenvoegen zonder ze opnieuw te hoeven trainen.
Geen extra data nodig hebben om het nieuwe model te maken.
Beter presteren op situaties die je nog niet kent (zoals een arts die een AI gebruikt voor ziektes die hij nog nooit heeft gezien, omdat de AI is samengesteld uit experts voor verschillende regio's).

De Conclusie

Het artikel toont aan dat als je slim omgaat met de "conflicten" tussen verschillende AI-modellen, je een krachtigere, flexibeler en slimmere AI kunt maken. Het is alsof je uit een groep specialisten één alleskunner maakt, zonder dat die alleskunner verliest van zijn specialisme.

Kortom: SCORE zorgt ervoor dat de chefs niet vechten om wie de beste is, maar samenwerken om een meesterwerk te creëren dat voor iedereen werkt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Modelmerging is een techniek die meerdere taak-specifieke modellen (fine-tuned op een gemeenschappelijke pre-trained backbone) combineert tot één geconsolideerd model zonder extra training of gedeelde data. Hoewel er recente vooruitgang is geboekt in het verbeteren van prestaties voor in-distribution scenario's of multi-task settings, blijft domain generalization (generalisatie naar onzichtbare domeinen) onderbelicht.

De auteurs identificeren een specifiek probleem: wanneer modellen die zijn getraind op verschillende distributieshifts (verschillende domeinen, bijv. "rotsachtig terrein" vs. "sneeuwwit landschap") worden gemerged, treden er sterkere conflicten op dan in traditionele multi-task settings.

De oorzaak: In domein-generalisatie delen modellen vaak dezelfde labelruimte maar verschillende data-distributies. Dit zorgt ervoor dat de delta-weights (het verschil tussen het fine-tuned en pre-trained model) van verschillende domeinen sterk overlappen in hun singuliere subruimtes.
Het gevolg: Deze sterke overlap leidt tot "subspace conflicts" tijdens het mergen. De dominante singuliere richtingen van het ene domein kunnen die van een ander domein verdringen, wat resulteert in een model dat slecht generaliseert naar onbekende, gecombineerde domeinen. Bestaande methoden (zoals TIES of Task Arithmetic) gaan vaak uit van minder overlap en falen hierdoor bij het oplossen van deze specifieke conflicten.

Methodologie: SCORE

Om dit probleem aan te pakken, stellen de auteurs SCORE (Subspace COnflict-Resolving mErging) voor. Dit is een data-vrije en optimalisatie-vrije methode die singuliere subruimte-conflicten oplost door een gedeelde orthogonale basis te construeren.

Het algoritme werkt als volgt per laag:

SVD Decompositie: Voor elk domein $d$ wordt de SVD (Singular Value Decomposition) uitgevoerd op de delta-matrix $\Delta_d$ . De belangrijkste linker- en rechter singuliere vectoren ( $U_d$ en $V_d$ ) worden geselecteerd.
Concatenatie: De singuliere vectoren van alle domeinen worden samengevoegd tot grote matrices $U_*$ en $V_*$ .
Orthogonalisatie: Omdat $U_*$ en $V_*$ niet per se orthogonaal zijn, wordt er opnieuw een SVD op deze samengevoegde matrices uitgevoerd om een gedeelde, orthogonale basis ( $U_\perp$ en $V_\perp$ ) te vinden die het dichtst bij alle domein-specifieke subruimtes ligt.
Basisverandering en Conflictisolatie: Elk oorspronkelijk $\Delta_d$ $Δ_{d}$ wordt geprojecteerd naar deze nieuwe gedeelde basis: $\Delta'_d = U_\perp^T \Delta_d V_\perp$ $Δ_{d}^{'} = U_{⊥}^{T} Δ_{d} V_{⊥}$ .
- Diagonale elementen: Vertegenwoordigen overeenstemming (agreement) tussen het domein en de gedeelde richtingen.
- Niet-diagonale elementen: Vertegenwoordigen conflicten (cross-talk) tussen verschillende gedeelde richtingen.
Trimming (Uitsnijden): Om conflicten te verminderen zonder nuttige informatie te verliezen, wordt een "trim"-functie toegepast op de samengevoegde matrix.
- De diagonale elementen worden behouden.
- Niet-diagonale elementen worden behouden alleen als ze significant zijn (binnen een bepaald statistisch interval, gedefinieerd door $\tau \cdot \sigma_{off}$ ).
- Uitbijters (outliers) in de niet-diagonale elementen, die puur ruis of destructieve interferentie vertegenwoordigen, worden op nul gezet.
Reconstructie: De gemerged matrix wordt gereconstrueerd als $\hat{M} = U_\perp \Sigma_{score} V_\perp^T$ en opgeteld bij het oorspronkelijke pre-trained model.

Belangrijkste Bijdragen

Onderzoek naar Domein-Generalisatie: De auteurs zijn de eersten die modelmerging systematisch evalueren onder een "leave-one-domain-out" protocol, waarbij het doel is om te generaliseren naar een onzichtbaar doel-domein zonder toegang tot de trainingsdata van dat domein.
Analyse van Subruimte-Overlap: Ze tonen aan dat de overlap van singuliere subruimtes tussen modellen getraind op verschillende domeinen aanzienlijk hoger is dan bij traditionele multi-task learning, wat de noodzaak van een nieuwe aanpak onderstreept.
De SCORE-methode: Een nieuwe, schaalbare methode die specifiek is ontworpen om singuliere conflicten te mitigeren door een gedeelde basis te vinden en ruis in de kruisende richtingen te verwijderen.
Uitgebreide Evaluatie: De methode is getest op acht verschillende domein-generalisatie benchmarks (waaronder PACS, DomainNet, ImageNet-R en medische datasets) en drie modelgroottes (ViT-B/32, ViT-B/16, ViT-L/14).

Resultaten

De experimentele resultaten tonen aan dat SCORE consequent beter presteert dan bestaande state-of-the-art methoden (zoals Task Arithmetic, TIES, MagMax, TSV, ISO-C, etc.):

Algemene Prestaties: SCORE behaalt de hoogste gemiddelde nauwkeurigheid over alle acht benchmarks en drie modelgroottes heen. Bijvoorbeeld, op de ViT-B-32 architectuur scoort SCORE gemiddeld 65,69%, wat een verbetering is van 0,74% ten opzichte van de naaste concurrent (TSV).
Domein-specifiek: De methode presteert vooral sterk op datasets met grote distributieshifts, zoals DomainNet, NICO++ en OfficeHome.
Medische Datasets: Op medische datasets (FedISIC en RetinaDomains) waar data vaak onevenwichtig is, behaalt SCORE de beste of tweede beste resultaten, wat aantoont dat de methode robuust is voor kritieke toepassingen.
Vergelijking met Ensembles: SCORE presteert beter dan logit-ensembles (waarbij meerdere modellen apart worden uitgevoerd en hun uitkomsten worden gemiddeld), terwijl SCORE slechts de inferentiekosten van één enkel model heeft. Dit maakt het zowel nauwkeuriger als efficiënter.
Ablatie-studies: Het onderzoek toont aan dat het simpelweg behouden van alleen de diagonale elementen goed werkt, maar dat het toevoegen van de "getrimde" niet-diagonale elementen (die belangrijke gedeelde variabiliteit bevatten) de prestaties verder verbetert. Het behouden van alle niet-diagonale elementen zonder trimming leidt juist tot een sterke prestatiedaling door interferentie.

Significantie

Dit werk is significant omdat het een nieuwe richting opent voor compositional generalization in deep learning.

Efficiëntie: Het biedt een manier om kennis uit meerdere gespecialiseerde modellen te combineren zonder de rekenkosten van ensembles of de noodzaak van extra training (fine-tuning).
Toepasbaarheid: De methode is agnostisch ten opzichte van de specifieke domein-generalisatie-strategie die gebruikt is voor het fine-tunen; het vereist alleen toegang tot de fine-tuned checkpoints.
Toekomstperspectief: Het opent de deur voor het creëren van robuuste "super-modellen" door diverse bronmodellen te mergen, wat waardevol is in dynamische omgevingen of bij beperkte data, en kan worden uitgebreid naar NLP en generatieve modellen.

Kortom, SCORE lost het fundamentele probleem van subruimte-conflicten bij het mergen van domein-specifieke modellen op, waardoor modellen beter in staat zijn om kennis te combineren en te generaliseren naar onbekende situaties.

Bridging Domains through Subspace-Aware Model Merging

Het Probleem: De "Kookstijl"-Conflicten

De Oplossing: SCORE (De Grote Keukenmeester)

Waarom is dit zo belangrijk?

De Conclusie

Probleemstelling

Methodologie: SCORE

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

When both Grounding and not Grounding are Bad -- A Partially Grounded Encoding of Planning into SAT (Extended Version)

Teaching an Agent to Sketch One Part at a Time

Learning to Disprove: Formal Counterexample Generation with Large Language Models

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning