Do We Really Need Permutations? Impact of Model Width on Linear Mode Connectivity

Each language version is independently generated for its own context, not a direct translation.

De Kernvraag: Moeten we echt alles op zijn kop zetten?

Stel je voor dat je twee verschillende koks hebt die beiden een perfecte pizza hebben gebakken. Ze hebben allebei een eigen recept, maar het resultaat smaakt even lekker. Nu wil je deze twee pizza's "samenvoegen" tot één super-pizza, zodat je de beste eigenschappen van beide combinaties.

In de wereld van kunstmatige intelligentie (AI) heet dit model samenvoegen. Het probleem is dat de "ingrediënten" (de getallen in het computermodel) van de twee koks vaak in een heel andere volgorde zitten. Als je ze simpelweg door elkaar roert, krijg je een rommeltje dat niet meer werkt.

Tot nu toe dachten wetenschappers: "Om dit te fixen, moeten we eerst de ingrediënten van de ene kok op zijn kop zetten (permuteren) zodat ze precies overeenkomen met de volgorde van de andere kok. En om dat te kunnen doen, moet de keuken (het model) enorm groot zijn, zodat er genoeg ruimte is om die volgorde te vinden."

Dit nieuwe onderzoek van Ito en zijn collega's zegt echter: "Wacht even. Misschien hoeven we niet eens te zoeken naar de juiste volgorde. Als we de keuken gewoon heel, heel groot maken, werkt het samenvoegen vanzelf!"

De Grote Ontdekking: Breedte is de Magie

De onderzoekers hebben ontdekt dat je niet hoeft te rommelen met de volgorde van de neuronen (de "koks" in het model). Als je het model breder maakt (meer neuronen toevoegt), gebeurt er iets magisch:

De Ruimte wordt groter: Stel je voor dat je twee mensen in een klein, drukke kamer probeert te laten samenkomen. Ze botsen tegen elkaar op. Maar als je de kamer vergroot tot een enorm stadion, kunnen ze allebei hun eigen hoekje vinden en toch samenwerken zonder elkaar te verstoren.
Geen Permutatie nodig: In dat enorme stadion hoeven ze niet te schuiven om elkaar te vinden. Ze kunnen gewoon in het midden gaan staan en samenwerken. In AI-termen: je hoeft de parameters niet meer te herschikken; je kunt ze simpelweg middelen (samenvoegen) en het resultaat is nog steeds perfect.

Het Geheim: De "Exponentiële Dans"

Maar waarom werkt dit? De onderzoekers hebben een nieuw concept bedacht dat ze LEWC noemen (Layerwise Exponentially Weighted Connectivity). Dat klinkt ingewikkeld, maar het is eigenlijk een mooie dans.

Stel je voor dat je twee mensen hebt die een liedje zingen.

De oude manier: Je moet hun stemmen precies op elkaar afstemmen (permuteren) voordat je ze mengt, anders klinkt het als ruis.
De nieuwe manier (met brede modellen): Als de zangers heel veel ruimte hebben (het brede model), zingen ze elk een heel ander deel van het liedje. Ze raken elkaar niet in de weg.

Wanneer je hun stemmen mengt, hoor je niet één stem die de ander overstemt, maar een harmonieus koor. Het mengsel klinkt alsof het een combinatie is van beide originele zangers.

De onderzoekers ontdekten dat in brede modellen:

De "actieve" neuronen (de zangers die iets doen) van model A en model B niet overlappen. Ze zingen elk hun eigen stukje.
Omdat ze elkaar niet verstoren, blijft de kwaliteit van het geluid (de nauwkeurigheid van de AI) behouden, zelfs als je ze zomaar samenvoegt.

De Rol van de "Gewichten" (De Kracht van de Koks)

Er is nog een belangrijke voorwaarde. Het werkt alleen als de koks (de neuronen) niet te "sterk" of "vastgezet" zijn.

Als je de koks te veel dwingt om precies hetzelfde te doen (te veel weight decay of strakke regels), worden ze stijf en overlappen ze weer.
Als je ze wat meer vrijheid geeft (door de regels iets losser te maken), worden ze flexibeler en "slapen" de overbodige neuronen uit. Dit zorgt ervoor dat ze net als in het stadion elk hun eigen hoekje vinden.

Wat betekent dit voor de toekomst?

Minder gedoe: We hoeven niet meer urenlang te zoeken naar de perfecte manier om twee AI-modellen op elkaar af te stemmen. Als we gewoon grotere modellen bouwen, werkt het vanzelf.
Betere samenwerking: Dit is heel handig voor things als Federated Learning (waarbij verschillende telefoons hun AI-modellen delen zonder hun data te delen). Nu kunnen we die modellen makkelijker samenvoegen tot één slimme AI, zonder dat we eerst ingewikkelde herschikkingen hoeven te doen.
De les: Soms is de oplossing niet om iets ingewikkelder te maken (zoals zoeken naar de perfecte volgorde), maar om simpelweg ruimtelijker te denken (breedte toevoegen).

Kortom: In plaats van te proberen twee verschillende puzzels perfect op elkaar te laten aansluiten door stukjes te verplaatsen, bouw je gewoon een gigantische puzzelplank. Dan passen de stukjes vanzelf in elkaar zonder dat je hoeft te schuiven!

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

In het veld van deep learning is het een bekend fenomeen dat onafhankelijk getrainde neurale netwerken vaak in verschillende lokale minima van de verliesfunctie terechtkomen. Linear Mode Connectivity (LMC) is het concept dat twee dergelijke modellen verbonden kunnen worden door een pad met een laag verlies (een "barrière") via lineaire interpolatie van hun gewichten.

Eerdere studies (zoals Ainsworth et al., 2023) hebben aangetoond dat LMC vaak alleen bereikt kan worden als men eerst een permutatie (een herschikking van de neuronen) toepast op één van de modellen om hun input-output-gedrag te aligneren. Het algemene geloof was dat voor het vinden van zo'n geschikte permutatie, de modellen voldoende breed moesten zijn (bijvoorbeeld 32x de standaard breedte voor ResNet-20). De redenering was dat een grotere breedte de zoekruimte voor permutaties vergroot, waardoor de kans toeneemt dat een permutatie gevonden wordt die de modellen in hetzelfde verliesbekken brengt.

De kernvraag van dit paper is: Is het echt nodig om permutaties te zoeken om LMC te bereiken, of volstaat het om de modellen simpelweg breder te maken?

Methodologie

De auteurs onderzoeken dit probleem empirisch en theoretisch door de volgende stappen te doorlopen:

Experimentele Opzet: Ze trainen onafhankelijke modellen (MLP, VGG-11, ResNet-20) op verschillende datasets (MNIST, FMNIST, CIFAR-10, CIFAR-100) met variërende breedte-multiplicatoren (van 0.125x tot 32x).
Zonder Permutatie: Ze interpoleren de gewichten van twee onafhankelijk getrainde modellen ( $\theta_a$ en $\theta_b$ ) direct met een coefficient $\lambda$ (waarbij $\lambda=0.5$ het gemiddelde is), zonder enige permutatie toe te passen.
Softmax Calibratie: Ze merken op dat lineaire interpolatie de norm van de logits kan veranderen. Daarom passen ze een temperatuur-schaling (inverse temperature) toe op de softmax-laag om de verliesbarrière te corrigeren.
Theoretische Analyse: Ze introduceren het concept Layerwise Exponentially Weighted Connectivity (LEWC). Ze analyseren de tussenliggende lagen om te begrijpen waarom brede modellen goed werken zonder permutatie.
Sufficient Conditions: Ze testen twee voorwaarden die LEWC zouden moeten garanderen:
- Weak Additivity: ReLU-activaties gedragen zich lineair langs het interpolatiepad.
- Reciprocal Orthogonality: De activaties van model A worden geneutraliseerd door de gewichten van model B (en vice versa), wat impliceert dat de actieve neuronen van de twee modellen niet overlappen.
Invloed van Weight Decay: Ze onderzoeken de rol van de rang (rank) van de gewichtsmatrices door de strength van weight decay te variëren.

Belangrijkste Bijdragen

Permutaties zijn niet strikt noodzakelijk bij voldoende breedte:
De auteurs tonen empirisch aan dat het simpelweg vergroten van de modelbreedte voldoende is om LMC te bereiken zonder enige permutatie. De testnauwkeurigheid van het gemerged model nadert die van de originele modellen naarmate de breedte toeneemt.
Introductie van LEWC (Layerwise Exponentially Weighted Connectivity):
Ze definiëren LEWC: de output van een gemerged model op laag $\ell$ kan worden uitgedrukt als een exponentieel gewogen som van de outputs van de originele modellen:
$f_\ell(x; \lambda\theta_a + (1-\lambda)\theta_b) \approx \lambda^\ell f_\ell(x; \theta_a) + (1-\lambda)^\ell f_\ell(x; \theta_b)$
Dit betekent dat het gemerged model zich gedraagt als een ensemble van de twee originele modellen, wat de hoge nauwkeurigheid verklaart.
De Rol van Lage Rang (Low-Rank) Structuur:
Ze onthullen dat LEWC optreedt omdat brede modellen, getraind met standaard regularisatie (weight decay), lage-rang gewichtsmatrices ontwikkelen. Dit leidt tot:
- Non-overlapping active neurons: De actieve neuronen van model A en model B overlappen nauwelijks.
- Reciprocal Orthogonality: $W^{(a)} z^{(b)} \approx 0$ en $W^{(b)} z^{(a)} \approx 0$ .
- Weak Additivity: Door de hoge dimensie en lage overlap gedraagt de ReLU-activatie zich bijna lineair.
Contrast met eerdere theorieën (LLFC):
Eerdere werken (zoals Zhou et al., 2023) legden LMC uit via Layerwise Linear Feature Connectivity (LLFC), wat vereist dat de gewichten van de twee modellen dicht bij elkaar liggen (commutativiteit). Dit paper toont aan dat in hun setting (zonder permutatie) de gewichten juist orthogonaal zijn, niet dicht bij elkaar. Dit is een fundamenteel ander mechanisme.

Resultaten

Nauwkeurigheid en Verlies: Zonder permutatie stijgt de testnauwkeurigheid van het gemerged model monotoon met de breedte en bereikt uiteindelijk het niveau van de originele modellen. De verliesbarrière (loss barrier) daalt naar bijna nul, mits de softmax wordt gekalibreerd met een geschikte inverse temperatuur.
Cosine Similariteit: De cosine similarity tussen de output van het gemerged model en het ensemble van de originele modellen nadert 1 bij voldoende breedte, wat LEWC bevestigt.
Random Permutaties: Zelfs met willekeurige permutaties (in plaats van geoptimaliseerde weight matching) blijft de prestatie hoog bij brede modellen, wat aantoont dat de specifieke permutatie niet meer kritiek is.
Invloed van Weight Decay: Als weight decay wordt verzwakt (wat de rang van de matrices verhoogt), verdwijnt LEWC en LMC. De modellen kunnen dan niet meer zonder permutatie worden gemerged. Dit bevestigt dat de lage-rang structuur cruciaal is.
Datasets: De resultaten zijn consistent over verschillende architecturen (MLP, VGG, ResNet) en datasets (van MNIST tot CIFAR-100).

Betekenis en Impact

Theoretisch Inzicht: Dit werk daagt het bestaande paradigma uit dat permutatie-zoekalgoritmen (zoals Weight Matching) essentieel zijn voor LMC. Het suggereert dat de geometrie van het verlieslandschap in brede netwerken zo eenvoudig is dat lineaire verbindingen vanzelf ontstaan, mits de netwerken breed genoeg zijn om de "curse of dimensionality" en lage-rang eigenschappen te benutten.
Praktische Toepassingen: Voor Model Merging en Federated Learning betekent dit dat complexe algoritmen om neuronen te aligneren mogelijk overbodig zijn voor brede modellen. Men kan zich richten op het vergroten van de modelbreedte en het kalibreren van de output, wat de implementatie aanzienlijk vereenvoudigt.
SGD Dynamiek: Het werk biedt nieuwe inzichten in hoe Stochastic Gradient Descent (SGD) in overgeparametriseerde netwerken werkt, namelijk door de ontwikkeling van lage-rang, orthogonale oplossingen die de ruimte efficiënt benutten zonder overlap.

Kortom, het paper concludeert dat modelbreedte een kritiekere factor is dan het aantal mogelijke permutaties voor het bereiken van lineaire mode connectiviteit, en dat dit fenomeen wordt gedreven door de emergentie van lage-rang structuren en orthogonale activatiepatronen in brede netwerken.

Do We Really Need Permutations? Impact of Model Width on Linear Mode Connectivity

De Kernvraag: Moeten we echt alles op zijn kop zetten?

De Grote Ontdekking: Breedte is de Magie

Het Geheim: De "Exponentiële Dans"

De Rol van de "Gewichten" (De Kracht van de Koks)

Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation