Entropic Confinement and Mode Connectivity in Overparameterized Neural Networks

Each language version is independently generated for its own context, not a direct translation.

De Onzichtbare Muur in het Diepe Netwerk: Waarom AI-studenten niet "willekeurig" rondhuppelen

Stel je voor dat je een enorme, uitgestrekte vallei hebt. In deze vallei liggen verschillende kleine dorpjes (de minima of beste oplossingen) waar het klimaat perfect is: de lucht is helder en de kosten (de verliesfunctie) zijn minimaal.

In de wereld van kunstmatige intelligentie (AI) dachten wetenschappers lange tijd dat deze dorpjes allemaal verbonden waren door een brede, vlakke weg. Je zou denken dat een AI-model, dat als een wandelaar door deze vallei loopt, makkelijk van het ene dorpje naar het andere kan huppelen zonder ooit de hoogte te verliezen.

Maar hier komt de verrassing: de wandelaar blijft steken in één dorpje. Hij probeert wel eens om naar een ander dorpje te gaan, maar hij komt er nooit aan. Waarom?

Dit artikel van Luca Di Carlo en zijn collega's legt uit dat er een onzichtbare, entropische muur bestaat tussen deze dorpjes. Laten we dit uitleggen met een paar simpele beelden.

1. De Vallei is niet zo vlak als hij lijkt

Stel je voor dat je twee dorpjes hebt die verbonden zijn door een pad. Op het eerste gezicht lijkt dit pad perfect vlak; je hoeft niet omhoog te klimmen om van het ene dorpje naar het andere te gaan. De "energie" (of de fout in het model) blijft laag.

Maar het artikel zegt: kijk niet alleen naar de hoogte, maar ook naar de breedte van het pad.

In de dorpjes (de eindpunten) is het pad breed en comfortabel. Het is een grote, open plek waar je makkelijk kunt bewegen.
In het midden van het pad wordt het pad plotseling heel smal en krap. Het is alsof je over een smalle bergkam loopt, terwijl aan beide kanten een afgrond ligt.

2. De "Entropische Kracht": De angst voor de krappe plek

Hier komt de magie van de wiskunde en statistiek om de hoek kijken. De AI wordt getraind met een beetje "ruis" of "onrust" (door het gebruik van kleine steekproeven van data). Dit is alsof de wandelaar een beetje dronken is of op een trillende vloer loopt.

De regel: Als je een beetje onzeker bent (ruis), wil je graag in een brede, veilige ruimte zijn. Je wilt niet op een smalle rand lopen waar je makkelijk kunt vallen.
Het effect: Zelfs als het pad in het midden even hoog is als de dorpjes, voelt de wandelaar zich daar onveilig omdat het daar "smal" is (hoge kromming). De onzekerheid duwt de wandelaar automatisch terug naar de brede, veilige dorpjes.

De auteurs noemen dit entropische krachten. Het is alsof er een onzichtbare wind waait die je niet toestaat om op de smalle bergkam te blijven, maar je terugblust naar de brede valleien.

3. Het Experiment: De AI die terugschrikt

De onderzoekers hebben dit getest door AI-modellen precies in het midden van zo'n pad te plaatsen en ze te laten "wandelen" (trainen).

Wat gebeurde er? Zelfs als het pad in het midden even goed was als de eindpunten, werden de modellen teruggeduwd naar de dichtstbijzijnde dorpjes.
Hoe sterker de wind? Als ze de "ruis" verhoogden (door kleinere steekproeven te gebruiken of de leer-snelheid te verhogen), werd de duwkracht nog sterker. De modellen werden sneller teruggeblazen naar de veilige dorpjes.

4. Waarom is dit belangrijk?

Dit verklaart een groot mysterie in de AI-wereld:

Waarom vinden we goede oplossingen? Omdat de "brede" dorpjes (waar de entropische krachten je naartoe duwen) vaak beter generaliseren. Ze werken goed op nieuwe data.
Waarom raken we niet vast in slechte oplossingen? Slechte oplossingen (overfitting) zitten vaak in heel smalle, krappe plekken. De entropische krachten duwen de AI daar weg, omdat het daar te onstabiel is.
Waarom kunnen we modellen niet zomaar samenvoegen? Soms proberen onderzoekers twee getrainde modellen te mixen (zoals twee recepten combineren). Maar als er een "entropische muur" tussen zit, werkt die mix niet goed. De AI "weet" dat het midden van het pad onveilig is en wil daar niet zijn.

Samenvattend in één zin:

Hoewel het er voor een AI-landkaart uitziet dat alle goede oplossingen met elkaar verbonden zijn door een vlakke weg, is die weg in het midden eigenlijk een gevaarlijk smal bruggetje; de onzekerheid van het leerproces duwt de AI daarom automatisch terug naar de brede, veilige dorpjes aan de uiteinden.

Dit artikel laat zien dat de vorm van het landschap (of het pad breed of smal is) net zo belangrijk is als de hoogte (hoe goed de oplossing is) om te begrijpen hoe AI-modellen leren en waarom ze stabiel blijven.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Entropic Confinement and Mode Connectivity in Overparameterized Neural Networks", gepresenteerd op ICLR 2026.

Probleemstelling

Moderne, overparametrische neurale netwerken vertonen een ogenschijnlijk paradoxale eigenschap in hun verlieslandschap (loss landscape):

Mode Connectiviteit: Verschillende oplossingen (minima) die worden gevonden met standaard optimalisatiealgoritmen, zijn vaak verbonden door paden met een laag verlies. Dit suggereert dat het landschap minder ruw is dan eerder werd aangenomen en dat minima verbonden zijn door een brede "vallei" van lage verlieswaarden.
Confinement (Beperking): Ondanks deze verbindingen blijft de optimalisatiedynamiek (zoals Stochastic Gradient Descent of SGD) doorgaans gevangen in één specifiek convex basin en verkent het zelden de tussenliggende gebieden of de paden die deze minima verbinden.

De centrale vraag is: Waarom verkent SGD niet de laag-verliespaden die minima verbinden, zelfs als er geen energetische barrières (hoge verlieswaarden) op die paden liggen?

Methodologie

De auteurs lossen deze paradox op door de rol van entropische krachten te analyseren, die voortvloeien uit variaties in kromming (curvature) langs de verbindingspaden, in combinatie met de ruis in de optimalisatie.

Theoretisch Kader:
- Het paper baseert zich op statistische fysica, waar de toestand van een systeem wordt bepaald door een competitie tussen energie (verlies) en entropie.
- In neurale netwerken fungeert het verlies als energie, terwijl de ruis uit SGD (door minibatching en eindige leersnelheden) fungeert als een effectieve temperatuur ( $T$ ).
- De auteurs tonen aan dat als de kromming van het landschap toeneemt (het landschap wordt "scherper") terwijl het verlies constant blijft, er een effectieve kracht ontstaat die het systeem terugduwt naar gebieden met lagere kromming (vlakkere gebieden). Dit wordt een entropische barrière genoemd.
Experimentele Opzet:
- Modellen: Training van Wide ResNet-16-4 en ResNet-20/110 op CIFAR-10 en CIFAR-100.
- Paden: Het gebruik van het AutoNEB-algoritme (Automatic Nudged Elastic Band) om Minimum Energy Paths (MEPs) te construeren tussen verschillende minima. Daarnaast wordt Lineaire Mode Connectiviteit onderzocht door netwerken te splitsen op een bepaald epoch ( $k$ ) en ze onafhankelijk te laten trainen.
- Krommingsmetingen: Omdat de volledige Hessian-matrix te groot is, gebruiken de auteurs schattingen via:
  - Het grootste eigenwaarde ( $\lambda_{max}$ ) via power iteration.
  - De trace van de Hessian (benaderd via de Fisher Information Matrix).
  - Singular Value Decomposition (SVD) van de score-matrix.
- Dynamica-analyse: De auteurs trainen modellen die initieel op specifieke punten langs een MEP worden geplaatst, maar waarbij de updates worden geprojecteerd op het pad. Hierdoor kunnen ze isoleren hoe ruis en kromming de beweging langs het pad beïnvloeden.

Belangrijkste Bijdragen

Empirisch Bewijs van Krommingsstijging: De auteurs tonen aan dat de kromming langs paden tussen minima systematisch toeneemt naarmate men zich verwijdert van de eindpunten (de minima), zelfs als het verlies daar laag en bijna constant blijft.
Entropische Barrières: Ze argumenteren dat deze "bult" in kromming leidt tot entropische barrières. Deze barrières creëren effectieve krachten die stochastische dynamica (SGD) terugduwen naar de eindpunten, zelfs als het energetisch gunstiger zou zijn om het pad te doorkruisen.
Confinement ondanks Connectiviteit: Hoewel minima energetisch verbonden zijn, zijn ze effectief gescheiden door entropische barrières. Dit verklaart waarom SGD niet spontaan van het ene naar het andere minimum "drijft" via deze paden.
Tijdsafhankelijkheid: Entropische barrières blijven langer bestaan dan energetische barrières tijdens het trainingsproces. Dit suggereert dat entropische krachten een cruciale rol spelen in de late fase van training en de uiteindelijke lokalisatie van de oplossing.

Resultaten

Krommingsprofielen: In Figuren 2 en 5 wordt duidelijk zichtbaar dat terwijl het verlies langs een MEP laag blijft, de Hessian-trace en de maximale eigenwaarde (maatstaven voor kromming) stijgen naar het midden van het pad toe. De minima zelf bevinden zich in de vlakkere gebieden.
Relaxatiedynamica: Wanneer modellen worden geïnitieerd in het midden van een pad en worden gedwongen om erop te blijven, worden ze systematisch teruggeduwd naar de dichtstbijzijnde eindpunten (Figuren 3 en 4).
- Invloed van Ruis: De snelheid van deze terugkeer (relaxatie) neemt toe bij kleinere minibatch-groottes en hogere leersnelheden. Dit bevestigt dat de kracht entropisch is van aard en schaalt met de effectieve temperatuur ( $T \propto \eta/B$ ).
- Optimalisatoren: Zowel Adam als SGD met momentum vertonen een sterkere reactie op deze entropische krachten dan "vanilla" SGD.
Lineaire Connectiviteit: Bij het analyseren van netwerken die op een bepaald moment ( $k$ ) zijn gesplitst, blijkt dat hoewel het verlies langs de lineaire paden daalt naarmate $k$ toeneemt, de krommingsbarrières (entropisch) langer aanwezig blijven. Voor grote $k$ is de instabiliteit in kromming groter dan die in verlies, wat aangeeft dat entropische krachten de definitieve locatie van het model in de latere trainingsfase bepalen.
Robuustheid: Deze fenomenen zijn consistent over verschillende datasets (CIFAR-10, CIFAR-100) en architecturen (ResNet, Wide ResNet).

Betekenis en Implicaties

Herdefiniëring van het Verlieslandschap: Het paper corrigeert het beeld van een enkele, brede "vallei" van oplossingen. In plaats daarvan is deze vallei opgesplitst in effectief gescheiden regio's door entropische barrières die worden veroorzaakt door krommingsvariaties.
Generalisatie: De auteurs suggereren dat entropische barrières kunnen verklaren waarom SGD generaliserende oplossingen vindt en niet overfit. Overfitting-minima zouden mogelijk verbonden zijn met generaliserende minima via lage verliespaden, maar entropische krachten zouden SGD kunnen "afstoten" van de scherpe (overfitte) gebieden en vasthouden in de vlakkere (generaliserende) basins.
Weight Averaging (SWA): Technieken zoals Stochastic Weight Averaging (SWA) die minima middelen, werken mogelijk op minima die energetisch verbonden zijn, maar entropisch gescheiden. Dit impliceert dat de gemiddelde oplossing niet eenvoudig bereikbaar is via diffusieve optimalisatie aan de bodem van een vallei, wat nieuwe inzichten biedt voor het begrijpen van de stabiliteit van dergelijke ensembles.
Toekomstig Onderzoek: Het paper benadrukt dat het begrijpen van deze entropische krachten essentieel is voor het beheersen van de late-fase dynamiek van diepe netwerken en voor het ontwikkelen van betere methoden voor modelmerging en ensemble-methoden.

Kortom, het paper toont aan dat kromming een even belangrijke factor is als verlies bij het bepalen van het gedrag van neurale netwerken, en dat entropische krachten de sleutel zijn tot het verklaren van waarom netwerken in specifieke regio's van de parameter ruimte blijven hangen.

Entropic Confinement and Mode Connectivity in Overparameterized Neural Networks

1. De Vallei is niet zo vlak als hij lijkt

2. De "Entropische Kracht": De angst voor de krappe plek

3. Het Experiment: De AI die terugschrikt

4. Waarom is dit belangrijk?

Samenvattend in één zin:

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Implicaties

Meer zoals dit

Efficient semiparametric estimation of marginal treatment effects with genetic instrumental variables

Functional Bias and Tangent-Space Geometry in Variational Inference

Shape-constrained density estimation with Wasserstein projection

Estimation of heterogeneous principal effects under principal ignorability

Uncertainty quantification for critical energy systems during compound extremes via BMW-GAM