Almost Bayesian: The Fractal Dynamics of Stochastic Gradient Descent

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat het trainen van een kunstmatige intelligentie (een neurale net) als het doorzoeken van een enorm, donker berglandschap is. Je wilt de laagste vallei vinden, want daar zit de "beste" oplossing voor het probleem dat je probeert op te lossen.

Dit artikel, getiteld "Bijna Bayesiaans: De Dynamiek van SGD door Singular Learning Theory", probeert uit te leggen hoe een algoritme genaamd SGD (Stochastic Gradient Descent) dit landschap doorzoekt en waarom het soms net doet alsof het een slimme gokker is, maar dan met een paar fysieke beperkingen.

Hier is de uitleg in simpele taal, met wat creatieve vergelijkingen:

1. Het Probleem: De Verwarring tussen Gokken en Klimmen

In de wereld van AI zijn er twee grote scholen van denken:

De Bayesiaanse school: Dit is als een super-slimme gokker die alle mogelijke routes tegelijkertijd overweegt en kiest op basis van waarschijnlijkheid. Het is puur wiskundig en theoretisch perfect.
De SGD-school (Stochastic Gradient Descent): Dit is de methode die we echt gebruiken. Het is als een blinde klimmer die elke stap een beetje willekeurig maakt, maar altijd een beetje de helling afloopt.

De grote vraag was altijd: Doen deze twee dingen eigenlijk hetzelfde? De auteurs zeggen: "Ja, maar niet precies." SGD lijkt op de Bayesiaanse gokker, maar hij heeft een paar fysieke beperkingen die de gokker niet heeft.

2. De Vergelijking: Een Zwemmer in een Moeras

Stel je voor dat de klimmer (SGD) niet over een gladde weg loopt, maar door een moeras of een porieus gesteente (zoals een spons).

Normale theorie: Je denkt dat de klimmer zich vrij als een vis in water beweegt (zoals in een gewone badkuip).
De nieuwe theorie: De auteurs zeggen: "Nee, het is een spons!" De klimmer botst tegen gaten, kan niet overal naartoe en moet om struikels heen.

In dit moeras is er een speciale maatstaf nodig om te zeggen hoe "vol" of "leeg" een stukje grond is. De auteurs gebruiken hiervoor een wiskundig concept uit de Singular Learning Theory (SLT), genaamd de Learning Coefficient.

De Learning Coefficient (LC): Denk hieraan als de "dichtheid van het moeras". Een hoge LC betekent dat het gebied erg vol zit met obstakels (de klimmer kan hier moeilijk doorheen). Een lage LC betekent dat het een open, vlakke vlakte is waar de klimmer makkelijk rond kan lopen.

3. Het Grote Inzicht: De "Temperatuur" van de Gok

De auteurs hebben ontdekt dat als je de klimmer lang genoeg laat lopen, hij zich niet willekeurig verspreidt over het hele moeras. Hij verzamelt zich in de gebieden waar het makkelijkst is om te bewegen (de lage LC-gebieden).

Ze zeggen dat de verdeling van waar de klimmer eindigt, niet exact hetzelfde is als de perfecte Bayesiaanse gokker. Het is eerder een "getemperde" versie.

De Analogie: Stel je voor dat de Bayesiaanse gokker een kaart heeft van alle mogelijke plekken. De SGD-klimmer heeft die kaart ook, maar hij heeft een zware rugzak met een moeilijk terrein erop.
Als een gebied op de kaart mooi is, maar het terrein eromheen is een modderpoel (hoge LC), dan zal de SGD-klimmer daar niet naartoe gaan, zelfs niet als het de beste plek is.
De SGD-klimmer kiest dus plekken die goed zijn én makkelijk bereikbaar.

4. Wat betekent dit voor de praktijk?

De auteurs hebben dit getest met verschillende modellen (van taalmodellen tot beeldherkenning) en bewezen dat hun theorie klopt:

Sub-diffusie: De klimmer beweegt langzamer dan je zou verwachten in een normaal landschap. Hij blijft hangen in de "gaten" van het moeras.
Voorspelbaarheid: Als je weet hoe "vol" het moeras is (de LC), kun je precies voorspellen hoe snel de klimmer zich zal verplaatsen.
De "Steady State": Uiteindelijk stopt de klimmer met rondzwerven en gaat hij zitten in een specifieke groep van plekken. Deze groep komt overeen met de beste oplossingen, maar dan aangepast aan wat fysiek haalbaar is voor de algoritme.

Samenvatting in één zin

SGD is niet zomaar een willekeurige gokker; het is een strategische verkenner die een landschap van obstakels doorkruist en uiteindelijk stopt op plekken die niet alleen goed zijn, maar ook makkelijk bereikbaar zijn binnen de fysieke beperkingen van het moeras waarin hij loopt.

Dit helpt wetenschappers beter begrijpen waarom bepaalde AI-modellen beter generaliseren (beter werken op nieuwe data) dan anderen: het gaat niet alleen om de "beste" oplossing, maar om de oplossing die het algoritme kunt bereiken zonder vast te lopen in het moeras.

Each language version is independently generated for its own context, not a direct translation.

Titel: Almost Bayesian: Dynamics of SGD through Singular Learning Theory

Auteurs: Max Hennick en Stijn De Baerdemacker (University of New Brunswick & TrojAI)
Publicatie: ICLR 2026

1. Het Probleem

Een van de fundamentele open vragen in de theorie van deep learning is de relatie tussen Bayesiaanse steekproefneming (Bayesian sampling) en Stochastic Gradient Descent (SGD).

De uitdaging: Klassieke methoden voor het begrijpen van generalisatie, zoals de Bayesian Information Criterion (BIC), falen bij diepe neurale netwerken omdat deze modellen "singulier" zijn. Dit betekent dat ze vaak meerdere equivalente parameterconfiguraties hebben en dat de Fisher-informatiematrix (of de Hessiaan van de verliesfunctie) niet positief definiet is (degeneratie).
De dynamiek: Het is onduidelijk hoe de dynamiek van SGD, die vaak wordt gemodelleerd als een Langevin-dynamiek (Brownse beweging), zich verhoudt tot de zuiver Bayesiaanse beschrijving, vooral wanneer de minima van het verlies niet kwadratisch zijn. Eerdere modellen namen vaak aan dat minima kwadratisch zijn, wat in de praktijk voor neurale netwerken niet waar is.

2. Methodologie

De auteurs modelleren het langetermijngedrag van SGD als diffusie op poreuze media (porous media). Ze combineren drie hoofdgebieden:

Singular Learning Theory (SLT): Gebruikmakend van het concept van de Local Learning Coefficient (LLC, $\lambda$ ), die de complexiteit en geometrie van lokale gebieden rondom parameters kwantificeert. De LLC fungeert als een fractale dimensie die de "volume" van goede parameters beschrijft in de buurt van kritieke punten.
Fractionele Fokker-Planck-vergelijking (FFPE): In plaats van de standaard Langevin-vergelijking (die normale Brownse beweging beschrijft), gebruiken de auteurs een tijd-fractionele Fokker-Planck-vergelijking. Dit is nodig omdat SGD sub-diffusief gedrag vertoont op lange termijn (verplaatsing $R(t) \propto t^{1/\nu}$ met $\nu \geq 2$ ), in plaats van de lineaire diffusie van Brownse beweging.
Fractale Dimensies:
- Local Learning Coefficient ( $\lambda$ ): Beschrijft de geometrische dimensie van de "putten" (basins) in het verlieslandschap.
- Spectrale Dimensie ( $d_s$ ): Beschrijft hoe snel een diffusieproces nieuwe gebieden verkent.
- Walk Dimension ( $d_{walk}$ ): Beschrijft de schaling van de verplaatsing van de parameters. De auteurs gebruiken de Alexander-Orbach-relatie: $d_{walk} = 2\lambda / d_s$ .

De kernredenering:
De diffusiecoëfficiënt $D$ in het FFPE-model wordt afgeleid als een functie van de LLC en de spectrale dimensie: $D_\xi \propto \xi^{2 - d_{walk}}$ . Hierdoor wordt de diffusiecoëfficiënt lokaal afhankelijk van de geometrie van het verlieslandschap (via $\lambda$ ).

3. Belangrijkste Bijdragen

Theoretisch Model: De auteurs leiden af dat de stationaire verdeling (steady-state) van SGD onder redelijke hyperparameterkeuzen effectief een getemperde versie is van de Bayesiaanse posterior.
- De verdeling wordt gegeven door: $p_s(w) \propto e^{-\gamma L(w) / D_\xi}$ .
- Omdat $D_\xi$ afhangt van de toegankelijkheid van het gebied (bepaald door $\lambda$ ), "temper"t SGD de Bayesiaanse posterior. Gebieden met een lage LLC (brede, vlakke minima) zijn makkelijker toegankelijk en worden daarom sterker bevoordeeld dan in een pure Bayesiaanse steekproef zou worden verwacht, tenzij de diffusiecoëfficiënt daar laag is.
Verbinding tussen SLT en SGD: Ze leggen een directe link tussen de dynamiek van SGD en de statistische theorie van singulariteiten door te tonen dat de steady-state verdeling wordt gedicteerd door de lokale toegankelijkheidsbeperkingen die door de LLC worden opgelegd.
Formulering van Anomale Diffusie: Ze tonen aan dat de sub-diffusieve aard van SGD (geobserveerd in eerdere experimenten) wiskundig kan worden verklaard door de fractale dimensie van het verlieslandschap, zonder de noodzaak van complexe aanpassingen voor vroege super-diffusie bij het bestuderen van de steady state.

4. Experimentele Resultaten

De theorie werd gevalideerd op meerdere datasets en modelarchitecturen:

Datasets: MNIST (volledig verbonden netwerken), Tiny ImageNet (ResNet, VGG), en TinyStories (taalmodellen zoals TinyLlama).
Validatie van Diffusie:
- Er werd een sterke correlatie gevonden tussen de geschatte spectrale dimensie ( $d_s$ ) en de totale verplaatsing van de gewichten, wat de fractale diffusietheorie bevestigt.
- De sub-diffusieve voorspelling ( $R(t) \propto t^{1/d_{walk}}$ ) bleek zeer accuraat voor modellen die tot convergentie waren getraind.
Posterior Concentratie:
- Door SGD te vergelijken met SGLD (Stochastic Gradient Langevin Dynamics, een benadering van de Bayesiaanse posterior), toonden ze aan dat SGD-oplossingen zich concentreren in gebieden met een lage Local Learning Coefficient (wat correspondeert met betere generalisatie).
- Na het toepassen van "tempering" op basis van de diffusiecoëfficiënt (bepaald door $\xi$ ), kwam de verdeling van SGD-oplossingen bijna perfect overeen met de geschatte Bayesiaanse posterior.
Optimalisatoren: De theorie werkt goed voor SGD. Voor adaptieve optimalisatoren (zoals Adam) is de correlatie minder sterk, wat suggereert dat deze de metriek van het landschap veranderen, maar de theorie biedt wel een raamwerk om dit te analyseren.

5. Betekenis en Toekomstperspectief

Fundamenteel Inzicht: Het paper biedt een wiskundig onderbouwd raamwerk om te begrijpen waarom SGD generaliseert: het zoekt niet zomaar naar minima, maar "diffundeert" door een poreus landschap waarbij de toegankelijkheid van gebieden (bepaald door hun fractale dimensie/LLC) de waarschijnlijkheid van het vinden van die gebieden bepaalt.
Praktische Toepassingen:
- Transfer Learning: Het meten van de LLC en spectrale dimensie bij het starten van fine-tuning kan helpen bij het kiezen van de juiste leersnelheid en batchgrootte.
- Model Selectie: Modellen met een lage LLC maar hoge spectrale dimensie (veel beweging binnen een breed basin) kunnen robuustere generalisatie bieden.
- Bayesiaanse Inferentie: De theorie biedt een manier om onzekerheid in SGD te kalibreren door rekening te houden met de degeneratie van het landschap, in plaats van te vertrouwen op vereenvoudigde kwadratische aannames.
Toekomst: De auteurs zien het aanpassen van dit raamwerk aan adaptieve optimalisatoren (Adam, etc.) als een belangrijke volgende stap, aangezien deze momenteel als een "speciaal geval" worden beschouwd binnen een bredere theorie.

Conclusie:
Het paper toont aan dat SGD, op lange termijn, gedraagt als een diffusieproces op een fractaal landschap. De steady-state verdeling is niet puur Bayesiaans, maar een "Almost Bayesian" verdeling die wordt getemperd door de lokale geometrische toegankelijkheid van het verlieslandschap, zoals gekwantificeerd door de Singular Learning Theory. Dit verklaart de empirische observatie dat SGD vaak betere generalisatie bereikt dan puur Bayesiaanse methoden die geen rekening houden met deze dynamische beperkingen.

Almost Bayesian: The Fractal Dynamics of Stochastic Gradient Descent

1. Het Probleem: De Verwarring tussen Gokken en Klimmen

2. De Vergelijking: Een Zwemmer in een Moeras

3. Het Grote Inzicht: De "Temperatuur" van de Gok

4. Wat betekent dit voor de praktijk?

Samenvatting in één zin

Titel: Almost Bayesian: Dynamics of SGD through Singular Learning Theory

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Experimentele Resultaten

5. Betekenis en Toekomstperspectief

Meer zoals dit

On a nonlocal fractional thermostat eigenvalue problem

From Weak Nonlinear Perturbation to the Homotopy Analysis Method: A Rigorous Derivation and Theoretical Unification

Solution of variable order fractional differential equations using Homotopy Analysis Method

Biharmonic Subdivision on Riemannian Manifolds

A Composition Theorem for Binomially Weighted Averages