Grokking as a Phase Transition between Competing Basins: a Singular Learning Theory Approach

Each language version is independently generated for its own context, not a direct translation.

Grokken: Het Moment waarop een AI plotseling "snapt" wat het doet

Stel je voor dat je een heel slim kind (een kunstmatige intelligentie) leert om een lastig raadsel op te lossen, bijvoorbeeld het uitrekenen van getallen in een cirkel (modulaire rekenkunde).

In het begin leert het kind het antwoord uit het hoofd. Het kan elke vraag op het examen perfect beantwoorden, maar het begrijpt de logica erachter niet. Als je het een vraag stelt die het niet eerder heeft gezien, faalt het. Dit noemen we memoriseren.

Dan gebeurt er iets magisch: na duizenden uren oefenen, zonder dat je merkt dat het beter wordt, slaat het kind plotseling om. Het begint de onderliggende regels te begrijpen en kan elke vraag, zelfs de nieuwe, perfect beantwoorden. Dit fenomeen noemen onderzoekers Grokken (een woord dat "diep begrijpen" betekent).

De vraag is: Waarom gebeurt dit plotseling? En waarom duurt het zo lang?

Dit paper geeft een nieuw antwoord, gebaseerd op een wiskundig concept dat Singular Learning Theory (SLT) heet. Laten we het uitleggen met een paar simpele metaforen.

1. De twee valleien in het landschap

Stel je het leerproces voor als een wandeling door een bergachtig landschap. Je doel is om naar de laagste punt te komen (de beste oplossing).

Vallei A (Memoriseren): Dit is een diepe, maar smalle en steile kuil. Hier kun je de trainingsexamens perfect scoren, maar het is een "valkuil". Als je hier vastzit, begrijp je de wereld niet echt. Het is alsof je een wegkaart uit het hoofd leert, maar als er een brug wegvalt, weet je niet hoe je verder moet.
Vallei B (Begrijpen/Generaliseren): Dit is een andere kuil, misschien net zo diep, maar dan breed en vlak. Hier kun je ook perfect scoren, maar omdat de bodem breed is, kun je hier makkelijk bewegen en aanpassingen doen. Dit is de plek waar echt begrip zit.

2. Het probleem: Waarom blijven we in de verkeerde vallei?

Normaal gesproken denkt men dat een algoritme gewoon naar de dichtstbijzijnde kuil rolt. In het begin rolt het AI-model dus snel naar Vallei A (memoriseren) omdat dat het snelste pad is. Het zit daar vast.

Maar het landschap is niet statisch. Naarmate het model meer data ziet, verandert de "zwaartekracht" van het landschap.

3. De nieuwe ontdekking: De "Vlakheids-Compass"

De auteurs van dit paper gebruiken een wiskundig kompas genaamd de LLC (Local Learning Coefficient).

Denk aan de LLC als een maatstaf voor hoe vlak of breed een kuil is.
Een smalle kuil (memoriseren) heeft een hoge LLC (moeilijk om te bewegen, veel "ruis").
Een brede kuil (begrijpen) heeft een lage LLC (makkelijk om te bewegen, veel ruimte).

De theorie zegt: Op de lange termijn houdt het landschap van de breedste, vlakste valleien.

4. De "Grokking"-fase-overgang

Hier gebeurt de magie:

De start: Het model rolt snel naar de smalle kuil (memoriseren) omdat het daar snel de trainingsscore verbetert.
De stilte: Het zit daar vast. Het lijkt alsof het niet leert, maar het is eigenlijk aan het "wachten".
De omslag: Na verloop van tijd (door de manier waarop het model leert en de data die het ziet), wordt de smalle kuil steeds ongunstiger. De wiskunde (SLT) zegt dat het model uiteindelijk de brede kuil moet kiezen, omdat die statistisch "beter" is voor het vinden van de waarheid.
De sprong: Op een bepaald moment, als het model genoeg data heeft gezien, "springt" het plotseling van de smalle kuil naar de brede kuil. Dit is het Grokken. Het model schakelt van uit het hoofd leren naar echt begrijpen.

5. Wat leren we hieruit?

De auteurs hebben dit bewezen met een speciaal type netwerk (kwadratische netwerken) en wiskundige formules. Ze ontdekten twee belangrijke dingen:

Het is een fase-overgang: Net zoals water dat van ijs naar water smelt bij een specifieke temperatuur, schakelt een AI-model van "uit het hoofd leren" naar "begrijpen" bij een specifiek punt in de training.
We kunnen het voorspellen: Ze hebben ontdekt dat je de LLC (de vlakheids-maatstaf) kunt meten terwijl het model leert. Als je ziet dat de LLC begint te dalen, weet je dat het model op het punt staat om te "groeien" en de oplossing te vinden, zelfs als de testresultaten nog niet verbeteren. Het is als een seismograaf die een aardbeving voorspelt voordat de grond trilt.

Samenvatting in één zin

Grokken is niet toeval; het is een wiskundig onvermijdelijke sprong van een smalle, onstabiele oplossing (uit het hoofd leren) naar een brede, stabiele oplossing (echt begrijpen), en we kunnen deze sprong nu voorspellen door te kijken naar hoe "vlak" de oplossing is.

Dit helpt ons te begrijpen waarom AI soms langzaam lijkt te leren, maar dan plotseling super slim wordt, en hoe we die overgang kunnen versnellen.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

Het paper onderzoekt het fenomeen Grokking: een trainingsdynamiek waarbij een model eerst de trainingsdata perfect memoriseert (lage trainingsfout), maar gedurende lange tijd slecht generaliseert, om vervolgens abrupt over te schakelen naar een staat van uitstekende generalisatie. Dit wordt vaak waargenomen bij algoritmische taken zoals modulair optellen.

De centrale vraag is: Wanneer meerdere oplossingsbekkens (basins) de trainingsdata even goed passen, wat bepaalt welke bekken statistisch de voorkeur krijgt en leidt tot generalisatie?

Traditionele theorieën over "vlakke minima" (flat minima) suggereren dat bredere gebieden in de verlieslandschap beter generaliseren, maar deze concepten zijn vaak niet invariant onder herparametrisatie en ontberen een strikte theoretische onderbouwing voor singuliere modellen (zoals neurale netwerken).

2. Methodologie: Singular Learning Theory (SLT)

De auteurs benaderen het probleem via Singular Learning Theory (SLT), een Bayesiaans raamwerk dat de geometrie van het verlieslandschap analyseert voor singuliere modellen (modellen met niet-identificeerbare parameters, symmetrieën of redundante parametrisatie).

De kernconcepten zijn:

Local Learning Coefficient (LLC) ( $\lambda$ ): Een maat voor de lokale degeneratie (effectieve dimensie) van een oplossing in het parameter-ruimte. Een lagere $\lambda$ impliceert een "vlakker" of meer gedegenereerd bekken.
Bayesiaanse Fase-overgang: SLT voorspelt dat bij voldoende grote datasets ( $n$ ), de posterior-massa zich concentreert in bekkens met de laagste LLC. De "vrije energie" van een bekken wordt asymptotisch gedomineerd door $\lambda \log n$ . Dit betekent dat een bekken met een lagere LLC uiteindelijk een lagere vrije energie heeft en dus de voorkeur krijgt, wat leidt tot een scherpe overgang (fase-overgang) van memorisatie naar generalisatie.

Om dit theoretisch te onderbouwen en te valideren, gebruiken de auteurs een specifiek, goed gestructureerd model:

Model: Twee-laags kwadratische netwerken (quadratic networks) zonder bias-termen.
Taak: Modulair optellen ( $a + b \mod p$ ).
Aanpak: Het paper combineert exacte analytische afleidingen van de LLC voor dit specifieke modeltype met empirische metingen tijdens het trainen.

3. Belangrijkste Bijdragen

A. Gesloten-vorm uitdrukkingen voor de LLC

De auteurs leiden gesloten-vorm formules af voor de LLC in kwadratische netwerken, afhankelijk van of het netwerk onder- of over-gespecificeerd is:

Over-gespecificeerd geval ( $K \geq d(d+1)/2$ ): Waar $K$ de breedte is en $d$ de input-dimensie. De LLC wordt bepaald door de dimensie van de symmetrische matrices die de output bepalen:
$\lambda = p \cdot \frac{d(d+1)}{4}$
(waarbij $p$ het aantal outputs is).
Onder-gespecificeerd geval ( $K < d(d+1)/2$ ): De LLC hangt af van het aantal actieve eenheden en de effectieve breedte:
$\lambda = \frac{K(d + p - 1)}{2}$
Deze formules tonen aan dat verschillende oplossingen (bijv. een "lazy" memorisatie-oplossing versus een "feature-learning" oplossing) fundamenteel verschillende LLC-waarden hebben.

B. Theoretisch Kader voor Grokking

Het paper interpreteert grokking als een fase-overgang tussen concurrerende bekkens:

Fase I (Memorisatie): Het model convergeert naar een bekken met een hogere LLC (vaak een "lazy" regime of NTK-regime waar de features vast staan). Dit bekken heeft een lage trainingsfout maar een hoge verwachte generalisatiefout.
Fase II (Feature Learning): Na verloop van tijd, gedreven door de Bayesiaanse voorkeur voor lagere LLC, schuift het model over naar een bekken met een lagere LLC. Dit bekken correspondeert met een gestructureerde, generaliserende oplossing.
De overgang is abrupt omdat de term $(\lambda_a - \lambda_b) \log n$ in de vrije energie-expansie de overhand krijgt na een kritieke datasetgrootte of trainingsduur.

C. Empirische Validatie en LLC als Voorspeller

De auteurs tonen aan dat de LLC-trajecten, berekend uitsluitend op basis van trainingsdata, nauwkeurig de overgang naar generalisatie voorspellen:

De LLC daalt tijdens de training en bereikt een minimum op het moment dat de validatiefout daalt (generalisatie begint).
Dit bevestigt dat de LLC een betrouwbare maatstaf is voor de geometrische eigenschappen van het verlieslandschap die generalisatie sturen.

4. Resultaten

Theoretische Schaling: De afgeleide formules voor LLC worden empirisch bevestigd. Er is een lineair verband gevonden tussen de LLC en de dimensie van het verborgen laag ( $K$ ) en de input-dimensie ( $p$ ).
Generaliserende Oplossingen zijn niet Uniek: Interessant genoeg neemt de LLC toe met de breedte van het model, zelfs als alle breedtes uiteindelijk generaliseren. Dit suggereert dat bredere modellen niet simpelweg "kleine modellen plus redundante neuronen" zijn; de structuur van de generaliserende oplossing verandert met de breedte.
Invloed van Hyperparameters:
- Leersnelheid (Learning Rate): Er is een negatieve correlatie tussen de leersnelheid en de "grokking-severity" (de vertraging tussen memorisatie en generalisatie). Hogere leersnelheden lijken het model sneller naar een bekken met een lage LLC (hoog degeneratie) te duwen, waardoor grokking minder uitgesproken is.
- Weight Decay: De resultaten tonen aan dat regularisatie de dynamiek beïnvloedt, maar de LLC-trajecten blijven robuust als indicator voor generalisatie.
LLC vs. Validatiefout: De evolutie van de LLC volgt de validatiefout zeer nauwkeurig, zelfs al wordt de LLC alleen berekend op de trainingsdata. Dit ondersteunt het idee dat de lokale geometrie van het trainingsverlies de out-of-sample prestaties bepaalt.

5. Betekenis en Conclusie

Dit werk biedt een rigoureuze theoretische verklaring voor grokking die verder gaat dan empirische observaties. Door SLT toe te passen, wordt grokking niet gezien als een mysterieuze eigenschap van SGD, maar als een voorspelbare Bayesiaanse fase-overgang gedreven door de geometrische complexiteit (LLC) van het verlieslandschap.

Kernpunten van de impact:

Unificatie: Het verbindt het concept van "vlakke minima" met een wiskundig exacte maatstaf (LLC) die invariant is onder herparametrisatie.
Voorspellend Vermogen: De LLC fungeert als een krachtige "probe" voor trainingsdynamiek. Het kan generalisatie voorspellen voordat deze optreedt, puur op basis van de trainingsdata.
Toekomstige Richting: Hoewel de analyse zich richt op vereenvoudigde kwadratische netwerken, suggereert het dat SLT-basisgrootheden essentieel zijn om het gedrag van complexe, over-gespecificeerde modellen (zoals Transformers) te begrijpen. Het opent de weg voor het analyseren van fase-overgangen in bredere contexten van deep learning.

Samenvattend stelt het paper dat grokking het resultaat is van een competitie tussen oplossingsbekkens, waarbij het model uiteindelijk "kies" voor het bekken met de laagste lokale leercoëfficiënt, wat overeenkomt met de meest degeneratieve (en dus het beste generaliserende) oplossing.