The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Each language version is independently generated for its own context, not a direct translation.

De Lange Wacht tot het Wiskundige "Aha!"-moment: Waarom een Model Kan Rekenen, maar Niet Kan Vertellen

Stel je voor dat je een slimme student hebt die een moeilijke wiskundetoets moet maken. Deze student heeft een brein (de encoder) en een mond (de decoder). Het probleem is dat het brein de oplossing al lang geleden heeft gevonden, maar de mond blijft stotteren en zegt niets zinnigs. Pas na heel lang wachten begint de mond eindelijk mee te komen met wat het brein al weet.

Dit is precies wat onderzoekers ontdekten bij kunstmatige intelligentie (AI) die wiskundige taken leert. Dit fenomeen noemen ze "Grokking": een plotselinge, abrupte sprong in prestaties na een lange periode van niets doen.

Deze paper van Laura Gomezjurado (Stanford) legt uit waarom die lange wachttijd bestaat. Hier is de uitleg in simpele taal:

1. Het Brein is Slim, de Mond is Verward

De AI moest een specifieke wiskunderegel leren (de Collatz-regel: als het getal even is, deel door 2; als het oneven is, vermenigvuldig met 3 en tel 1 op).

Wat ze vonden: Het "brein" van de AI (de encoder) leerde de wiskundige structuur al binnen de eerste paar duizend stappen. Het wist precies of een getal even of oneven was.
Het probleem: De "mond" (de decoder) kon die kennis niet omzetten in het juiste antwoord. Het antwoord bleef willekeurig, alsof de AI giswerk deed.
De analogie: Het is alsof je een chef-kok hebt die perfect weet hoe je een taart moet bakken (het brein), maar de persoon die de taart moet presenteren (de mond) blijft de taart in de oven laten staan of verbrandt hem. De kennis is er, maar de uitvoering faalt.

2. Het Experiment: De "Transplantatie"

Om te bewijzen dat het probleem bij de mond lag en niet bij het brein, deden de onderzoekers een soort "organtransplantatie":

Scenario A: Ze namen een getraind brein (dat de wiskunde al kende) en koppelden het aan een nieuwe, frisse mond.
- Resultaat: De AI begon 2,75 keer sneller te leren en gaf direct goede antwoorden. Het brein had de kennis al, de nieuwe mond hoefde alleen maar te leren hoe hij die kennis moest gebruiken.
Scenario B: Ze namen een getrainde mond en koppelden die aan een nieuw, leeg brein.
- Resultaat: Dit hielp niet. De AI bleef stotteren.
Conclusie: De lange wachttijd is geen teken dat de AI niet leert. Het is een teken dat de AI al heeft geleerd, maar de "uitvoer" (het antwoord geven) nog niet op gang is gekomen.

3. De Taal van de Getallen: Waarom Basis 2 Faalt

Een ander fascinerend punt is dat de manier waarop we getallen schrijven (de "basis") enorm belangrijk is voor hoe makkelijk het is om het antwoord te geven.

Basis 10 of 24: In deze systemen werken de wiskundige regels lokaal. Je kunt het antwoord vaak afleiden van de laatste cijfers. Het is als lezen in een taal waar de zinsbouw logisch is. De AI kon hier bijna perfect presteren (99%+).
Basis 2 (Binair): Hier faalde de AI volledig. In het binaire systeem (alleen 0 en 1) is de wiskundige regel erg lastig om lokaal te lezen; je moet naar heel veel cijfers kijken om het antwoord te vinden.
- De analogie: Het is alsof je probeert een verhaal te vertellen in een taal waar de zinnen willekeurig door elkaar staan. Het brein probeerde het te onthouden (memoriseren), maar toen het probeerde te generaliseren, stortte het ineen. De "mond" kon de complexe structuur van de binaire taal niet verwerken.

4. Waarom is dit belangrijk?

Vroeger dachten mensen dat als een AI lang stagneerde, het gewoon "niet leerde". Deze paper toont aan dat het anders zit:

Kennis komt eerst, gedrag later: De AI bouwt een intern model van de wereld lang voordat het dat kan laten zien.
Het is een vertaalprobleem: Het grootste obstakel is niet het begrijpen van de wiskunde, maar het vertalen van die complexe interne kennis naar een simpel antwoord.
De keuze van het systeem telt: Hoe we getallen voorstellen (de basis), bepaalt of de AI het überhaupt kan leren. Het is een "inductieve bias": een voorkeur die bepaalt hoe makkelijk of moeilijk het is om iets te leren.

Samenvatting in één zin

Deze studie laat zien dat AI-modellen vaak al lang voordat ze het kunnen laten zien, de oplossing hebben gevonden; de echte uitdaging is niet het leren van de wiskunde, maar het vertalen van die wiskunde naar een antwoord dat we kunnen begrijpen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het paper onderzoekt het fenomeen "grokking" in transformers die zijn getraind op algoritmische taken. Grokking wordt gekenmerkt door een lange periode waarin het model goed presteert op de trainingsset maar faalt in generalisatie (testset), gevolgd door een plotselinge, abrupte sprong in prestaties. Hoewel dit fenomeen bekend is, is de oorzaak van deze vertraging onduidelijk. Bestaande theorieën suggereren dat het model tijdens het plateau geen nuttige structuren leert, of juist dat het deze structuren wel leert maar ze niet kan gebruiken.

De auteurs focussen op encoder-decoder modellen voor wiskundige taken, specifiek de één-staps Collatz-predictie. Het centrale vraagstuk is: Is de vertraging in generalisatie het gevolg van een late vorming van wiskundige structuren in de encoder, of van een late "lezing" (readout) van structuren die al aanwezig zijn?

Methodologie

De auteurs gebruiken een gecontroleerde experimentele opstelling met de volgende componenten:

Taak: Één-staps Collatz-predictie. Gegeven een geheel getal $n$ in een bepaalde basis $b$ , moet het model $T(n)$ voorspellen, waarbij $T(n) = n/2$ (als $n$ even is) en $T(n) = 3n+1$ (als $n$ oneven is).
Architectuur: Een encoder-decoder transformer. De encoder verwerkt de invoer (cijfers van $n$ ) en de decoder genereert autoregressief de uitvoer (cijfers van $T(n)$ ).
Experimenten:
- Probing: Lineaire probes worden getraind op de verborgen states van de encoder om te testen of informatie (zoals pariteit of restklassen) al vroeg lineair decodable is, zelfs als de output-accuraatheid laag is.
- Causale Interventies (Transplantatie):
  - Encoder transplant: Een getrainde encoder wordt bevroren en gekoppeld aan een nieuwe decoder.
  - Decoder transplant: Een getrainde decoder wordt bevroren en gekoppeld aan een nieuwe encoder.
  - Decoder rewind: De encoder wordt bevroren, de decoder wordt teruggezet naar een vroeg checkpoint en opnieuw getraind.
- Parity Erasure: De geleerde pariteitsrichting wordt uit de encoder-states verwijderd tijdens inferentie om de afhankelijkheid van de decoder van deze informatie te meten.
- Basis-sweep: Training op 15 verschillende numerieke bases (o.a. 2, 8, 10, 24) om te zien hoe numerieke representatie de leerbaarheid beïnvloedt.
- Transfer Learning: Testen of een encoder getraind op Collatz nuttig is voor een andere taak (GCD-predictie).

Belangrijkste Bijdragen en Resultaten

1. De Encoder leert structuren lang voordat de output verbetert

De resultaten tonen aan dat de encoder zeer snel wiskundige structuren leert, terwijl de modeloutput nog jarenlang (in trainingstappen) op willekeurige niveau's blijft.

Pariteit: Een lineaire probe voor pariteit ( $n \mod 2$ ) bereikt 99,7% accurate binnen de eerste 2.000 stappen. Op dat moment is de sequentie-accuraatheid van het model echter nog slechts 38%.
Restklassen: Ook fijnere structuren (modulo 4, 8, 16) worden vroeg in de encoder decodable.
Conclusie: Er bestaat een groot "shadow knowledge gap": informatie is beschikbaar in de encoder, maar de decoder kan deze niet vertalen naar een correcte output.

2. De Bottleneck ligt bij de Decoder (Readout)

Causale interventies bevestigen dat de vertraging voornamelijk een probleem van de decoder is, niet van de encoder.

Encoder Transplant: Het overnemen van een getrainde encoder naar een nieuwe decoder versnelt het grokking-proces met een factor 2,75x en leidt tot een hogere eindaccuraatheid (92,4% vs 86,1% voor joint training).
Decoder Transplant: Het overnemen van een getrainde decoder naar een nieuwe encoder helpt niet; de prestaties dalen zelfs.
Decoder Rewind: Als men een converged encoder vasthoudt en de decoder terugzet naar een vroeg stadium, verdwijnt het plateau bijna volledig. De decoder bereikt direct verbetering en convergeert naar 97,6% accurate, terwijl joint training slechts 86,1% haalt.
Parity Erasure: Het verwijderen van de pariteitsinformatie uit de encoder heeft het grootste negatieve effect tijdens het plateau, wat suggereert dat de decoder in deze fase afhankelijk is van simpele lineaire cues die later worden vervangen door robuustere mechanismen.

3. Numerieke Basis als Inductieve Bias

De keuze van de numerieke basis (hoe getallen worden getoond) heeft een enorme invloed op hoe moeilijk de taak voor de decoder is.

Basis 2 (Binair): Het model faalt volledig. Na een korte memorisatiefase stort de prestatie in naar 0% en herstelt niet. De representaties in de encoder "collapsen" (intra-structuur dimensie daalt van 5,2 naar 1,0). De decoder heeft geen bruikbare lokale structuur om op te bouwen.
Basis 8, 10, 24: Deze bases bereiken bijna perfecte accurate (99,8% voor basis 24).
Mechanisme: In even bases is de $n/2$ -tak lokaal berekenbaar (look-ahead van één cijfer). De $3n+1$ -tak vereist echter carry-propagatie. Bases die zowel deelbaar zijn door 2 als 3 (zoals 6, 12, 18, 24) faciliteren de carry-oplossing sneller, waardoor de decoder de taak makkelijker leert.
Conclusie: De numerieke basis fungeert als een inductieve bias die bepaalt hoeveel lokale cijferstructuur de decoder kan benutten.

4. Cross-task Transfer is Slecht

Een encoder getraind op Collatz werkt slecht als initiatie voor GCD-predictie (en vice versa). Dit suggereert dat de geleerde representaties sterk gekoppeld zijn aan de specifieke input-formaat en taakstructuur, en niet noodzakelijk een universeel "wiskundig primitief" vormen dat direct overdraagbaar is tussen verschillende algoritmische taken.

Significantie en Conclusie

Dit paper biedt een cruciale nuancering in het begrip van generalisatie in deep learning:

Kennis vs. Toegang: Grokking is in deze context niet een verhaal over het ontbreken van kennis, maar over de toegang tot die kennis. De encoder leert de wiskunde snel, maar de decoder worstelt er lang mee om deze kennis efficiënt te gebruiken.
Rol van Representatie: De manier waarop data wordt gepresenteerd (bijv. numerieke basis) is niet slechts een formatieke keuze, maar een fundamentele factor die bepaalt of een model een taak überhaupt kan leren. Een slechte representatie kan leiden tot representatieve collaps en falen, zelfs als de onderliggende wiskunde simpel is.
Architecturale Splitsing: Het onderscheid tussen encoder (representatievorming) en decoder (lezing) is essentieel om de dynamiek van grokking te begrijpen. De bottleneck ligt vaak in de laatste stap van het proces.

Samenvattend stelt het paper dat learned representations kunnen "voorlopen" op het gedrag, en dat het begrijpen van deze kloof essentieel is voor het ontwikkelen van robuustere en sneller lerende wiskundige modellen.