Marginals Before Conditionals

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstenaar bent die een enorme verzameling foto's moet leren herkennen. Je hebt een doos met duizenden foto's van verschillende dieren (B), en voor elke foto moet je de naam van het dier (A) raden. Maar hier is de twist: voor elke foto zijn er K mogelijke namen die allemaal even goed lijken. Bijvoorbeeld, voor een foto van een hond zijn er 5 mogelijke namen: "Labrador", "Golden", "Shepherd", "Poodle" en "Bulldog".

Op dit moment is het onmogelijk om de juiste naam te raden zonder extra informatie. De beste gok die je kunt doen, is willekeurig één van de 5 namen te kiezen. Je maakt dus gemiddeld 4 van de 5 keer een fout.

Nu komt er een geheime sleutel (z) bij. Bij elke foto staat een klein labeltje: "Kies optie 3". Als je die sleutel gebruikt, weet je precies welke naam bij die foto hoort. De taak voor het computermodel is dus: eerst de foto zien, dan de sleutel lezen, en daarna de juiste naam geven.

Wat dit paper ontdekt, is hoe een kunstmatige intelligentie (een 'Transformer') dit proces leert. Het gebeurt niet in één keer, maar in twee duidelijke fases, alsof de AI eerst een slechte gewoonte aanleert voordat ze de echte oplossing vindt.

Hier is wat er gebeurt, vertaald naar alledaags taal:

Fase 1: Het "Geduldige" Plateau (De Vaste Fout)

In het begin leert het model heel snel. Het ziet de foto's en begint al snel de juiste groep namen te kennen. Maar omdat het de geheime sleutel (z) nog niet echt begrijpt, blijft het vastzitten in een "plateau".

De Analogie: Stel je voor dat je in een groot, donker labyrint loopt. Je weet dat je in de juiste hal bent (je herkent de foto), maar je kunt de juiste deur niet vinden omdat je de sleutel nog niet gebruikt. Je loopt rondjes in die hal.
Wat er gebeurt: Het model leert dat "voor deze foto zijn er 5 opties". Het leert dus de gemiddelde kans (de marginaal). Het maakt precies evenveel fouten als wiskundig nodig is als je de sleutel negeert. De fouten blijven constant, alsof het model zegt: "Ik kan niet beter, er zijn nu eenmaal 5 opties."
De verrassing: Hoeveel opties er ook zijn (3, 10 of 36), het model blijft even lang in dit plateau hangen als je het aantal voorbeelden in de doos (de dataset) gelijk houdt. Het maakt niet uit of het labyrint 3 of 36 deuren heeft; het duurt even lang om de sleutel te vinden als je maar genoeg foto's hebt om te oefenen.

Fase 2: De "Knal" (Het Moment van Verlichting)

Na duizenden stappen van rondlopen in dat labyrint, gebeurt er iets magisch. Plotseling, bijna in één klap, begint het model de sleutel te gebruiken.

De Analogie: Het is alsof iedereen in het labyrint tegelijkertijd een schok krijgt en plotseling de sleutel in het slot steekt. De deuren vliegen open.
Collectief leren: Het is niet zo dat het model eerst één groep foto's leert, dan de volgende, en dan de volgende. Nee, het is een collectieve sprong. Op een bepaald moment begrijpt het model plotseling het principe van de sleutel. Zodra het dat snapt, werkt het voor alle foto's tegelijk. Het is een "Aha!"-moment voor het hele systeem.

Waarom blijft het zo lang hangen? (De "Entropische Kracht")

Je zou denken dat meer oefening (meer data) of een snellere leersnelheid het proces versnelt. Maar het paper ontdekt iets tegenintuïtiefs:

Ruis helpt niet, het vertraagt: In de wereld van AI-training is er altijd wat "ruis" (willekeurige variatie in de berekeningen). Normaal denk je dat ruis helpt om uit een slechte situatie te komen (zoals een trappetje schudden om een vastzittende deur los te krijgen).
De Analogie: Hier werkt het anders. De "ruis" in het model gedraagt zich als een onzichtbare veer of een zware deken die het model vasthoudt in de veilige, maar foutieve zone. Omdat de fouten in de eerste fase zo gelijkmatig zijn (de "marginaal"), is het voor het model heel moeilijk om die veilige zone te verlaten. De ruis duwt het model juist terug naar de veilige, maar onvolledige oplossing.
Grootte van de dataset: Hoe meer foto's je hebt om te oefenen (hoe groter de dataset), hoe langer het duurt voordat het model de veer doorbreekt en de sleutel gebruikt. Het is alsof je in een groter labyrint meer rondjes moet lopen voordat je de uitgang vindt.

De "Terugwaartse Vloek" (Directionele Asymmetrie)

Het paper vergelijkt ook twee richtingen:

Foto -> Naam + Sleutel: Dit is de moeilijke richting (zoals hierboven beschreven).
Naam + Sleutel -> Foto: Dit is de makkelijke richting.

Het model leert de moeilijke richting (Foto -> Naam) veel trager dan de makkelijke richting.

De Analogie: Het is makkelijker om te onthouden: "Als ik een sleutel heb, weet ik welke foto bij welke naam hoort." Maar het is heel lastig om te onthouden: "Als ik een foto zie, welke sleutel hoort erbij?" De structuur van de foto's helpt het model om de sleutel te vinden, maar zonder die structuur moet het elke combinatie uit het hoofd leren, wat veel trager gaat.

Samenvatting in één zin

Dit paper laat zien dat AI-modellen eerst leren wat ze gemiddeld moeten doen (een veilige, maar onvolledige oplossing), en dat ze daar vastzitten door een soort "wiskundige zwaartekracht" van de ruis in hun eigen berekeningen, totdat ze plotseling collectief de echte oplossing vinden, waarbij het aantal voorbeelden (niet de moeilijkheid van de puzzel) bepaalt hoe lang ze moeten wachten.

Het is een fascinerend bewijs dat leren niet altijd een gladde lijn is, maar een proces van wachten, vastzitten, en dan plotseling doorbreken.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Marginals Before Conditionals: Staged Disambiguation in Gradient-Trained Transformers" in het Nederlands.

Titel: Marginals Before Conditionals: Gestructureerde Ondubbelzinnigheid in Gradient-Getrainde Transformers

Auteur: Mihir Sahasrabudhe (University of Illinois Urbana-Champaign)

1. Probleemstelling

Neurale netwerken leren gestructureerde taken vaak in fasen, waarbij er een vertraging optreedt tussen het memoriseren van data en het generaliseren van patronen (een fenomeen dat bekend staat als "grokking"). Echter, een specifiek type overgang is nog niet volledig begrepen: de verschuiving van marginaal naar conditioneel leren.

In veel scenario's kunnen modellen een verdeling $P(A|B)$ leren (waarbij $B$ een input is en $A$ een output), maar falen ze om een extra selector-token $z$ te gebruiken om de ambiguïteit op te lossen, zelfs als $z$ de oplossing volledig bepaalt ( $P(A|B, z) = 0$ ). Dit artikel onderzoekt waarom modellen eerst de marginale verdeling leren (en daarop "stagnëren") en pas later, na een lange wachttijd, de volledige conditionele relatie leren. Dit wordt in verband gebracht met het "reversal curse" en directionele asymmetrieën in taalmodellen.

2. Methodologie en Opzet

De auteur heeft een minimaal, gecontroleerd taakontwerp ("windtunnel") gecreëerd om dit proces te isoleren:

De Taak: Een surjectieve afbeelding waarbij een basisstring $B$ $B$ (6 tekens) correspondeert met $K$ $K$ verschillende doelen $A$ $A$ (4 tekens). Er is een selector-token $z$ $z$ (2 tekens) die aangeeft welk van de $K$ $K$ doelen de juiste is.
- Zonder $z$ is de entropie $H(A|B) = \log K$ .
- Met $z$ is de entropie $H(A|B, z) = 0$ .
- De dataset omvat $D = n_b \times K$ unieke voorbeelden.
Model: Een 4-laags Transformer (600K parameters) getraind met AdamW.
Diagnostiek:
- Verlies (Loss): Wordt gevolgd van $\log K$ naar 0.
- $\Delta_z$ (Z-shuffle gap): Een metriek die meet of het model daadwerkelijk gebruikmaakt van $z$ . Als het model $z$ negeert, is $\Delta_z = 0$ . Zodra het model $z$ begint te gebruiken, stijgt $\Delta_z$ significant.
- Wachttijd ( $\tau$ ): Het aantal stappen totdat het verlies daalt tot onder 50% van $\log K$ .

3. Belangrijkste Bevindingen en Resultaten

A. Twee Fasen van Leren

Elke training met $K > 1$ vertoont twee duidelijke regimes:

Het Plateau: Het model convergeert snel (binnen enkele honderden stappen) naar een verlies van precies $\log K$ . Op dit punt negeert het de selector $z$ volledig en leert het de uniforme verdeling over de mogelijke kandidaten.
De Scherpe Overgang: Na duizenden stappen treedt er een collectieve, scherpe overgang op waarbij het verlies plotseling naar nul daalt. Het model leert dan plotseling de selector $z$ te gebruiken.

B. Duur van het Plateau: Datasetgrootte vs. Ambiguïteit

Een cruciale ontdekking is wat de duur van het plateau ( $\tau$ ) bepaalt:

Onafhankelijk van $K$ : De complexiteit van de ambiguïteit (het aantal kandidaten $K$ ) heeft geen invloed op de wachttijd, zolang de datasetgrootte $D$ constant wordt gehouden.
Afhankelijk van $D$ : De wachttijd wordt uitsluitend bepaald door de totale datasetgrootte $D$ .
Schaalwet: Er is een superlineaire schaalwet gevonden: $\tau \propto D^{1.19}$ . Dit betekent dat het optimizeren van meer voorbeelden (zelfs als de ambiguïteit per voorbeeld gelijk blijft) de overgang vertraagt.

C. Collectieve "Snap" (Schok)

De overgang is niet incrementeel (waarbij groepen één voor één worden opgelost), maar collectief:

Op het halve tijdstip ( $\tau/2$ ) heeft geen enkel van de 200 geteste groepen een nauwkeurigheid van >80%.
Binnen een zeer smal tijdsvenster (ongeveer $0.5\tau$) "snappen" alle groepen tegelijkertijd naar hoge nauwkeurigheid. Dit suggereert dat een gedeelde interne schakeling (circuit) tegelijkertijd operationeel wordt voor de hele dataset.

D. Entropische Stabilisatie

Waarom blijft het model zo lang hangen in het marginale optimum?

Gradient Noise als Kracht: Het plateau wordt gestabiliseerd door gradient noise (ruis in de gradiënten). In plaats van de ruis het model te helpen ontsnappen uit een lokaal minimum, werkt de ruis als een entropische kracht die het model terugduwt naar het marginale plateau.
Bewijs:
- Batch Size: Kleinere batches (meer ruis) vertragen de overgang (1.8x vertraging in tokens).
- Learning Rate (LR): Hogere LR (meer ruis/stapgrootte) vertraagt de overgang monotoon (3.6x vertraging).
- Dit is in tegenspraak met de theorie van "barrière-oversteken" (waarbij meer ruis zou helpen) en ondersteunt het idee dat het marginale plateau een "val" is die door ruis wordt versterkt.

E. Interne Mechanismen

Circuit Vorming: Een "selector-routing head" (specifiek head L0H3) begint zich te vormen tijdens het plateau, lang voordat het verlies daalt. Deze head leidt de verliesdaling met ongeveer 50% van de wachttijd.
Geometrie: Het plateau is een zadelpunt (saddle point), geen lokaal minimum. De Hessian-matrix toont extreme anisotropie: de richting van ontsnapping is 500-1000x vlakker dan de dominante kromming. De gradient noise projecteert voornamelijk op de steile (niet-ontsnappings) richtingen, waardoor het moeilijk wordt om de vlakke ontsnappingsrichting te vinden.

F. Directionele Asymmetrie

Het artikel vergelijkt de taak $(B, z) \to A$ (achterwaarts, met groepstructuur) met $A \to B$ (voorwaarts, zonder groepstructuur).

De voorwaartse taak is 1.7x tot 4.4x langzamer om te leren.
Dit bevestigt het "reversal curse": modellen hebben moeite om inverse relaties te leren als de groepstructuur (die hergebruik van circuits mogelijk maakt) ontbreekt.

4. Bijdragen

Gecontroleerde Taak: Een exacte, informationeel gedefinieerde benchmark om conditioneel leren te bestuderen.
Decompositie van het Plateau: Het bewijs dat de hoogte van het plateau wordt bepaald door ambiguïteit ( $\log K$ ) en de duur door datasetgrootte ( $D$ ).
Collectieve Dynamiek: Het aantonen dat de overgang een collectief, niet-incrementeel proces is.
Entropische Stabilisatie: Empirisch bewijs dat gradient noise het marginale plateau stabiliseert in plaats van eruit te helpen.
Mechanistische Inzicht: Identificatie van de interne "selector-routing head" die de overgang voorafgaat.

5. Significatie en Implicaties

Dit onderzoek biedt een dieper inzicht in hoe Transformer-modellen complexe relaties leren. Het suggereert dat:

Modellen eerst "veilige" marginale oplossingen kiezen en pas later, onder specifieke omstandigheden (collectieve alignering), de complexere conditionele logica ontgrendelen.
De "reversal curse" en andere asymmetrieën in taalmodellen mogelijk voortkomen uit het gebrek aan gedeelde groepstructuren die het leren versnellen.
De rol van gradient noise subtieler is dan gedacht; het kan fungeren als een stabiliserende kracht die het leren van conditionele patronen vertraagt.

De auteurs concluderen dat dit fenomeen een fundamenteel aspect is van de optimalisatiedynamiek in niet-lineaire netwerken en dat het begrijpen van deze "metastabiele regimes" essentieel is voor het versnellen van het leren van conditionele taken.