Marginals Before Conditionals

Dit artikel toont aan dat neurale netwerken bij het leren van conditionele relaties eerst een marginaal plateau bereiken dat wordt gestabiliseerd door gradiëntruis, voordat ze een scherpe collectieve overgang maken naar volledige conditionele kennis.

Mihir Sahasrabudhe

Gepubliceerd 2026-03-12
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstenaar bent die een enorme verzameling foto's moet leren herkennen. Je hebt een doos met duizenden foto's van verschillende dieren (B), en voor elke foto moet je de naam van het dier (A) raden. Maar hier is de twist: voor elke foto zijn er K mogelijke namen die allemaal even goed lijken. Bijvoorbeeld, voor een foto van een hond zijn er 5 mogelijke namen: "Labrador", "Golden", "Shepherd", "Poodle" en "Bulldog".

Op dit moment is het onmogelijk om de juiste naam te raden zonder extra informatie. De beste gok die je kunt doen, is willekeurig één van de 5 namen te kiezen. Je maakt dus gemiddeld 4 van de 5 keer een fout.

Nu komt er een geheime sleutel (z) bij. Bij elke foto staat een klein labeltje: "Kies optie 3". Als je die sleutel gebruikt, weet je precies welke naam bij die foto hoort. De taak voor het computermodel is dus: eerst de foto zien, dan de sleutel lezen, en daarna de juiste naam geven.

Wat dit paper ontdekt, is hoe een kunstmatige intelligentie (een 'Transformer') dit proces leert. Het gebeurt niet in één keer, maar in twee duidelijke fases, alsof de AI eerst een slechte gewoonte aanleert voordat ze de echte oplossing vindt.

Hier is wat er gebeurt, vertaald naar alledaags taal:

Fase 1: Het "Geduldige" Plateau (De Vaste Fout)

In het begin leert het model heel snel. Het ziet de foto's en begint al snel de juiste groep namen te kennen. Maar omdat het de geheime sleutel (z) nog niet echt begrijpt, blijft het vastzitten in een "plateau".

  • De Analogie: Stel je voor dat je in een groot, donker labyrint loopt. Je weet dat je in de juiste hal bent (je herkent de foto), maar je kunt de juiste deur niet vinden omdat je de sleutel nog niet gebruikt. Je loopt rondjes in die hal.
  • Wat er gebeurt: Het model leert dat "voor deze foto zijn er 5 opties". Het leert dus de gemiddelde kans (de marginaal). Het maakt precies evenveel fouten als wiskundig nodig is als je de sleutel negeert. De fouten blijven constant, alsof het model zegt: "Ik kan niet beter, er zijn nu eenmaal 5 opties."
  • De verrassing: Hoeveel opties er ook zijn (3, 10 of 36), het model blijft even lang in dit plateau hangen als je het aantal voorbeelden in de doos (de dataset) gelijk houdt. Het maakt niet uit of het labyrint 3 of 36 deuren heeft; het duurt even lang om de sleutel te vinden als je maar genoeg foto's hebt om te oefenen.

Fase 2: De "Knal" (Het Moment van Verlichting)

Na duizenden stappen van rondlopen in dat labyrint, gebeurt er iets magisch. Plotseling, bijna in één klap, begint het model de sleutel te gebruiken.

  • De Analogie: Het is alsof iedereen in het labyrint tegelijkertijd een schok krijgt en plotseling de sleutel in het slot steekt. De deuren vliegen open.
  • Collectief leren: Het is niet zo dat het model eerst één groep foto's leert, dan de volgende, en dan de volgende. Nee, het is een collectieve sprong. Op een bepaald moment begrijpt het model plotseling het principe van de sleutel. Zodra het dat snapt, werkt het voor alle foto's tegelijk. Het is een "Aha!"-moment voor het hele systeem.

Waarom blijft het zo lang hangen? (De "Entropische Kracht")

Je zou denken dat meer oefening (meer data) of een snellere leersnelheid het proces versnelt. Maar het paper ontdekt iets tegenintuïtiefs:

  • Ruis helpt niet, het vertraagt: In de wereld van AI-training is er altijd wat "ruis" (willekeurige variatie in de berekeningen). Normaal denk je dat ruis helpt om uit een slechte situatie te komen (zoals een trappetje schudden om een vastzittende deur los te krijgen).
  • De Analogie: Hier werkt het anders. De "ruis" in het model gedraagt zich als een onzichtbare veer of een zware deken die het model vasthoudt in de veilige, maar foutieve zone. Omdat de fouten in de eerste fase zo gelijkmatig zijn (de "marginaal"), is het voor het model heel moeilijk om die veilige zone te verlaten. De ruis duwt het model juist terug naar de veilige, maar onvolledige oplossing.
  • Grootte van de dataset: Hoe meer foto's je hebt om te oefenen (hoe groter de dataset), hoe langer het duurt voordat het model de veer doorbreekt en de sleutel gebruikt. Het is alsof je in een groter labyrint meer rondjes moet lopen voordat je de uitgang vindt.

De "Terugwaartse Vloek" (Directionele Asymmetrie)

Het paper vergelijkt ook twee richtingen:

  1. Foto -> Naam + Sleutel: Dit is de moeilijke richting (zoals hierboven beschreven).
  2. Naam + Sleutel -> Foto: Dit is de makkelijke richting.

Het model leert de moeilijke richting (Foto -> Naam) veel trager dan de makkelijke richting.

  • De Analogie: Het is makkelijker om te onthouden: "Als ik een sleutel heb, weet ik welke foto bij welke naam hoort." Maar het is heel lastig om te onthouden: "Als ik een foto zie, welke sleutel hoort erbij?" De structuur van de foto's helpt het model om de sleutel te vinden, maar zonder die structuur moet het elke combinatie uit het hoofd leren, wat veel trager gaat.

Samenvatting in één zin

Dit paper laat zien dat AI-modellen eerst leren wat ze gemiddeld moeten doen (een veilige, maar onvolledige oplossing), en dat ze daar vastzitten door een soort "wiskundige zwaartekracht" van de ruis in hun eigen berekeningen, totdat ze plotseling collectief de echte oplossing vinden, waarbij het aantal voorbeelden (niet de moeilijkheid van de puzzel) bepaalt hoe lang ze moeten wachten.

Het is een fascinerend bewijs dat leren niet altijd een gladde lijn is, maar een proces van wachten, vastzitten, en dan plotseling doorbreken.