Geometric Scaling of Bayesian Inference in LLMs

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een groot taalmodel (zoals een slimme chatbot) een enorme bibliotheek is vol met boeken. De vraag die deze drie wetenschappers zich stellen, is: Hoe denkt die bibliotheek eigenlijk?

In de eerste twee delen van hun onderzoek ("De Trilogie") ontdekten ze dat kleine, kunstmatige modellen die werden getraind op simpele puzzels, een heel specifieke manier van denken ontwikkelen die lijkt op Bayesiaanse inferentie. Dat is een wiskundige manier van redeneren waarbij je je mening (je "geloof") steeds bijwerkt als je nieuwe bewijzen krijgt.

Ze ontdekten dat deze modellen een soort mentale landkaart bouwen:

De Landkaart (Waarden): Alle mogelijke antwoorden liggen op een lijn. Hoe onzeker het model is, hoe verder het op die lijn staat.
De Kompasnaalden (Sleutels): Het model heeft speciale "naalden" die verschillende hypotheses (mogelijke antwoorden) van elkaar scheiden, zodat ze niet in de war raken.
De Zoeklicht (Aandacht): Het model verlicht steeds specifieker de juiste plek op de kaart naarmate het meer bewijzen ziet.

Het grote vraagstuk in dit nieuwe paper:
Dit werkt mooi in de "windtunnel" (simpele, kunstmatige puzzels). Maar gebeurt dit ook in de echte wereld, met de enorme, chaotische modellen die we nu gebruiken (zoals Llama, Mistral, Phi-2)? Of is dat alleen een trucje voor kleine proefjes?

Hier is wat ze ontdekten, vertaald naar alledaagse taal:

1. De "Landkaart" blijft bestaan, zelfs in het chaos

De onderzoekers keken naar vier verschillende grote modellen. Ze ontdekten dat deze modellen, net als de kleine proefmodellen, ook die speciale mentale landkaart hebben.

De Analogie: Stel je voor dat je een grote stad bezoekt. In de "windtunnel" was het alsof je alleen door een rechte, lege straat liep. In de echte wereld is het een drukke stad met duizenden straten.
De Verrassing: Als je de modellen vraagt om alleen over één onderwerp te praten (bijvoorbeeld alleen wiskunde, geen overgang naar koken of poëzie), dan "klapt" die drukke stad ineens samen tot die ene rechte straat. De modellen weten precies hoe ze die landkaart moeten gebruiken als de context duidelijk is.

2. Bewijzen verplaatsen je op de kaart

Ze deden een experiment (genaamd SULA). Ze gaven de modellen een reeks hints in de tekst, zoals: "Dit woord is positief, dit woord is negatief..."

Wat er gebeurde: Naarmate het model meer hints kreeg, bewogen de interne getallen van het model gladjes over die landkaart in de richting van het juiste antwoord.
De Metaphor: Het is alsof je een kompas hebt. Als je meer informatie krijgt, draait de naald niet wild rond, maar beweegt hij rustig en logisch naar het noorden. Dit bewijst dat de modellen tijdens het praten daadwerkelijk hun "overtuiging" bijwerken, net als een mens die redeneert.

3. Niet alle modellen zijn even goed in "schijnen"

Hier wordt het interessant. Hoewel de landkaart (de structuur) in alle modellen aanwezig is, is de manier waarop ze de zoeklichten (aandacht) gebruiken verschillend:

De "Perfecte" Modellen (zoals Phi-2): Deze hebben een heel helder kompas en een scherp zoeklicht. Ze weten precies waar ze moeten kijken. Dit komt omdat ze zijn getraind op zeer schone, hoogwaardige teksten (zoals schoolboeken).
De "Efficiënte" Modellen (zoals Llama of Mistral): Deze zijn ontworpen om sneller en goedkoper te zijn. Ze hebben de landkaart nog steeds, maar hun zoeklicht is wat waziger of beweegt minder soepel.
- Vergelijking: Het is alsof je een dure, professionele camera hebt (Phi-2) versus een slimme smartphone-camera (Llama/Mistral). Beide maken foto's van hetzelfde landschap (de landkaart), maar de smartphone gebruikt slimme software om het beeld te stabiliseren, terwijl de professionele camera het puur op hardware doet. De smartphone is iets minder scherp in de details, maar doet het werk wel.

4. Wat gebeurt er als je de "Landkaart" verwijdert?

De onderzoekers deden een experiment waarbij ze de specifieke lijn op de landkaart (die de onzekerheid aangeeft) tijdelijk "uitzetten" in het model.

Het resultaat: De landkaart zelf verdween (het model wist niet meer waar het stond), maar het model bleef vrijwel even goed antwoorden geven.
De Les: De landkaart is niet de motor die het redeneren aandrijft; het is meer een dashboard of een spiegel. Het toont aan hoe onzeker het model is, maar het model kan het werk ook doen zonder dat we die specifieke spiegel kunnen zien. De "intelligentie" zit verspreid over het hele systeem, niet op één plek.

Conclusie: Waarom is dit belangrijk?

Dit paper zegt ons iets heel geruststellends over hoe AI werkt:
Ondanks dat deze enorme modellen getraind zijn op het hele internet (met al zijn rommel en tegenstrijdigheden), hebben ze toch een onderliggende, stabiele structuur ontwikkeld die lijkt op hoe mensen redeneren. Ze bouwen een mentale landkaart van onzekerheid en gebruiken die om nieuwe informatie te verwerken.

Het is alsof je ontdekt dat, hoe chaotisch een stad ook lijkt, er toch een ondergrondse metrolijn is die alles verbindt. Zolang je weet hoe die lijn werkt (de geometrie), kun je begrijpen hoe het model "denkt", zelfs als het antwoord niet perfect is.

Kort samengevat:
Grote taalmodellen zijn niet alleen maar statistische kattenbakken die woorden voorspellen. Ze hebben een geometrische ziel: ze bouwen een kaart van hun eigen twijfels en gebruiken die kaart om logisch te redeneren, net zoals wij dat doen. En dat werkt zelfs in de echte, rommelige wereld.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Geometric Scaling of Bayesian Inference in LLMs" (Paper III van de Bayesian Attention Trilogy), vertaald en samengevat in het Nederlands.

1. Probleemstelling en Context

Grote Taalmodellen (LLMs) presteren indrukwekkend op diverse taken, maar hun interne berekeningen zijn slechts gedeeltelijk begrepen. Een centrale vraag is of transformers louter statistische associaties benaderen of of ze geordende vormen van probabilistische inferentie (Bayesiaanse inferentie) implementeren.

De voorgaande papers in deze trilogie (Paper I en II) vestigden dat kleine transformers, getraind in gecontroleerde "Bayesiaanse windtunnel"-omgevingen met bekende posteriors, exacte Bayesiaanse inferentie kunnen uitvoeren. Dit gebeurt via drie inferentie-primitieven:

Geloofsaccumulatie: Het integreren van bewijs in een lopende posterior.
Geloofstransport: Het propageren van geloof via stochastische dynamiek.
Random-access binding: Het ophalen van hypothesen op basis van inhoud.

Paper II toonde aan dat gradient descent deze primitieven leert door een karakteristieke geometrie te vormen:

Laag-dimensionale waarde-manifolds (value manifolds) geordend naar voorspellingsentropie.
Orthogonale sleutels (keys) die hypotheserichtingen definiëren.
Progressieve attention-focussing die een geometrische Bayes-regel implementeert.

Het centrale probleem van dit paper: Bestaan deze specifieke geometrische structuren ook in productie-grade LLMs (zoals Pythia, Phi-2, Llama-3, Mistral) die getraind zijn op heterogene natuurlijke taal, waar geen "ground-truth" posteriors beschikbaar zijn?

2. Methodologie

De auteurs testen of de geometrische "substraat" (de onderliggende structuur) behouden blijft in grote modellen, zonder te claimen dat deze modellen exacte posteriors berekenen voor natuurlijke taal.

Modellen:
Er zijn vier model-families geanalyseerd met verschillende architecturen en trainingsregimes:

Pythia-410M: Standaard Multi-Head Attention (MHA), getraind op het Pile-corpus.
Phi-2: Standaard MHA, getraind op curateerde (boek/kwaliteit) data.
Llama-3.2-1B: Grouped-Query Attention (GQA), getraind op web-data.
Mistral-familie: GQA met sliding-window attention en MoE (Mixture of Experts).

Experimentele Protocollen:

Geometrische Extractie:
- Waarde-manifolds: PCA wordt toegepast op de vectorrepresentaties van de laatste token in de laatste laag. De auteurs meten hoeveel variantie wordt verklaard door de eerste hoofdcomponenten (PC1, PC2).
- Sleutel-orthogonaliteit: De hoek tussen kolommen van de key-projectiematrices ( $W_K$ ) wordt gemeten. Een lage cosine-afstand wijst op geordende hypotheserichtingen.
- Attention-entropie: De entropie van de attention-weights wordt per laag gemeten om te zien of deze afneemt (focussing) naarmate de diepte toeneemt.
Domein-restrictie (Domain Restriction):
- Vergelijking tussen prompts uit gemengde domeinen (wiskunde, code, filosofie, etc.) en prompts uit één specifiek domein (alleen wiskunde). Dit dient als een "interventie" om te zien of de manifold naar een 1D-structuur instort (zoals in windtunnel-experimenten).
In-Context Learning Taak (SULA):
- Een gecontroleerde taak (Synthetic Unary Likelihood Augmentation) waarbij modellen symbolisch bewijs krijgen (bijv. "woord X is positief").
- De analytische Bayesiaanse posterior is hier exact berekenbaar. De auteurs kijken of de modelrepresentaties zich langs de entropie-georiënteerde as bewegen naarmate er meer bewijs wordt toegevoegd.
Causale Interventies:
- Op Pythia-410M wordt de "entropie-as" (de PC1-richting die correleert met onzekerheid) actief verwijderd of verstoord tijdens de forward pass. Dit wordt vergeleken met een willekeurige as om te testen of deze geometrie causaal noodzakelijk is voor het inferentiegedrag.

3. Belangrijkste Resultaten

A. Behoud van Bayesiaanse Geometrie op Schaal

De studie bevestigt dat de geometrische structuren gevonden in synthetische omgevingen ook aanwezig zijn in productie-modellen:

Waarde-manifolds: Alle modellen tonen laag-dimensionale structuren. Bij gemengde prompts varieert de dimensie (van ~15% in Mistral tot ~100% in Pythia-410M), maar bij domein-restricted prompts stort de manifold bijna altijd samen naar 1 of 2 hoofdcomponenten (PC1+PC2 ≈ 70–95%). Dit komt overeen met de windtunnel-resultaten.
Sleutel-orthogonaliteit: Getrainde modellen vertonen een gestructureerde orthogonaliteit in de key-matrices (gemiddelde off-diagonal cosine tussen 0.03 en 0.18), wat aanzienlijk beter is dan willekeurige initiatie (0.35–0.45) of Gaussische baselines.
Attention Focussing: De entropie van attention neemt af naarmate de laag dieper gaat, wat wijst op het verfijnen van de posterior.

B. Functionele Alignering met Onzekerheid (SULA)

In de SULA-experimenten bewegen de modelrepresentaties systematisch langs de entropie-georiënteerde as naarmate er meer bewijs in de prompt wordt gegeven.

De positie op de manifold correleert sterk met de analytisch berekende Bayesiaanse entropie.
Dit bewijst dat de geometrie niet slechts een trainingsartefact is, maar tijdens inferentie actief wordt gebruikt voor Bayesiaanse updates.

C. Architecturale Invloeden en Trade-offs

De resultaten tonen duidelijke verschillen afhankelijk van de architectuur:

Standaard MHA (Pythia, Phi-2): Toont de sterkste geometrische signalen (scherpe orthogonaliteit, sterke focussing).
GQA (Llama, Mistral): Behoudt de statische geometrie (waarde-manifolds en orthogonale keys), maar de dynamische focussing (progressieve entropieverlaging) is verzwakt of niet-monotoon. Dit komt door gedeelde Key/Value-heads en beperkte context (sliding window).
Domein-restrictie: Werkt als een natuurlijke "schakelaar". In gemengde domeinen is de representatie gedistribueerd; in één domein collapseert het naar de geoptimaliseerde 1D-structuur.

D. Causale Interventies

Wanneer de entropie-as in Pythia-410M wordt verwijderd:

De lokale geometrie (de correlatie tussen vector en entropie) wordt vernietigd.
Echter: Het Bayesiaanse gedrag (calibratie en MAE) verslechtert niet proportioneel.
Conclusie: De entropie-manifold is een geprivilegieerde readout van onzekerheid, maar geen enkelvoudig "bottleneck" waar de berekening plaatsvindt. De onzekerheidsinformatie is waarschijnlijk gedistribueerd over meerdere dimensies en lagen.

4. Bijdragen

Behoud van geometrie: Bewijs dat productie-LLMs dezelfde waarde-manifold-structuur en sleutel-orthogonaliteit bezitten als kleine modellen in windtunnels.
Functionele validatie: Eerste grote schaal bewijs dat deze structuren functioneel worden gebruikt tijdens inferentie (SULA-taken).
Domein-restrictie brug: Toont aan dat het beperken van prompts de complexe representaties van LLMs terugbrengt naar de voorspelde, laag-dimensionale Bayesiaanse regime.
Causale karakterisering: Toont aan dat de geometrie representatief is voor onzekerheid, maar dat de berekening gedistribueerd is en niet afhankelijk van één enkele as.

5. Significatie en Conclusie

Dit paper sluit de "Bayesian Attention Trilogy" af door aan te tonen dat Bayesiaanse inferentie een stabiele inductieve bias is van moderne transformers, zelfs zonder expliciete Bayesiaanse trainingsdoelen.

Theoretisch: Het bevestigt dat transformers niet alleen statistiek benaderen, maar een geometrisch substraat hebben dat Bayesiaanse updates mogelijk maakt.
Architecturaal: Het onthult een dissociatie tussen statische representatie (waarde-manifolds en keys, die universeel zijn) en dynamische verfijning (attention focussing, die afhankelijk is van de routing-capaciteit zoals MHA vs. GQA).
Praktisch: Het biedt nieuwe methoden voor interpretability. Door te kijken naar de geometrie van waarde-vectoren en attention-entropie, kunnen onderzoekers de onzekerheid en betrouwbaarheid van modellen beter begrijpen en diagnosticeren.

Samenvattend: Moderne taalmodellen organiseren hun benadering van Bayesiaanse updates langs een stabiel geometrisch substraat. Hoewel de precieze implementatie varieert per architectuur (bijv. door efficiëntie-optimalisaties zoals GQA), blijft de fundamentele structuur van onzekerheidsrepresentatie behouden.