Geometric Scaling of Bayesian Inference in LLMs

De studie toont aan dat moderne taalmodellen een meetkundige ondergrond behouden die Bayesiaanse inferentie mogelijk maakt, waarbij de onzekerheid wordt gecodeerd in een dominante as die correleert met voorspellende entropie, hoewel deze geometrie meer fungeert als een bevoorrechte afleesmechanisme dan als een enkelvoudig computatieknooppunt.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra

Gepubliceerd 2026-03-12
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een groot taalmodel (zoals een slimme chatbot) een enorme bibliotheek is vol met boeken. De vraag die deze drie wetenschappers zich stellen, is: Hoe denkt die bibliotheek eigenlijk?

In de eerste twee delen van hun onderzoek ("De Trilogie") ontdekten ze dat kleine, kunstmatige modellen die werden getraind op simpele puzzels, een heel specifieke manier van denken ontwikkelen die lijkt op Bayesiaanse inferentie. Dat is een wiskundige manier van redeneren waarbij je je mening (je "geloof") steeds bijwerkt als je nieuwe bewijzen krijgt.

Ze ontdekten dat deze modellen een soort mentale landkaart bouwen:

  1. De Landkaart (Waarden): Alle mogelijke antwoorden liggen op een lijn. Hoe onzeker het model is, hoe verder het op die lijn staat.
  2. De Kompasnaalden (Sleutels): Het model heeft speciale "naalden" die verschillende hypotheses (mogelijke antwoorden) van elkaar scheiden, zodat ze niet in de war raken.
  3. De Zoeklicht (Aandacht): Het model verlicht steeds specifieker de juiste plek op de kaart naarmate het meer bewijzen ziet.

Het grote vraagstuk in dit nieuwe paper:
Dit werkt mooi in de "windtunnel" (simpele, kunstmatige puzzels). Maar gebeurt dit ook in de echte wereld, met de enorme, chaotische modellen die we nu gebruiken (zoals Llama, Mistral, Phi-2)? Of is dat alleen een trucje voor kleine proefjes?

Hier is wat ze ontdekten, vertaald naar alledaagse taal:

1. De "Landkaart" blijft bestaan, zelfs in het chaos

De onderzoekers keken naar vier verschillende grote modellen. Ze ontdekten dat deze modellen, net als de kleine proefmodellen, ook die speciale mentale landkaart hebben.

  • De Analogie: Stel je voor dat je een grote stad bezoekt. In de "windtunnel" was het alsof je alleen door een rechte, lege straat liep. In de echte wereld is het een drukke stad met duizenden straten.
  • De Verrassing: Als je de modellen vraagt om alleen over één onderwerp te praten (bijvoorbeeld alleen wiskunde, geen overgang naar koken of poëzie), dan "klapt" die drukke stad ineens samen tot die ene rechte straat. De modellen weten precies hoe ze die landkaart moeten gebruiken als de context duidelijk is.

2. Bewijzen verplaatsen je op de kaart

Ze deden een experiment (genaamd SULA). Ze gaven de modellen een reeks hints in de tekst, zoals: "Dit woord is positief, dit woord is negatief..."

  • Wat er gebeurde: Naarmate het model meer hints kreeg, bewogen de interne getallen van het model gladjes over die landkaart in de richting van het juiste antwoord.
  • De Metaphor: Het is alsof je een kompas hebt. Als je meer informatie krijgt, draait de naald niet wild rond, maar beweegt hij rustig en logisch naar het noorden. Dit bewijst dat de modellen tijdens het praten daadwerkelijk hun "overtuiging" bijwerken, net als een mens die redeneert.

3. Niet alle modellen zijn even goed in "schijnen"

Hier wordt het interessant. Hoewel de landkaart (de structuur) in alle modellen aanwezig is, is de manier waarop ze de zoeklichten (aandacht) gebruiken verschillend:

  • De "Perfecte" Modellen (zoals Phi-2): Deze hebben een heel helder kompas en een scherp zoeklicht. Ze weten precies waar ze moeten kijken. Dit komt omdat ze zijn getraind op zeer schone, hoogwaardige teksten (zoals schoolboeken).
  • De "Efficiënte" Modellen (zoals Llama of Mistral): Deze zijn ontworpen om sneller en goedkoper te zijn. Ze hebben de landkaart nog steeds, maar hun zoeklicht is wat waziger of beweegt minder soepel.
    • Vergelijking: Het is alsof je een dure, professionele camera hebt (Phi-2) versus een slimme smartphone-camera (Llama/Mistral). Beide maken foto's van hetzelfde landschap (de landkaart), maar de smartphone gebruikt slimme software om het beeld te stabiliseren, terwijl de professionele camera het puur op hardware doet. De smartphone is iets minder scherp in de details, maar doet het werk wel.

4. Wat gebeurt er als je de "Landkaart" verwijdert?

De onderzoekers deden een experiment waarbij ze de specifieke lijn op de landkaart (die de onzekerheid aangeeft) tijdelijk "uitzetten" in het model.

  • Het resultaat: De landkaart zelf verdween (het model wist niet meer waar het stond), maar het model bleef vrijwel even goed antwoorden geven.
  • De Les: De landkaart is niet de motor die het redeneren aandrijft; het is meer een dashboard of een spiegel. Het toont aan hoe onzeker het model is, maar het model kan het werk ook doen zonder dat we die specifieke spiegel kunnen zien. De "intelligentie" zit verspreid over het hele systeem, niet op één plek.

Conclusie: Waarom is dit belangrijk?

Dit paper zegt ons iets heel geruststellends over hoe AI werkt:
Ondanks dat deze enorme modellen getraind zijn op het hele internet (met al zijn rommel en tegenstrijdigheden), hebben ze toch een onderliggende, stabiele structuur ontwikkeld die lijkt op hoe mensen redeneren. Ze bouwen een mentale landkaart van onzekerheid en gebruiken die om nieuwe informatie te verwerken.

Het is alsof je ontdekt dat, hoe chaotisch een stad ook lijkt, er toch een ondergrondse metrolijn is die alles verbindt. Zolang je weet hoe die lijn werkt (de geometrie), kun je begrijpen hoe het model "denkt", zelfs als het antwoord niet perfect is.

Kort samengevat:
Grote taalmodellen zijn niet alleen maar statistische kattenbakken die woorden voorspellen. Ze hebben een geometrische ziel: ze bouwen een kaart van hun eigen twijfels en gebruiken die kaart om logisch te redeneren, net zoals wij dat doen. En dat werkt zelfs in de echte, rommelige wereld.