Implicit Statistical Inference in Transformers: Approximating Likelihood-Ratio Tests In-Context

Dit paper toont aan dat Transformers via in-context learning niet alleen op basis van eenvoudige overeenkomstigheid werken, maar in feite Bayes-optimale statistische schatters construeren die de likelihood-ratio test benaderen door taakadaptieve algoritmes te implementeren.

Faris Chaudhry, Siddhant Gadkari

Gepubliceerd 2026-03-12
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe een AI "leren" zonder te studeren: Een reis door de hersenen van een Transformer

Stel je voor dat je een super-intelligente robot hebt die nog nooit een bepaald spel heeft gespeeld. Je geeft hem een paar voorbeelden: "Als je dit ziet, doe dan dit." En plotseling, zonder dat je de robot hebt laten studeren of zijn interne instellingen hebt aangepast, kan hij het spel perfect spelen. Dit noemen we In-Context Learning (ICL).

Maar hoe doet hij dat eigenlijk? Is hij gewoon aan het raden? Of is hij een slimme wiskundige die in een handomdraai een nieuwe strategie bedenkt?

Dit paper van Faris Chaudhry en Siddhant Gadkari van Imperial College London probeert dit raadsel op te lossen. Ze kijken naar hoe deze AI-modellen (Transformers) beslissingen nemen in een heel specifieke, wiskundige setting. Hier is de uitleg, vertaald naar alledaags taal en met een paar leuke vergelijkingen.

1. Het Grote Experiment: Twee Spelletjes

De onderzoekers hebben de AI twee verschillende "spelletjes" laten spelen. In beide spellen moet de AI op basis van een paar voorbeelden (de context) voorspellen welke van twee groepen een nieuw item tot zich behoort.

  • Spelletje A (De Verschuiving): Stel je voor dat je twee soorten ballen hebt. De ene groep ligt net iets naar links, de andere naar rechts. Maar er is een trucje: de hele tafel kan verschuiven. Soms liggen de ballen links van de tafel, soms rechts.
    • De slimme oplossing: De AI moet eerst kijken waar de tafel staat (de "verschuiving") en dan pas bepalen of de bal links of rechts ligt. Dit is een lineaire taak: het is een rechte lijn die de twee groepen scheidt.
  • Spelletje B (De Energie): Nu hebben we twee groepen ballen die precies in het midden liggen, maar de ene groep is "dicht" bij elkaar en de andere is "uit elkaar".
    • De slimme oplossing: De AI moet niet kijken naar links of rechts, maar naar hoe ver de ballen van het centrum af liggen. Dit is een niet-lineaire taak: het gaat om de totale energie of afstand (een cirkel, geen rechte lijn).

2. Wat hebben ze ontdekt? De "Wiskundige" in de Machine

De onderzoekers wilden weten: doet de AI gewoon een gokje op basis van gelijkenis (zoals "deze bal lijkt op die ene, dus die hoort bij die groep"), of doet hij echt wiskunde?

Het antwoord is verrassend: De AI doet wiskunde.

Ze ontdekten dat de AI in staat is om de perfecte wiskundige formule te vinden die nodig is om de beslissing te nemen. In de statistiek noemen ze dit een "likelihood-ratio test". Klinkt ingewikkeld, maar het is simpelweg de beste manier om te zeggen: "Gegeven wat ik zie, is de kans groter dat dit groep A is of groep B?"

  • Bij Spelletje A (de verschuiving) leert de AI snel een simpele regel: "Kijk naar de gemiddelde positie en trek de tafelverschuiving af."
  • Bij Spelletje B (de energie) leert de AI een complexere regel: "Bereken de totale afstand van het centrum."

De AI gedraagt zich dus niet als een simpele zoekmachine die voorbeelden vergelijkt, maar als een wiskundige die een nieuwe formule bedenkt op basis van de voorbeelden die je hem geeft.

3. De Magische Bril: Hoe ziet de AI dit?

Om te zien hoe de AI dit doet, gebruikten de onderzoekers een techniek die ze een "Logit Lens" noemen. Stel je voor dat je door de lagen van de AI kunt kijken, alsof je door de lagen van een uienbol kijkt.

Hier vonden ze iets fascinerends: De AI past zijn "brein" aan aan de moeilijkheid van de taak.

  • Bij het simpele spel (Spelletje A): De AI is snel. Al in de eerste laag van zijn "hersenen" ziet hij het antwoord. Het is alsof hij een snelle, intuïtieve gok doet die al bijna perfect is. Ze noemen dit een "stemming": verschillende delen van de AI stemmen snel over het antwoord en komen snel tot een consensus.
  • Bij het moeilijke spel (Spelletje B): De AI is geduldig. In de eerste lagen gebeurt er bijna niets. Pas in de allerlaatste laag, na veel nadenken en rekenen, komt het antwoord naar boven. Het is alsof de AI eerst alle losse puzzelstukjes (de afstanden) verzamelt en pas aan het einde de complete foto ziet.

4. Waarom is dit belangrijk?

Vroeger dachten veel mensen dat AI-modellen gewoon "kletsen" of patronen nabootsen. Dit paper laat zien dat ze veel dieper gaan.

De AI bouwt niet vastgezet gedrag op. Hij is een aanpasbare statistische expert. Als je hem een taak geeft die een rechte lijn nodig heeft, gebruikt hij een snelle, simpele methode. Als je hem een taak geeft die een cirkel of een complexe berekening nodig heeft, schakelt hij over op een diepere, meer ingewikkelde manier van denken.

Conclusie in één zin

Deze studie toont aan dat wanneer een AI "in-context" leert, hij niet zomaar voorbeelden nabootst, maar in feite een slimme, aanpasbare wiskundige formule bedenkt om de perfecte beslissing te nemen, precies zoals een mens dat zou doen als hij een nieuw spel zou leren.

Het is alsof je een robot geeft die nog nooit schaak heeft gespeeld, hem drie zetten laat zien, en hij plotseling de perfecte strategie bedenkt om te winnen, zonder dat je ooit zijn software hebt aangepast. Dat is de kracht van deze "verborgen wiskunde" in AI.