Thompson Sampling via Fine-Tuning of LLMs

Het paper introduceert ToSFiT, een schaalbaar algoritme dat Large Language Models fijnstemt om Thompson Sampling toe te passen voor Bayesiaanse optimalisatie in grote discrete ruimtes, waardoor de noodzaak voor het maximaliseren van acquisitiefuncties wordt geëlimineerd en zowel proef- als computerefficiëntie op diverse taken worden verbeterd.

Nicolas Menet, Aleksandar Terzić, Michael Hersche, Andreas Krause, Abbas Rahimi

Gepubliceerd 2026-03-02
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe een AI-leraar slimme keuzes leert maken zonder alles uit te proberen

Stel je voor dat je een enorme bibliotheek binnenloopt. Deze bibliotheek bevat niet alleen boeken, maar elke mogelijke combinatie van woorden die je ooit kunt bedenken. Je zoekt het perfecte antwoord op een vraag, of misschien de beste nieuwe medicijnformule, of het efficiëntste ontwerp voor een quantumcomputer. Het probleem? De bibliotheek is zo groot dat er meer boeken zijn dan er atomen in het heelal zijn. Als je elk boek één voor één zou lezen, zou je eeuwen nodig hebben.

Dit is het probleem waar wetenschappers vaak tegenaan lopen: Hoe vind je het beste antwoord in een onmetelijke, chaotische wereld, zonder tijd en geld te verspillen?

Deze paper introduceert een nieuwe methode genaamd TOSFIT. Laten we uitleggen hoe het werkt met een paar simpele metaforen.

1. Het oude probleem: De "Zoekmachine" die vastloopt

Traditionele methoden (zoals Baysean Optimization) werken als een slimme zoekmachine die probeert het beste antwoord te vinden. Ze doen dit door een "beloningssysteem" op te stellen. Ze zeggen: "Ik denk dat dit antwoord goed is, maar ik weet het niet zeker. Laten we een paar opties proberen en kijken wat er gebeurt."

Het probleem is dat deze zoekmachine vaak vastloopt in de enorme bibliotheek. Om het beste antwoord te vinden, moet de computer eerst alle mogelijke opties in gedachten doorrekenen om te zien welke het beste is. In een wereld met oneindige opties is dit onmogelijk. Het is alsof je probeert de snelste route naar huis te vinden door elke mogelijke straat in de stad één voor één te testen.

2. De oplossing: Een slimme gids met een "gevoel"

De auteurs van dit paper hebben een slimme truc bedacht. In plaats van de computer te laten rekenen en vergelijken, laten ze een Grote Taalmodel (LLM) – denk aan een super-intelligente AI die alles heeft gelezen – de keuzes maken.

Maar hoe leer je deze AI?
Stel je voor dat je een jonge student (de AI) hebt die al veel weet (door te trainen op internetdata). Je geeft hem een taak: "Schrijf het beste antwoord op deze vraag."

  • Stap 1: De student schrijft een antwoord.
  • Stap 2: Jij kijkt naar het antwoord en zegt: "Nee, dit is niet helemaal goed. Maar dit stukje hier is wel goed."
  • Stap 3: De student past zijn kennis direct aan op basis van jouw feedback. Hij "fine-tunes" zichzelf.

Dit is wat TOSFIT doet. Het gebruikt de AI niet alleen als een generator van ideeën, maar als een leraar die zichzelf voortdurend verbetert.

3. De "Gokker" die niet blind gokt (Thompson Sampling)

In de wiskunde heet deze methode Thompson Sampling. Laten we het vergelijken met een gokker in een casino met duizenden gokkasten (machines).

  • De meeste gokkers proberen gewoon willekeurig een kastje.
  • Slimme gokkers proberen de kastjes die ze al hebben gezien als "goed" te herhalen, maar proberen ook af en toe een nieuw kastje om te kijken of er een betere is.

TOSFIT is als een gokker die gevoel heeft. Hij zegt niet: "Ik ga nu alle kastjes uitrekenen." Hij zegt: "Op basis van wat ik tot nu toe heb gezien, voel ik dat dit kastje de meeste kans heeft om de jackpot te geven." Hij "fine-tunes" zijn gevoel direct na elke gok.

4. Waarom is dit zo cool?

De paper toont aan dat deze methode drie grote voordelen heeft:

  1. Het werkt in de chaos: Of je nu op zoek bent naar een nieuw medicijn (eiwitten), een betere tekst voor een klantenservice, of een quantumcomputer-code. Het maakt niet uit hoe complex of "ongestructureerd" de wereld is; de AI kan erin navigeren.
  2. Het is snel en slim: Omdat de AI direct leert van zijn fouten, hoeft hij niet duizenden malen te proberen. Hij vindt het beste antwoord met veel minder pogingen dan andere methoden.
  3. Het onthoudt zijn basis: Een groot risico bij het trainen van AI is dat ze vergeten wat ze al wisten (ze "vergeten" hun basis). TOSFIT is zo ontworpen dat de AI zijn oorspronkelijke kennis behoudt, maar die voorzichtig aanpast. Het is alsof je een expert bent die een nieuwe specialiteit leert, zonder zijn oude kennis te verliezen.

Samenvattend

Stel je voor dat je een schat zoekt op een eiland dat zo groot is dat je er nooit rond kunt lopen.

  • De oude methode: Je probeert elke hoek van het eiland systematisch af te lopen. Je wordt moe en vindt de schat misschien nooit.
  • De TOSFIT-methode: Je hebt een lokale gids (de AI) die het eiland kent. Je zegt: "Hier is een schat die we hebben gevonden." De gids kijkt, leert direct waar de schatten waarschijnlijk liggen, en past zijn kaart direct aan. Hij loopt niet blindelings, maar gebruikt zijn "gevoel" (de kansberekening) om de beste plek te kiezen.

Deze paper laat zien dat we door AI op deze manier te gebruiken, complexe problemen in wetenschap en technologie veel sneller en efficiënter kunnen oplossen. Het is een stap in de richting van machines die niet alleen rekenen, maar leren hoe ze slim moeten zoeken.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →