Learning Adaptive LLM Decoding

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een groot taalmodel (zoals een slimme AI) een chef-kok is die een recept moet bedenken. Tot nu toe kookten deze chefs altijd op precies dezelfde manier: ze gebruikten altijd dezelfde hoeveelheid vuur (temperatuur) en keken altijd naar dezelfde lijst met mogelijke ingrediënten (top-k), ongeacht of ze een simpele salade maakten of een ingewikkeld soufflé.

Dit is niet altijd de beste aanpak. Soms heb je een snelle, simpele beslissing nodig, en soms moet je even twijfelen en verschillende opties uitproberen om het perfecte resultaat te krijgen.

Dit artikel introduceert een slimme sous-chef (de "Learning Adaptive LLM Decoding") die meekijkt met de hoofdkok en de kookstijl aanpast, afhankelijk van hoe lastig het recept is en hoeveel tijd er nog is.

Hier is hoe het werkt, vertaald naar alledaagse termen:

1. Het Probleem: De "Eén Maat Past Alles" Aanpak

Voorheen stelden mensen de instellingen van de AI handmatig in. Het was alsof je een auto altijd met dezelfde snelheid liet rijden, of je nu door een drukke stad rijdt of over een lege snelweg.

Te voorzichtig: De AI kiest steeds dezelfde, saaie woorden (alsof je alleen maar "ja" en "nee" zegt).
Te wild: De AI begint te fantaseren en maakt onzin (alsof je in een storm rijdt zonder remmen).
Het resultaat: De AI maakt fouten bij moeilijke vragen, of verspillen tijd bij simpele vragen.

2. De Oplossing: De Slimme Sous-chef

De auteurs van dit artikel hebben een klein, lichtgewicht programmaatje gemaakt (de "adapter") dat als een slimme sous-chef fungeert. Deze sous-chef:

Kijkt niet naar de hoofdkok: De hoofdkok (het grote taalmodel) blijft precies hetzelfde. We veranderen de basis niet.
Leert door te proberen: De sous-chef leert niet door boeken te lezen, maar door te proeven. Als het antwoord goed is (bijvoorbeeld een juiste wiskundige oplossing of werkende code), krijgt hij een beloning. Als het fout is, niet.
Past de kookstijl aan: Afhankelijk van de situatie kiest hij een andere methode:
- Bij een makkelijk vraag: "Oké, wees snel en kies het meest voor de hand liggende antwoord." (Dit is als greedy decoding).
- Bij een lastig vraag: "Oké, wees creatief en probeer een paar verschillende routes." (Dit is als stochastisch sampling met een hogere temperatuur).

3. Twee Manieren om te Koken (Twee Niveaus)

De auteurs testen dit op twee niveaus:

A. Het Recept-niveau (Sequence-Level)

Stel je voor dat je een heel menu moet plannen. De sous-chef kijkt naar de hele opdracht (bijv. "Schrijf een verhaal over een draak") en zegt: "Voor dit specifieke verhaal, laten we de hele tijd een avontuurlijke, creatieve stijl gebruiken."

Hoe het werkt: Hij kiest één kookstijl voor het hele recept en houdt die vast.
Voordeel: Het werkt goed als je meerdere versies van hetzelfde recept tegelijk kunt maken (parallelle berekening) en de beste moet kiezen.

B. Het Boven-niveau (Token-Level)

Dit is nog slimmer. Hier kijkt de sous-chef naar elk woord dat de chef schrijft.

Woord 1 ("De"): "Dit is makkelijk, gewoon doorgaan."
Woord 2 ("..."): "Wacht, hier wordt het lastig. Laten we even twijfelen en een paar opties uitproberen."
Woord 3 ("..."): "Oké, we hebben de oplossing gevonden, laten we snel afmaken."
Voordeel: De AI kan op het juiste moment creatief zijn en op het juiste moment zeker. Het is alsof je tijdens het rijden de snelheid aanpast: langzaam in een bocht, snel op het rechte stuk.

4. De Beloning: De "Wiskunde- en Code-Test"

Hoe leert de sous-chef dit? Hij krijgt geen menselijke feedback ("dit klinkt mooi"), maar kijkt naar feitelijke resultaten.

Als de AI een wiskundeprobleem oplost, is het antwoord goed of fout? (Ja/Neen).
Als de AI code schrijft, werkt het programma of crasht het? (Ja/Neen).
De sous-chef probeert duizenden keren verschillende kookstijlen en onthoudt welke stijl het vaakst tot een goed resultaat leidt binnen de beschikbare tijd (het "budget").

5. Het Resultaat: Meer Slimheid, Minder Verspilling

In hun tests (op moeilijke wiskunde en programmeeropgaven) bleek dat deze slimme sous-chef:

Tot 10% beter presteerde dan de oude, statische methoden.
Slimmer omging met tijd: Hij verspilde geen tijd aan creatief zijn bij simpele stappen, en was niet te snel bij moeilijke stappen.
Werkt met elke chef: Omdat ze alleen de sous-chef trainen en de hoofdkok niet aanraken, werkt dit met bijna elk bestaand AI-model.

Samenvattend

Stel je voor dat je een team hebt dat een puzzel oplost.

De oude manier: Iedereen krijgt dezelfde instructies: "Denk hard na" of "Denk snel", en dat geldt voor de hele puzzel.
De nieuwe manier: Er is een teamleider die ziet waar de puzzel lastig is. Op de makkelijke stukjes zegt hij: "Snel, snel!" en op de lastige stukjes zegt hij: "Stop, denk na, probeer drie verschillende dingen."

Dit artikel laat zien dat we AI niet hoeven te vervangen om slimmer te worden; we hoeven alleen maar een slimme stuurman toe te voegen die weet wanneer hij het stuur moet vasthouden en wanneer hij het moet loslaten.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Learning Adaptive LLM Decoding" in het Nederlands.

Titel: Learning Adaptive LLM Decoding (Leren van Adaptieve LLM-Decoding)

Auteurs: Chloe H. Su, Zhe Ye, Samuel Tenka, Aidan Yang, Soonho Kong, Udaya Ghai.
Context: Het paper onderzoekt hoe de inferentie (decoding) van grote taalmodellen (LLMs) kan worden geoptimaliseerd door dynamisch aan te passen aan taakmoeilijkheid en beschikbare rekkracht, in plaats van statische hyperparameters te gebruiken.

1. Het Probleem

Huidige decoding-procedures voor LLMs vertrouwen op vaste sampling-hyperparameters (zoals temperatuur, top-k, top-p) die statisch worden ingesteld voor het hele model of dataset. Dit benadert de inferentie als een eenmalige instelling, wat twee grote inefficiënties introduceert:

Heterogeniteit: De moeilijkheidsgraad en onzekerheid variëren sterk tussen verschillende prompts, redeneerstijlen en zelfs tussen individuele tokens binnen één generatie.
Train-Test Mismatch: Modellen worden vaak getraind met vaste decoding-instellingen, maar tijdens de inferentie (testtijd) kunnen de constraints (zoals rekkracht of budget) verschillen.
Suboptimale Prestaties: Statistische analyses tonen aan dat onzekerheid tijdens redeneren vaak geconcentreerd is op een klein aantal "forking tokens" (tokens met hoge entropie). Een statische strategie kan deze kritieke momenten niet adequaat aanpakken zonder overal te veel rekkracht te verspillen of te weinig exploratie te toestaan.

Bestaande adaptieve methoden vertrouwen vaak op statische heuristieken, offline getuned parameters, of vereisen het fine-tunen van het taalmodel zelf, wat rekenkundig duur is.

2. Methodologie

De auteurs stellen "Learned Decoding Adapters" voor: lichtgewicht policy-netwerken die worden getraind met Reinforcement Learning (RL) om de decoding-strategie dynamisch te kiezen tijdens de inferentie, terwijl het onderliggende taalmodel bevroren (frozen) blijft.

Het probleem wordt op twee niveaus geformuleerd:

A. Sequentie-niveau (Contextual Bandits)

Doel: Het selecteren van één decoding-configuratie (bijv. greedy, top-k, min-p) voor de volledige prompt.
Formulering: Dit wordt gemodelleerd als een Contextual Bandit-probleem.
Input: De policy ( $\pi_\theta$ ) ontvangt een context bestaande uit de prompt-embedding en het beschikbare parallelle sampling-budget ( $B$ ).
Actie: Selectie van een decoding-strategie uit een discrete set.
Beloning: De uiteindelijke correctheid van de gegenereerde oplossing (bijv. wiskundig antwoord of code die compileert).
Strategie: De policy leert welke strategie het beste werkt voor een specifieke prompt onder een bepaald budget.

B. Token-niveau (Partially Observable Markov Decision Process - POMDP)

Doel: Het dynamisch aanpassen van de sampling-strategie per token binnen één generatietraject.
Formulering: Gemodelleerd als een POMDP, omdat de adapter niet de volledige toestand ziet, maar wel interne modelrepresentaties.
Input: Op elke stap $t$ ontvangt de policy de verborgen staat-embedding van het LLM en het resterende token-budget ( $b_t$ ).
Actie: Selectie van een decoding-actie (in de experimenten voornamelijk variatie in temperatuur) voor de volgende token.
Beloning: Alleen de uiteindelijke terminal beloning (correctheid van het volledige antwoord).
Stabilisatie: Om hoge variantie in de gradients te voorkomen, filtert de training prompts met zeer ruisige beloningen en maskeert tokens waar de kansverdeling al extreem geconcentreerd is (>95% waarschijnlijkheid).

Training & Actieruimte

RL-algoritme: Policy-gradient (REINFORCE) met entropieregulering om exploratie te stimuleren.
Beloning: Verifieerbare terminal beloningen (correctheid op wiskunde- en coderingstaken), zonder gebruik van een apart reward-model of menselijke voorkeuren.
Actieruimte-selectie: Voor het sequentie-niveau wordt een kleine, diverse set van decoding-strategieën geselecteerd via een greedy coverage-algoritme (geïnspireerd op submodulaire maximalisatie) om redundantie te minimaliseren en de dekking van hoge prestaties te maximaliseren.

3. Belangrijkste Resultaten

De methoden zijn geëvalueerd op de MATH (wiskundig redeneren) en CodeContests (programmeren) benchmarks, voornamelijk met het Qwen3-4B model.

Token-niveau Adapter:
- Bereikte een verbetering van tot 10,2% in Pass@1 nauwkeurigheid op de MATH-benchmark onder een vast token-budget, vergeleken met de beste statische baseline.
- Zelfs zonder expliciete budget-conditioning presteerde deze adapter significant beter dan statische decoding.
- De adapter leert om bij hoge onzekerheid (hoge entropie) meer stochastisch te zijn en bij lage onzekerheid deterministischer te worden.
Sequentie-niveau Adapter:
- Leverde verbeteringen van 2-3% op onder beperkt parallel sampling-budget.
- Toonde aan dat het conditioneren op het beschikbare budget tijdens training cruciaal is voor robuustheid.
Generalisatie:
- Een adapter getraind op MATH-data presteerde ook beter op CodeContests en op het moeilijkere AIME 2025-dataset, wat aantoont dat de geleerde signalen overdraagbaar zijn.
- Mixed-training (wiskunde + codering) resulteerde in compromisstrategieën die op beide domeinen beter presteerden dan statische baselines.
Ablatie-studies:
- Een policy die alleen op entropie reageerde (zonder context of budget), presteerde niet beter dan statische decoding. Dit bevestigt dat de adaptieve adapter complexe contextuele signalen gebruikt, niet alleen eenvoudige heuristieken.

4. Bijdragen

Formulering van Decoding als Policy Learning: Het paper introduceert een unificerend RL-framework voor zowel prompt-level als token-level adaptatie onder expliciete rekkracht-begrenzingen.
Lichtgewicht Adapters zonder Reward Models: De adapters worden uitsluitend getraind met online, verifieerbare taakbeloningen (correctheid), zonder fine-tuning van het basis-LLM, zonder geleerde reward-modellen en zonder handmatige heuristieken.
Empirische Gains: Aantonen dat adaptieve decoding de afweging tussen nauwkeurigheid en rekkracht (accuracy-budget trade-off) significant verbetert op complexe redeneringstaken.

5. Betekenis en Impact

Dit werk markeert een verschuiving in hoe we LLM-inferentie benaderen:

Inferentie als Leerproces: Het toont aan dat de keuze van de decoding-strategie zelf een leerbaar onderdeel is van het systeem, complementair aan model-schaalvergroting of fine-tuning.
Efficiëntie: Het biedt een manier om de kwaliteit van redenering te verhogen zonder het model groter te maken, door slimme allocatie van beschikbare rekkracht (budget) tijdens de generatie.
Toekomstperspectief: Het opent de weg voor "adaptive inference" waarbij modellen dynamisch beslissen hoe ze moeten redeneren (exploreren vs. exploiteren) op basis van hun eigen onzekerheid en de beschikbare middelen, wat essentieel is voor schaalbare en betrouwbare AI-systemen.

Kortom, het paper bewijst dat het leren van hoe een model moet genereren (decoding policy), net zo belangrijk kan zijn als wat het model heeft geleerd (de weights), vooral binnen strikte rekenkundige beperkingen.