Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat vooroordeelachtige robot hebt. Deze robot is een Groot Taalmodel (LLM). Hij kan geweldige dingen doen, zoals teksten schrijven of vragen beantwoorden, maar hij heeft een eigenaardigheid: als je hem een paar voorbeelden geeft om een nieuwe taak te leren (bijvoorbeeld "is deze zin positief of negatief?"), doet hij dat vaak goed, maar soms maakt hij systematische fouten.

Deze fouten komen vaak door de manier waarop de robot de voorbeelden ziet, niet omdat hij de taak niet begrijpt. Het is alsof de robot een bril op heeft die de kleuren een beetje verdraait.

Dit artikel introduceert een nieuwe methode, genaamd Supervised Calibration (SC), om die bril te corrigeren. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De Robot die "Kijkt" maar niet "Begrijpt"

Stel, je geeft de robot een lijst met voorbeelden van filmrecensies. De robot moet zeggen of een recensie "goed" of "slecht" is.

De oude manier (Bestaande methoden): De robot kijkt naar zijn eigen antwoorden en zegt: "Oh, ik heb de afgelopen 10 keer 'slecht' gezegd, dus ik moet mijn drempel iets verlagen om vaker 'goed' te zeggen."
- Het nadeel: Dit is alsof je de bril alleen iets verschuift. Als de robot de kleuren compleet verdraait (bijvoorbeeld: hij denkt dat "slecht" eigenlijk "goed" betekent), helpt een kleine verschuiving niet. Hij blijft fouten maken.
De nieuwe manier (Supervised Calibration): Deze methode zegt: "Wacht even, laten we niet alleen de drempel verschuiven, maar laten we de hele bril opnieuw instellen. Misschien moeten we de kleuren zelfs omdraaien!"

2. De Oplossing: De "Kookpotten" van de Robot

De auteurs noemen hun methode Supervised Calibration (SC). Hoe werkt dit in de praktijk?

Stel je voor dat de robot een grote kookpot heeft met ingrediënten (de voorbeelden die je hebt gegeven).

Het Koken (Surrogate Data): De robot neemt een paar van die voorbeelden uit de pot, kookt ze apart, en zegt: "Kijk, als ik dit voorbeeld met deze context zie, wat is dan mijn antwoord?" Hij doet dit voor verschillende combinaties van voorbeelden.
De Leraar (Loss Minimization): Nu speelt de robot een spelletje met zichzelf. Hij vergelijkt zijn eigen antwoorden met het echte juiste antwoord (dat hij al weet, omdat hij de voorbeelden heeft gekozen).
- Als hij zegt: "Dit is slecht" maar het is "goed", dan leert hij: "Oh, ik moet mijn antwoord vermenigvuldigen met -1 en er een beetje bij optellen."
- Dit is het geheim: De robot leert niet alleen een verschuiving (optellen), maar ook een vermenigvuldiging (schalen).
- De analogie: Als de robot de wereld op zijn kop ziet, kan hij de vermenigvuldiger op -1 zetten. Dan draait hij de wereld weer rechtop! Oude methoden konden dat niet; ze konden alleen de wereld een beetje opzij schuiven.

3. Twee Extra Hulpmiddelen: Stabiliteit en Vertrouwen

De robot is soms wat nerveus. Als je hem te veel voorbeelden geeft, wordt hij onzeker. De auteurs voegen twee regels toe om hem rustig te houden:

Context-Invariantie (De "Rustige Gids"):
Stel je voor dat je de robot verschillende volgorde van voorbeelden geeft. Soms zegt hij A, soms B, terwijl het antwoord hetzelfde is. De nieuwe methode zegt: "Het maakt niet uit welke volgorde je gebruikt, het antwoord moet hetzelfde blijven." Dit zorgt voor een stabielere robot die niet gek wordt door kleine veranderingen.
Directional Trust-Region (De "Vertrouwensband"):
Soms is de robot best slim, maar soms is hij wat dom. De methode vraagt: "Hoeveel vertrouwen hebben we in de originele robot?"
- Als de robot al heel goed is, zeggen we: "Verander maar heel weinig."
- Als de robot erg fout zit, zeggen we: "Ga er flink op los, draai de wereld om!"
  Dit zorgt ervoor dat we niet per ongeluk een goede robot "over-corrigeren" en hem dom maken.

4. Het Resultaat: De Super-Robot

De auteurs hebben hun robot getest op negen verschillende taken (zoals het analyseren van sentiment in nieuwsartikelen of tweets) met drie verschillende modellen (Mistral, Llama, Qwen).

Het resultaat: De robot met de nieuwe "bril" (SC) deed het overal beter dan de oude methoden.
Het meest indrukwekkende voorbeeld: Op een moeilijke taak met 5 verschillende gevoelens (SST-5), waar de oude robot maar 22% goed had, sprong de nieuwe robot naar 44%.
- Waarom? Omdat de robot in dit geval de kleuren compleet verdraaid zag. De nieuwe methode durfde de "vermenigvuldiger" negatief te maken, waardoor hij de fouten omdraaide in juistheid.

Samenvatting in één zin

Deze paper introduceert een slimme manier om een AI-model te "herscholen" door niet alleen zijn antwoorden iets aan te passen, maar door zijn hele denkwijze (de richting van zijn beslissingen) te kunnen omdraaien en te versterken, waardoor hij veel betrouwbaarder wordt in situaties waar hij normaal gesproken vastloopt.

Het is alsof je een GPS hebt die de verkeerde kant op wijst: de oude methode probeerde de GPS alleen een beetje opzij te duiven, maar deze nieuwe methode draait de GPS echt om en zegt: "Nee, die weg is fout, ga die kant op!"

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning", geschreven in het Nederlands.

Probleemstelling

Grote Taalmodellen (LLMs) bezitten een opmerkelijk vermogen tot In-Context Learning (ICL), waarbij ze nieuwe taken kunnen leren met slechts een handvol voorbeelden (few-shot learning). Echter, de voorspellingen van LLMs in ICL-scenario's lijden vaak onder systematische vertekeningen (biases), zoals voorkeur voor bepaalde labels, recency-bias of bias door de volgorde van voorbeelden.

Bestaande kalibratiemethoden, zoals Label Marginal (LM) methoden (bijv. Contextual Calibration, Batch Calibration), proberen deze biases te corrigeren door de interne prior van het model te schatten en de voorspelde kansen daarop aan te passen. Het paper toont aan dat deze methoden fundamenteel beperkt zijn:

Ze werken in de logit-ruimte (log-odds) en zijn wiskundelijk equivalent aan het verschuiven van de beslissingsgrens (decision boundary) van het model.
Ze hebben geen vermogen om de oriëntatie van de beslissingsgrens te veranderen of om te keren.
Wanneer het basis-LLM ernstig verkeerd is ingesteld (bijvoorbeeld door een systematische fout waarbij het model het tegenovergestelde van de waarheid voorspelt), kunnen deze methoden de prestaties niet verbeteren boven het niveau van willekeurig gissen. In multiclass-classificatieproblemen (zoals SST-5) kan dit leiden tot zeer lage nauwkeurigheid (bijv. 22%).

Methodologie: Supervised Calibration (SC)

De auteurs stellen Supervised Calibration (SC) voor, een raamwerk dat ICL benadert vanuit het perspectief van klassiek toezicht op leren (supervised learning). Het doel is om een optimale, per-klassen affiene transformatie te leren van de voorspelde kansen van het LLM in de logit-ruimte.

Kerncomponenten van SC:

Affine Logit Benadering:
In plaats van alleen een bias-term (verschuiving) te leren, leert SC zowel een bias-term ( $b_c$ ) als een schalingsfactor ( $w_c$ ) voor elke klasse $c$ . De transformatie wordt gegeven door:
$L_c(x) = w_c \cdot m_c(x) + b_c$
Waarbij $m_c(x)$ de oorspronkelijke logit van het LLM is.
- De term $b_c$ corrigeert voor label-marginal verschuivingen (priors).
- De term $w_c$ corrigeert voor class-conditional verschuivingen en is cruciaal: als $w_c$ negatief is, kan de oriëntatie van de beslissingsgrens worden omgekeerd. Dit lost het probleem op waarbij het basismodel systematisch fout ligt.
Surrogeer Data Generatie (Leave-Subset-Out):
Omdat er geen extern kalibratiedataset beschikbaar is (alleen de context in de prompt), genereert SC een surrogeer trainingsdataset direct uit de demonstratie-context ( $C_k$ ).
- Er worden sub-sets van de context geselecteerd (grootte $i < k$ ).
- De overige voorbeelden in de context worden gebruikt als "query" met hun bekende labels.
- Het LLM voorspelt op basis van de sub-context, en deze logit-label paren vormen de trainingsdata voor de kalibratiemodel.
Regularisatie voor Stabiliteit:
Om overfitting te voorkomen en de instabiliteit van ICL aan te pakken, introduceert SC twee regularisatietermen:
- Context-Invariance Regularizer: Strijdt tegen de gevoeligheid van ICL voor de volgorde en samenstelling van de context. Het straalt de uitkomsten af als het model verschillende sub-contexten voor dezelfde query gebruikt.
- Directional Trust-Region Regularizer: Beperkt de grootte van de aanpassingen ten opzichte van het oorspronkelijke model. Dit zorgt voor een balans: als het basismodel betrouwbaar is, wordt er weinig aangepast; als het onbetrouwbaar is, wordt er agressiever gecorrigeerd, maar binnen een veilige zone.
Ensembling Strategie:
Het model traint kalibratoren voor verschillende contextgroottes ( $i$ ) en voert voorspellingen uit over meerdere sub-contexten. De uiteindelijke voorspelling is een gemiddelde van al deze varianten, wat de robuustheid verder verhoogt.

Belangrijkste Bijdragen

Unificatie en Generalisatie: SC omvat bestaande LM-methoden als speciale gevallen (waarbij $w_c = 1$ ), maar generaliseert deze door ook de schalingsfactor te leren. Dit stelt het model in staat om de beslissingsgrens te verschuiven én te draaien/omkeren.
Nieuw Raamwerk: Het introduceert een verlies-minimalisatie raamwerk (gebaseerd op negatieve log-likelihood) dat specifiek is ontworpen voor ICL zonder externe data.
Theoretisch Inzicht: Het paper biedt een theoretische analyse die laat zien dat SC een lagere benaderingsfout (approximation error) heeft dan LM-methoden, hoewel het meer parameters leert. De regularisatie en ensembling compenseren de variatie (variance).
State-of-the-Art Prestaties: Uitgebreide experimenten tonen aan dat SC consistent beter presteert dan bestaande kalibratiemethoden.

Resultaten

De auteurs hebben SC getest op drie LLMs (Mistral-7B, Llama-2-7B, Qwen2-7B) over negen datasets (o.a. SST-2, SST-5, AGNews) in 4-shot, 8-shot en 16-shot settings.

Algemene Prestaties: SC behaalde de hoogste Macro-F1 scores in alle scenario's. Gemiddeld was er een verbetering van +11.1% ten opzichte van de basis-LLM en +7.1% ten opzichte van de sterkste concurrent (Batch Calibration).
Doorbraak bij Mislukte Modellen: Op de SST-5 dataset (5 klassen) met Qwen2-7B (8-shot) steeg de nauwkeurigheid van 24% (basis) en 25% (andere methoden) naar 44% met SC. Dit wordt toegeschreven aan de geleerde negatieve schalingsfactor die de beslissingsgrens van het model effectief omdraaide.
Ablatie Studies:
- Het verwijderen van de schalingsfactor (alleen bias leren, $SC^*$ ) resulteerde in een drastische daling van de prestaties op moeilijke taken, wat bewijst dat het vermogen om de oriëntatie te veranderen essentieel is.
- Het combineren van context-invariance en trust-region regularisatie gaf de beste resultaten, wat aantoont dat ze complementair zijn.
- Ensembling over verschillende contextgroottes en sub-contexten verbeterde de stabiliteit en nauwkeurigheid.

Betekenis en Impact

Dit paper biedt een fundamenteel nieuwe kijk op het kalibreren van LLMs in few-shot settings. Het toont aan dat het simpelweg "verschuiven" van kansen onvoldoende is wanneer het basismodel fundamenteel verkeerd is ingesteld. Door het probleem te benaderen als een klassiek supervised learning probleem met een flexibele affiene transformatie, kan SC systematische fouten corrigeren die voorheen onoplosbaar leken.

De methode is praktisch toepasbaar omdat deze geen extra trainingsdata vereist en alleen de context in de prompt gebruikt. Dit maakt het een krachtige tool voor het verbeteren van de betrouwbaarheid en robuustheid van LLM-toepassingen in real-world scenario's, waarbij data schaars is en prompts variëren. De auteurs waarschuwen echter wel dat kalibratie de zekerheid van het model kan verhogen, wat leidt tot oververtrouwen als de onderliggende data of prompts zelf biased zijn; menselijke toezicht blijft daarom essentieel.

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

1. Het Probleem: De Robot die "Kijkt" maar niet "Begrijpt"

2. De Oplossing: De "Kookpotten" van de Robot

3. Twee Extra Hulpmiddelen: Stabiliteit en Vertrouwen

4. Het Resultaat: De Super-Robot

Samenvatting in één zin

Probleemstelling

Methodologie: Supervised Calibration (SC)

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA