Debiasing LLMs by Fine-tuning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar nogal vooroordeelvolle voorspeller hebt. Deze voorspeller is een Grote Taalmodel (LLM), een soort super-intelligente computer die alles heeft gelezen wat er op internet staat: nieuws, rapporten, forumdiscussies en boeken.

Het probleem is dat deze computer, net als mensen, een slechte gewoonte heeft: hij kijkt te veel naar het recente verleden.

Het Probleem: De "Nieuwste Nieuws" Ziekte

Stel, een aandeel is de laatste maand hard gestegen. Wat doet onze computer? Hij denkt: "O, het stijgt hard, dus het zal waarschijnlijk blijven stijgen!"
Stel, het is de laatste maand hard gedaald? Dan denkt hij: "Oh nee, het zakt, dus het zal blijven zakken!"

Dit noemen economen extrapolatiebias. De computer neemt een tijdelijke trend en denkt dat die voor altijd blijft duren. Het is alsof iemand die net een paar keer heeft gewonnen in een casino denkt dat hij de rest van de avond zal winnen, of iemand die net een paar keer heeft verloren denkt dat hij nooit meer zal winnen.

De onderzoekers in dit paper ontdekten iets verrassends: als je de computer vriendelijk vraagt: "Wees alsjeblieft rationeel en denk niet te veel na over het recente verleden," gebeurt er niets. De computer blijft zijn fout maken. Het is alsof je tegen een gewoonte zegt "stop ermee" terwijl je gewoonte diep in zijn hersenen is verankerd.

De Oplossing: Een "Hersentraining" (Fine-tuning)

De onderzoekers (Gao, Jiang en Yan) zeggen: "We moeten niet tegen de computer praten, we moeten hem herprogrammeren."

Ze gebruiken een techniek die LoRA (Low-Rank Adaptation) heet. Om dit te begrijpen, gebruiken we een metafoor:

Stel je de computer voor als een gigantische, ervaren kok (de basiscomputer) die al miljoenen recepten kent. Hij is goed in koken, maar hij heeft een slechte gewoonte: hij gebruikt altijd te veel zout als hij net een zoutig gerecht heeft gegeten.

De oude manier (Prompting): Je zegt tegen de kok: "Voor deze keer, gebruik alsjeblieft minder zout." De kok luistert, maar zijn handen bewegen toch nog automatisch naar het zoutpotje.
De nieuwe manier (LoRA Fine-tuning): In plaats van de hele kok te vervangen (wat te duur en te zwaar is), plakken we een kleine, slimme handschoen op zijn hand. Deze handschoen is heel lichtgewicht.
- De basis van de kok (zijn kennis over koken, taal, en de wereld) blijft intact.
- Maar de handschoen leert hem een nieuwe reflex: "Wanneer je een zoutig gerecht ziet, gebruik dan minder zout."

Deze "handschoen" is de Supervised Fine-Tuning (SFT). De onderzoekers geven de computer duizenden voorbeelden van situaties waarin hij een fout maakt, en laten hem zien wat het rationele antwoord zou zijn (bijvoorbeeld: "Als iets stijgt, is de kans groot dat het later weer daalt").

Wat gebeurde er na de training?

De onderzoekers testten dit op twee manieren:

In een laboratorium: Ze lieten de computer voorspellingen doen over wiskundige patronen. De ongetrainde computer reageerde te heftig op kleine veranderingen. Na de training met de "handschoen" (LoRA) reageerde hij veel kalmer en rationeler. Hij leerde dat tijdelijke schommelingen vaak terugkeren naar het gemiddelde.
Op de beurs: Ze lieten de computer voorspellen welke aandelen de volgende maand goed zouden presteren.
- Vóór training: De computer dacht: "Aandelen die de laatste maand goed deden, doen dat vast ook volgende maand." (Dit is een fout, want aandelen keren vaak terug).
- Na training: De computer leerde uit de historische data dat aandelen die te hard zijn gestegen, vaak juist gaan dalen. Hij veranderde zijn voorspelling en werd veel accurater.

Waarom is dit belangrijk?

Vandaag de dag gebruiken steeds meer bedrijven AI om financiële beslissingen te nemen (zoals "robo-advisors" die beleggen voor jou). Als die AI een slechte gewoonte heeft om trends te overdrijven, kan dat leiden tot slechte beleggingsadviezen. Mensen verliezen geld omdat de computer net als een paniekerende mens reageert.

De boodschap van dit paper is hoopvol:

We hoeven geen nieuwe, superduurzame computer te bouwen om dit op te lossen. We hoeven alleen maar een kleine, goedkope "training" (de LoRA-handhandschoen) te geven aan de bestaande computer. Hierdoor wordt de AI niet alleen slimmer, maar ook rationeler en veiliger om mee te werken.

Kort samengevat:
De computer was als een student die te veel studeerde op de laatste hoofdstukken van het boek en vergeten was hoe de rest van de theorie werkte. De onderzoekers gaven hem een speciale "noot" (LoRA) die hem herinnerde: "Kijk naar het hele plaatje, niet alleen naar het laatste stukje." En plotseling werd hij een veel betere voorspeller.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling: Extrapolatiebias in LLMs

Grote Taalmodellen (LLMs) vertonen systematische extrapolatiebias bij het vormen van voorspellingen op basis van zowel experimentele als real-world data. Dit betekent dat modellen, net als mensen, een te groot gewicht toekennen aan recente trends en deze ten onrechte als permanent beschouwen, in plaats van te rekening houden met mean-reversion (terugkeer naar het gemiddelde).

Aanleiding: Bestaande onderzoek toont aan dat prompt-based methoden (zoals instructies om rationeel te redeneren) weinig effect hebben om deze bias te verhelpen. De bias lijkt diep verankerd te zijn in de geleerde representaties van het model tijdens de pretraining, en niet slechts een kwestie van hoe de vraag wordt gesteld.
Oorzaak: LLMs worden getraind op enorme corpora (nieuws, analistenrapporten, forums) waarin extrapolatieve taal over vermogens en aandelenkoersen veel voorkomt. Tijdens de "alignment"-fase (afstemming op menselijke voorkeuren) worden deze biases vaak niet gecorrigeerd, maar soms zelfs versterkt door menselijke annotatoren die zelf ook onderhevig zijn aan dergelijke biases.
Gevolg: Zonder ingrijpen zullen autonome AI-agenten in financiële besluitvorming (zoals robo-advisors) deze biases reproduceren, wat leidt tot onbetrouwbare voorspellingen en versterking van menselijke gedragsfouten in plaats van vermindering.

Methodologie: Supervised Fine-Tuning met LoRA

De auteurs stellen een nieuwe aanpak voor om deze bias te corrigeren door direct in te grijpen op het parameter-niveau van het model, in plaats van alleen de input (prompts) te manipuleren.

Framework:
- Data-scheiding: Er wordt strikt onderscheid gemaakt tussen trainings-, validatie- en testdata. De testdata (voorspellingstaken) wordt nooit tijdens het trainingsproces gebruikt.
- Instruction Dataset: Er wordt een dataset samengesteld van prompt-response paren. De prompts bevatten historische data (bijv. aandelenrendementen), maar de antwoorden (doelwaarden) zijn rationele benchmarks. Deze doelen worden gegenereerd op basis van rationele verwachtingen (conditional expectations) of gerealiseerde toekomstige rendementen.
- Doel: Het model leert dat de "rationele" antwoorden anders zijn dan zijn standaard, extrapolerende voorspellingen.
Technische Implementatie (LoRA):
- Model: Het paper gebruikt Qwen3-32B (32 miljard parameters), een open-weight model.
- Low-Rank Adaptation (LoRA): In plaats van volledige fine-tuning (wat computergewijs onhaalbaar is en leidt tot "catastrophic forgetting" van algemene taalvaardigheden), gebruiken de auteurs LoRA.
  - De oorspronkelijke gewichten ( $W_0$ ) worden bevroren.
  - Er worden kleine, trainbare matrices ( $A$ en $B$ ) toegevoegd aan de attention-layers.
  - Alleen deze kleine matrices worden bijgewerkt. Dit kost minder dan 1% van de rekenkracht van volledige fine-tuning.
  - Na training worden de matrices samengevoegd met de oorspronkelijke gewichten, zonder extra inferentie-overhead.
Validatie:
- Early Stopping: Training wordt gestopt zodra de prestaties op de validatieset niet meer verbeteren om overfitting te voorkomen.
- Out-of-Sample Evaluatie: De definitieve test gebeurt op de volledig onbekende testset om te bewijzen dat de biasvermindering echt is en geen artefact van in-sample fitting.

Resultaten

De methode werd getest in twee settings: gecontroleerde experimenten en empirische aandelenmarktvoorspellingen.

1. Gecontroleerde Experimenten (AR(1) Processen)

Setup: Het model moest voorspellingen doen voor AR(1)-processen met verschillende persistentie-waarden ( $\rho$ ), vergelijkbaar met een experiment van Afrouzi et al. (2023) met menselijke proefpersonen.
Baseline: Het ongetrainde model vertoonde een sterke overreactie (negatieve regressiecoëfficiënt $b$ tussen voorspellingsrevisies en fouten). De bias was het sterkst bij tijdelijke processen ( $\rho=0.0$ ) en het zwakst bij random walks ( $\rho=1.0$ ), wat exact overeenkwam met menselijk gedrag.
Na Fine-tuning: De overreactiebias werd statistisch onbeduidend. De coëfficiënten varieerden van -0,073 tot -0,027 en waren niet significant verschillend van nul. Het model leerde de rationele verwachtingen.

2. Voorspelling van Aandelenrendementen (S&P 500)

Setup: Het model voorspelde maandelijkse rendementen voor S&P 500-bedrijven op basis van de afgelopen 12 maanden.
Baseline: Het model vertoonde een duidelijke extrapolatiebias: het legde een sterk positief gewicht op recente rendementen (coëfficiënt op de meest recente maand: 0,394). Dit bevestigde eerdere bevindingen van Chen et al. (2024).
Na Fine-tuning: De bias werd omgekeerd. Het model leerde uit de trainingsdata dat recente winnaars vaak een correctie ondergaan (mean reversion).
- De coëfficiënt op de meest recente maand werd negatief (-0,120).
- Alle lags hadden nu negatieve coëfficiënten, wat aangeeft dat het model de empirische dynamiek van de markt (kortetermijn-reversie) heeft internaliseerd.

Belangrijkste Bijdragen

Parameter-niveau Interventie: Het paper demonstreert dat gedragsbias in LLMs niet alleen een kwestie van prompting is, maar een fundamenteel kenmerk van de parameters dat alleen via fine-tuning kan worden gecorrigeerd.
LoRA als Efficiënte Oplossing: Het toont aan dat Low-Rank Adaptation een kosteneffectieve manier is om specifieke gedragsbias te corrigeren zonder de algemene taalvaardigheden van het model te verliezen.
Generaliseerbaarheid: De methode werkt zowel in synthetische experimenten als in complexe, real-world financiële data (aandelenmarkt).
Kosten: De totale trainingskosten bedragen slechts enkele honderden dollars, wat extreem laag is vergeleken met de miljoenen die nodig zijn voor pretraining.

Significantie en Toekomstperspectief

De bevindingen hebben directe implicaties voor de toepassing van AI in de financiële sector:

Verantwoordelijke AI: Voor het inzetten van autonome AI-agenten in financiële besluitvorming (zoals robo-advisors) is het essentieel dat deze modellen rationele benchmarks volgen in plaats van menselijke biases te kopiëren.
Toepassingsgebieden: De methode is toepasbaar op diverse domeinen zoals kredietrisico-beoordeling (waarbij extrapolatie kan leiden tot pro-cyclische leningverlening), macro-economische nowcasting en algoritmische handel.
Praktische Implementatie: Het biedt ontwikkelaars een praktische, goedkope tool om de voorspellingslaag van LLM-powered systemen te "de-biasen" voordat deze in productie gaan, waardoor de betrouwbaarheid van automatisch gegenereerd financieel advies drastisch verbetert.

Kortom, dit paper levert het bewijs dat LLM-bias een leerbaar en corrigeerbaar probleem is, mits men ingrijpt op het juiste niveau (de parameters) met de juiste data (rationele benchmarks).

Debiasing LLMs by Fine-tuning

Het Probleem: De "Nieuwste Nieuws" Ziekte

De Oplossing: Een "Hersentraining" (Fine-tuning)

Wat gebeurde er na de training?

Waarom is dit belangrijk?

Probleemstelling: Extrapolatiebias in LLMs

Methodologie: Supervised Fine-Tuning met LoRA

Resultaten

Belangrijkste Bijdragen

Significantie en Toekomstperspectief

Meer zoals dit

Financial Anomaly Detection for the Canadian Market

On options-driven realized volatility forecasting: Information gains via rough volatility model

Transfer Learning for Loan Recovery Prediction under Distribution Shifts with Heterogeneous Feature Spaces

When cooperation is beneficial to all agents

YC Bench: a Live Benchmark for Forecasting Startup Outperformance in Y Combinator Batches