Debiasing LLMs by Fine-tuning

Dit artikel introduceert een kosteneffectieve en generaliseerbare methode om extrapolatiebias in grote taalmodellen te verminderen door middel van supervised fine-tuning met LoRA op instructiedatasets gebaseerd op rationele voorspellingen, wat leidt tot verbeterde prestaties in zowel gecontroleerde experimenten als de voorspelling van aandelenrendementen.

Zhenyu Gao, Wenxi Jiang, Yutong Yan

Gepubliceerd 2026-04-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar nogal vooroordeelvolle voorspeller hebt. Deze voorspeller is een Grote Taalmodel (LLM), een soort super-intelligente computer die alles heeft gelezen wat er op internet staat: nieuws, rapporten, forumdiscussies en boeken.

Het probleem is dat deze computer, net als mensen, een slechte gewoonte heeft: hij kijkt te veel naar het recente verleden.

Het Probleem: De "Nieuwste Nieuws" Ziekte

Stel, een aandeel is de laatste maand hard gestegen. Wat doet onze computer? Hij denkt: "O, het stijgt hard, dus het zal waarschijnlijk blijven stijgen!"
Stel, het is de laatste maand hard gedaald? Dan denkt hij: "Oh nee, het zakt, dus het zal blijven zakken!"

Dit noemen economen extrapolatiebias. De computer neemt een tijdelijke trend en denkt dat die voor altijd blijft duren. Het is alsof iemand die net een paar keer heeft gewonnen in een casino denkt dat hij de rest van de avond zal winnen, of iemand die net een paar keer heeft verloren denkt dat hij nooit meer zal winnen.

De onderzoekers in dit paper ontdekten iets verrassends: als je de computer vriendelijk vraagt: "Wees alsjeblieft rationeel en denk niet te veel na over het recente verleden," gebeurt er niets. De computer blijft zijn fout maken. Het is alsof je tegen een gewoonte zegt "stop ermee" terwijl je gewoonte diep in zijn hersenen is verankerd.

De Oplossing: Een "Hersentraining" (Fine-tuning)

De onderzoekers (Gao, Jiang en Yan) zeggen: "We moeten niet tegen de computer praten, we moeten hem herprogrammeren."

Ze gebruiken een techniek die LoRA (Low-Rank Adaptation) heet. Om dit te begrijpen, gebruiken we een metafoor:

Stel je de computer voor als een gigantische, ervaren kok (de basiscomputer) die al miljoenen recepten kent. Hij is goed in koken, maar hij heeft een slechte gewoonte: hij gebruikt altijd te veel zout als hij net een zoutig gerecht heeft gegeten.

  • De oude manier (Prompting): Je zegt tegen de kok: "Voor deze keer, gebruik alsjeblieft minder zout." De kok luistert, maar zijn handen bewegen toch nog automatisch naar het zoutpotje.
  • De nieuwe manier (LoRA Fine-tuning): In plaats van de hele kok te vervangen (wat te duur en te zwaar is), plakken we een kleine, slimme handschoen op zijn hand. Deze handschoen is heel lichtgewicht.
    • De basis van de kok (zijn kennis over koken, taal, en de wereld) blijft intact.
    • Maar de handschoen leert hem een nieuwe reflex: "Wanneer je een zoutig gerecht ziet, gebruik dan minder zout."

Deze "handschoen" is de Supervised Fine-Tuning (SFT). De onderzoekers geven de computer duizenden voorbeelden van situaties waarin hij een fout maakt, en laten hem zien wat het rationele antwoord zou zijn (bijvoorbeeld: "Als iets stijgt, is de kans groot dat het later weer daalt").

Wat gebeurde er na de training?

De onderzoekers testten dit op twee manieren:

  1. In een laboratorium: Ze lieten de computer voorspellingen doen over wiskundige patronen. De ongetrainde computer reageerde te heftig op kleine veranderingen. Na de training met de "handschoen" (LoRA) reageerde hij veel kalmer en rationeler. Hij leerde dat tijdelijke schommelingen vaak terugkeren naar het gemiddelde.
  2. Op de beurs: Ze lieten de computer voorspellen welke aandelen de volgende maand goed zouden presteren.
    • Vóór training: De computer dacht: "Aandelen die de laatste maand goed deden, doen dat vast ook volgende maand." (Dit is een fout, want aandelen keren vaak terug).
    • Na training: De computer leerde uit de historische data dat aandelen die te hard zijn gestegen, vaak juist gaan dalen. Hij veranderde zijn voorspelling en werd veel accurater.

Waarom is dit belangrijk?

Vandaag de dag gebruiken steeds meer bedrijven AI om financiële beslissingen te nemen (zoals "robo-advisors" die beleggen voor jou). Als die AI een slechte gewoonte heeft om trends te overdrijven, kan dat leiden tot slechte beleggingsadviezen. Mensen verliezen geld omdat de computer net als een paniekerende mens reageert.

De boodschap van dit paper is hoopvol:

We hoeven geen nieuwe, superduurzame computer te bouwen om dit op te lossen. We hoeven alleen maar een kleine, goedkope "training" (de LoRA-handhandschoen) te geven aan de bestaande computer. Hierdoor wordt de AI niet alleen slimmer, maar ook rationeler en veiliger om mee te werken.

Kort samengevat:
De computer was als een student die te veel studeerde op de laatste hoofdstukken van het boek en vergeten was hoe de rest van de theorie werkte. De onderzoekers gaven hem een speciale "noot" (LoRA) die hem herinnerde: "Kijk naar het hele plaatje, niet alleen naar het laatste stukje." En plotseling werd hij een veel betere voorspeller.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →