wDPO: Winsorized Direct Preference Optimization for Robust LLM Alignment

Deze paper introduceert wDPO, een robuuste variant van Direct Preference Optimization die door middel van hiërarchische winsorisatie en gerichte interventies op data- en gradiëntniveau effectief omgaat met verschillende soorten ruis in voorkeursdata voor betere LLM-uitlijning.

Jilong Liu, Yonghui Yang, Pengyang Shao, Haokai Ma, Wei Qin, Richang Hong

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar nog wat onervaren robot (een Large Language Model of LLM) wilt leren hoe hij zich moet gedragen. Je wilt dat hij behulpzaam is, maar ook veilig en niet schadelijk. Om dit te doen, geef je hem voorbeelden van gesprekken: in elk voorbeeld zie je een vraag en twee mogelijke antwoorden. Je zegt de robot dan: "Antwoord A is beter dan antwoord B."

Dit proces heet DPO (Direct Preference Optimization). Het is een slimme manier om de robot te trainen zonder een ingewikkeld tussenstapje met een "beloningssysteem".

Maar hier zit een probleem: De mensen die de voorbeelden maken, maken fouten.

Soms zeggen ze per ongeluk dat het slechte antwoord beter is dan het goede (een omgekeerde label). Soms zijn de twee antwoorden zo vergelijkbaar dat het moeilijk is om te zeggen welke beter is (een vage vergelijking). Als je de robot gewoon laat leren van deze rommelige data, gaat hij in de war, wordt hij onstabiel en leert hij de verkeerde dingen.

De auteurs van dit paper hebben een nieuwe oplossing bedacht: wDPO (Winsorized Direct Preference Optimization).

Hier is hoe wDPO werkt, uitgelegd met een paar creatieve analogieën:

1. Het Probleem: De "Luidruchtige Klas"

Stel je voor dat de robot een klaslokaal is waar een leraar (de trainer) naar luistert.

  • Normale DPO: De leraar luistert naar iedereen even hard. Als er één of twee zeer verwarde leerlingen zijn die heel hard schreeuwen (omdat ze de verkeerde antwoorden geven of omdat ze twijfelen), dan luistert de leraar alleen maar naar die schreeuwers. De rustige, correcte leerlingen worden overstemd. De robot leert dan op basis van de verkeerde informatie.
  • Bestaande oplossingen: Andere methoden proberen de hele klas een beetje zachter te maken of iedereen evenveel te straffen. Maar dit werkt niet perfect, omdat het probleem niet bij iedereen hetzelfde is.

2. De Oplossing: wDPO (De Slimme Leraar)

wDPO is als een zeer slimme leraar die twee verschillende tactieken gebruikt om de chaos te beheersen, afhankelijk van wat de fout is.

Stap 1: De "Fluister-herstel" (voor de omgekeerde fouten)

Soms is een antwoord duidelijk verkeerd omgekeerd (bijvoorbeeld: "Ik haat de wereld" wordt als 'beter' gemarkeerd dan "Ik hou van de wereld").

  • De analogie: Stel je voor dat een leerling per ongeluk een verkeerd antwoord roept. In plaats van de hele klas stil te maken, kijkt de leraar naar de groep en zegt: "Ah, die ene leerling heeft duidelijk een foutje gemaakt. Laten we zijn stem even zachtjes corrigeren, alsof we zeggen: 'Nee, je bedoelde het anders'."
  • In techniek: wDPO herkent deze paar "omgekeerde" voorbeelden en past ze zachtjes aan. Het corrigeert ze niet volledig, maar maakt ze minder schadelijk voor de robot.

Stap 2: De "Geluidsreducer" (voor de vage vergelijkingen)

Soms zijn de antwoorden zo moeilijk te onderscheiden dat de robot er enorme moeite mee heeft. Dit zorgt voor een enorme "pijn" (verlies) in de berekening.

  • De analogie: Stel je voor dat een paar leerlingen heel hard schreeuwen omdat ze het niet weten. Ze schreeuwen niet omdat ze verkeerd zijn, maar omdat ze verward zijn. Als de leraar naar ze luistert, wordt hij gek. wDPO doet alsof er een geluidsreducer op de microfoon van deze verwarde leerlingen zit. Hij laat ze nog steeds praten, maar hij zet hun volume zachtjes naar beneden. Ze kunnen de robot niet meer "overstemmen" met hun twijfel.
  • In techniek: Dit heet "Winsorization". Het knipt de uiterst hoge straffen (losses) af die komen van deze moeilijke, vage voorbeelden, zodat ze de robot niet uit het lood slaan.

Waarom is dit zo goed?

De auteurs hebben getoond dat wDPO de robot veel beter maakt dan de oude methoden, vooral als de data erg rommelig is.

  • Het is slim: Het maakt onderscheid tussen "dit is een duidelijke fout" en "dit is gewoon moeilijk".
  • Het is efficiënt: Het heeft geen extra dure computers of modellen nodig om dit te doen; het gebruikt alleen de informatie die al tijdens het leren beschikbaar is.
  • Het werkt: In tests met verschillende robots en veiligheidsproblemen (zoals het niet geven van gevaarlijk advies) bleek wDPO de beste resultaten te leveren. Het robotgedrag werd stabieler en veiliger, zelfs als de trainingsdata vol zat met fouten.

Kortom: wDPO is als een ervaren coach die weet wanneer hij een speler moet corrigeren en wanneer hij het volume moet verlagen, zodat het hele team (de robot) in de juiste richting leert lopen, zonder dat één of twee verwarde spelers het spel verpesten.