Reward Models Inherit Value Biases from Pretraining

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom de "Jury" (Reward Model) al vooraf gekleurd is door de "Kandidaat" (Pretrained Model)

Stel je voor dat je een grote, slimme robot wilt bouwen die helpt bij het schrijven van brieven, het geven van advies of het beantwoorden van vragen. Je wilt dat deze robot zich gedraagt zoals een mens: vriendelijk, eerlijk en nuttig.

Om dit te bereiken, gebruiken ontwikkelaars een slimme truc. Ze bouwen eerst een enorme, slimme robot (de Pretrained LLM) die alles heeft gelezen wat er op internet staat. Deze robot is heel slim, maar hij weet nog niet precies wat mensen graag hebben.

Vervolgens bouwen ze een tweede robot, de Reward Model (RM). Denk aan deze tweede robot als een jurylid of een keurmeester. Zijn enige taak is om te kijken naar de antwoorden van de eerste robot en te zeggen: "Ja, dit is een goed antwoord!" of "Nee, dit is een slecht antwoord." De eerste robot leert dan van de feedback van deze jury om beter te worden.

Het grote probleem: De Jury heeft al een voorkeur

Dit nieuwe onderzoek van wetenschappers uit Oxford laat zien dat er een groot geheim zit in deze jury.

De jury (de Reward Model) wordt niet vanaf nul gebouwd. Hij wordt gemaakt door de eerste robot (de Pretrained LLM) te nemen en hem een beetje bij te stellen. Het probleem is: de jury erft de voorkeuren en de "karaktertrekken" van de robot waar hij van gemaakt is.

Het is alsof je een jurylid kiest uit een groep mensen die allemaal uit een heel specifiek dorp komen. Zelfs als je ze allemaal hetzelfde boek geeft om te lezen (dezelfde trainingsdata), blijven ze denken zoals mensen uit dat dorp. Ze hebben al een onzichtbare "bril" op die bepaalt hoe ze naar de wereld kijken.

De twee kampen: "Ik" vs. "Wij"

De onderzoekers hebben gekeken naar twee grote robot-families: Llama (van Meta) en Gemma (van Google). Ze ontdekten dat deze twee families heel verschillende "zielen" hebben, en dat deze zielen doorgeven worden aan hun jury's.

Ze gebruikten een creatieve methode om dit te meten, gebaseerd op psychologie. Ze stelden de jury's de vraag: "Wat is het allerbeste ding ter wereld?" en keken welke woorden de jury het hoogst beloonde.

De Llama-jury koos vaak voor woorden als "Vrijheid", "Succes", "Kracht" en "Mogelijkheden".
- De analogie: Dit is de "Ik-geest". Het gaat om individuele prestaties, vrijheid en het bereiken van doelen. Het is alsof de jury zegt: "Jij bent de held van je eigen verhaal."
De Gemma-jury koos vaak voor woorden als "Liefde", "Vriendschap", "Familie" en "Verbinding".
- De analogie: Dit is de "Wij-geest". Het gaat om samenleven, zorg en verbinding met anderen. Het is alsof de jury zegt: "Jij bent belangrijk omdat je deel uitmaakt van een groep."

Het verrassende nieuws: Het is moeilijk om dit te veranderen

Je zou denken: "Oké, als de jury een voorkeur heeft, kunnen we hem dan niet gewoon meer training geven met voorbeelden van het andere gedrag?"

De onderzoekers hebben dit uitgeprobeerd. Ze hebben de jury's getraind met enorme hoeveelheden data (duizenden voorbeelden van wat mensen leuk vinden).

Resultaat: De voorkeur veranderde een beetje, maar verdwijnt niet.
Zelfs na duizenden trainingen bleef de Llama-jury iets meer houden van "Vrijheid" en de Gemma-jury iets meer van "Liefde".

Het is alsof je iemand die van rockmuziek houdt probeert te overtuigen van klassieke muziek. Je kunt hem klassieke muziek laten horen, maar zijn oren zijn al ingesteld op de beat van de rock. De basis van de muziek (de pre-training) is te diep geworteld.

Wat betekent dit voor ons?

De keuze van de basis is een morele keuze: Als je een AI ontwikkelt, is de keuze voor de "basisrobot" (Llama, Gemma, Qwen, etc.) niet alleen een technische keuze over snelheid of slimheid. Het is een keuze over waarden. Welke soort "moraal" wil je dat je AI heeft? Een die meer focust op individuele vrijheid of een die meer focust op gemeenschapszin?
Veiligheid begint eerder: Veel mensen denken dat je AI veilig maakt door hem op het einde te trainen (de "jury" aan te passen). Dit onderzoek zegt: nee, je moet al beginnen bij de basis. Als de basisrobot al vooroordelen heeft, zijn die er waarschijnlijk voor altijd, tenzij je heel specifiek en grondig ingrijpt.
Geen "blanco vel": Een AI is nooit een leeg vel papier. Hij draagt de "erfde" waarden van zijn maker en de data waarmee hij is opgeleid.

Conclusie in één zin:
Je kunt een AI niet volledig "opvoeden" tot een ander persoon als je hem bouwt op de "karaktertrekken" van een ander; de basis van de robot bepaalt al wie hij wordt, zelfs voordat hij zijn eerste woord zegt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Reward Models (RMs) zijn cruciaal voor het aligneren van Large Language Models (LLMs) met menselijke waarden en voorkeuren, vaak via Reinforcement Learning from Human Feedback (RLHF). Hoewel RMs centraal staan in de veiligheidsketen van AI, is er weinig onderzoek gedaan naar de oorsprong van hun eigen waarden. RMs worden geïnitieerd vanuit bestaande LLMs (pretrained of instruction-tuned) en vervolgens gefinetuned op voorkeursdata.

De kernvraag van dit paper is: Erven Reward Models de waardenbias van hun basismodel (pretraining) en blijft deze bias bestaan ondanks het finetunen op menselijke voorkeuren? De auteurs vermoeden dat de keuze van het basismodel (bijv. Llama vs. Gemma) de uitkomsten van de RM fundamenteel beïnvloedt, ongeacht de gebruikte voorkeursdata.

Methodologie

De auteurs hanteren een combinatie van psycholinguïstische analyse en geavanceerde interpretatiemethoden voor RMs:

Exhaustive Token Search: In plaats van generatieve sampling, evalueren ze elk token in het vocabulaire van de RM op een specifieke prompt. Dit maakt het mogelijk om de "best" en "worst" mogelijke antwoorden (tokens) direct te identificeren zonder stochastische variatie.
Psycholinguïstische Corpora: Ze gebruiken gevalideerde lijsten met woorden om waarden te kwantificeren:
- The Big Two: Een psychologisch concept dat waarden indeelt in Agency (individuele doelen, vrijheid, succes) en Communion (relaties, liefde, familie).
- Moral Foundations Dictionary 2 (MFD2): Dekt vijf morele dimensies (Autoriteit, Zorg, Rechtvaardigheid, Loyaliteit, Heiligheid).
Implicit Reward Modeling (MWLR): Om de bias in de basismodellen zelf te meten, definiëren ze een "Implicit Reward Model". Ze berekenen het verschil in log-probabiliteiten tussen twee modellen (bijv. Llama vs. Gemma). Om problemen met tokens met zeer lage waarschijnlijkheid op te lossen, gebruiken ze een Mixture-Weighted Log-Ratio (MWLR) score:
$\text{MWLR} = \frac{1}{2}(p + q) \cdot (\log q - \log p)$
Hierbij zijn $p$ en $q$ de kansen van de twee modellen. Dit stelt hen in staat om te zien welke tokens het meest worden "beloond" door het ene model ten opzichte van het andere.
Gecontroleerde Trainingsexperimenten: Ze trainen eigen RMs vanaf verschillende basismodellen (Llama 3.2 3B en Gemma 2 2B) met identieke hyperparameters en datasets (Skywork en Unified Feedback). Ze variëren de hoeveelheid data (van 13k tot 106k+ voorkeursparen) en analyseren de evolutie van de bias tijdens het trainingstraject.

Belangrijkste Bijdragen

Nieuwe Interpretatiemethode: Ontwikkeling van een methode om RM-bias te kwantificeren door psycholinguïstische corpora te combineren met exhaustive token search.
Systematische Bias in de Wild: Aantonen dat bestaande open-source RMs (van RewardBench) systematisch verschillen in waardenafhankelijkheid van hun basismodel.
Oorsprong in Pretraining: Het traceren van deze bias terug naar de log-probabiliteiten van de instruction-tuned en zelfs de pure pretrained modellen.
Implicit Reward Formulering: Het aantonen dat het verschil in log-probabiliteiten tussen twee modellen zelf kan worden geformuleerd als een bruikbaar implicit reward model dat dezelfde biaspatronen vertoont.
Repliceerbaarheid en Duurzaamheid: Het bewijzen dat deze bias herhaalbaar is en zelfs na intensief finetunen met grote hoeveelheden data blijft bestaan.

Resultaten

Agency vs. Communion Bias:
- Llama-based RMs tonen een sterke voorkeur voor Agency-gerelateerde woorden (bijv. "Freedom", "Success", "Ability").
- Gemma-based RMs tonen een sterke voorkeur voor Communion-gerelateerde woorden (bijv. "Love", "Family", "Friendship").
- Dit patroon is consistent, zelfs wanneer de voorkeursdata en het finetuningproces identiek zijn.
Oorsprong in Basismodellen:
- De bias is al aanwezig in de instruction-tuned versies en de pure pretrained versies van Llama en Gemma.
- De MWLR-analyse toont aan dat voor de prompt "Wat is het beste ding ooit?", het implicit reward model van Llama "Freedom" als hoogst scorend token ziet, terwijl Gemma "Love" als laagst scorend (pessimaal) token ziet.
- Dit effect is robuust over verschillende modelgroottes (van 1B tot 70B) en modelgeneraties.
Training Dynamics en Ablation Studies:
- Tijdens het trainen van RMs verandert de bias: Llama-RMs beginnen te waarderen wat eerder "Communion" was, en Gemma-RMs beginnen "Agency" te waarderen.
- Cruciaal: De kloof tussen de twee modellen sluit niet volledig. Na ongeveer 100.000 voorkeursparen stabiliseert de bias op een niveau dat nog steeds significant verschilt.
- Bij gebruik van "Generalizable Reward Models" (GRM) met regularisatie blijft de bias zelfs na training op 632k voorkeursparen sterk aanwezig.
- Een exploratieve studie met Qwen-modellen toont aan dat deze zelfs een nog sterkere Communion-bias hebben die nauwelijks afneemt, zelfs niet bij grote datasets.
Moral Foundations: Naast Agency/Communion zijn er ook significante verschillen in de MFD2-dimensies (bijv. Llama prefereert Autoriteit en Rechtvaardigheid, terwijl Gemma Zorg en Heiligheid prefereert).

Betekenis en Conclusie

Dit paper levert het empirische bewijs dat Reward Models geen "blank slate" zijn. Hun gedrag wordt fundamenteel gevormd door de pretraining van het basismodel. Dit heeft belangrijke implicaties voor de AI-safety gemeenschap:

Pretraining is cruciaal: Alignement kan niet alleen worden opgelost in de RLHF-fase. De keuze van het basismodel is een morele keuze, niet alleen een prestatie-keuze.
Beperkingen van RLHF: Zelfs met grote hoeveelheden menselijke voorkeursdata kunnen diepgewortelde waardenbias uit de pretraining niet volledig worden "weggespoeld".
Ontwikkelrichting: Open-source ontwikkelaars moeten zich bewust zijn dat hun keuze voor een basismodel (Llama vs. Gemma vs. Qwen) de morele intuïties van het uiteindelijke systeem bepaalt. Toekomstige werk moet zich richten op het filteren van pretraining-data en het ontwikkelen van strategieën om deze inherente biases te mitigeren voordat het finetuningproces begint.

Kortom: de "ruggengraat" (backbone) van een model bepaalt niet alleen de technische infrastructuur, maar ook de morele kern.

Reward Models Inherit Value Biases from Pretraining

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá

Enabling Intrinsic Reasoning over Dense Geospatial Embeddings with DFR-Gemma