Scaling Reward Modeling without Human Supervision

Each language version is independently generated for its own context, not a direct translation.

De Kern: Een Rekenmeester zonder Leraar

Stel je voor dat je een zeer slimme robot wilt trainen om wiskundige problemen op te lossen. Normaal gesproken heb je daar duizenden mensen voor nodig die als leraar fungeren. Ze lezen het antwoord van de robot, kijken of het goed is, en geven een puntje of een streepje. Dit heet "mensenfeedback".

Het probleem? Dit is extreem duur, langzaam en soms onbetrouwbaar. Mensen zijn moe, hebben verschillende meningen, en maken fouten.

De auteurs van dit paper (van o.a. Harvard en Microsoft) hebben een slimme truc bedacht: Hoe kunnen we die robot trainen zonder dat er ook maar één mens naar kijkt?

De Oplossing: "De Volgende Zin" als Geheim Signaal

In plaats van mensen te vragen wat goed is, kijken de onderzoekers naar de natuurlijke structuur van taal op het internet.

De Analogie: De Voltooid Verleden Tijd
Stel je voor dat je een boek leest. Als je een zin leest, weet je instinctief wat de volgende zin waarschijnlijk is, omdat het verhaal logisch doorloopt.

De "Goede" optie: De tekst die echt in het boek staat (de echte voortzetting).
De "Slechte" optie: Een zin die je willekeurig uit een ander boek plukt en erachter plakt. Die past niet, het klinkt raar en de logica is verbroken.

De onderzoekers gebruiken deze logica. Ze nemen enorme hoeveelheden wiskundige teksten van het internet (zoals forums en documenten) en knippen ze in stukjes:

De Prompt: Een stukje tekst (bijv. een wiskundige vraag).
De Antwoord: De echte, logische voortzetting uit de tekst.
De "Valse" Antwoorden: Andere stukjes tekst uit dezelfde batch die niet bij die vraag horen.

De computer leert dan: "Oh, als ik deze vraag zie, dan is deze specifieke antwoordzin de 'goede' (hoge score), en die andere random zinnen zijn de 'slechte' (lage score)."

Ze hoeven niets te weten over wiskunde of wat het juiste antwoord is. Ze hoeven alleen maar te weten wat logisch aansluit op wat er voorafgaat.

Waarom werkt dit zo goed?

Het klinkt misschien simpel, maar het werkt verrassend goed. Hier zijn de belangrijkste bevindingen, vertaald naar alledaagse termen:

Kwaliteit boven Kwantiteit (De "Goede" Tekst):
Ze hebben getest met verschillende soorten internetteksten. Het bleek dat teksten die specifiek over wiskunde gaan (zoals FineMath), veel beter werken dan willekeurige teksten.
- Vergelijking: Het is alsof je een chef-kok wilt trainen. Je kunt hem laten oefenen met recepten uit een goed kookboek (wiskundige teksten) of met willekeurige krantenknipsels. De chef wordt veel sneller een meester als hij met de goede recepten oefent, zelfs als niemand hem corrigeert.
De "Batch" Truc:
Ze trainen de robot niet op één vraag tegelijk, maar op een hele klas van vragen tegelijk. In één "batch" (een groepje) heeft de robot 32 vragen en 32 antwoorden. Hij moet dan voor elke vraag het juiste antwoord vinden onder de 31 andere antwoorden in die groep.
- Vergelijking: Het is alsof je een speler in een quiz laat spelen waar hij niet alleen het juiste antwoord moet weten, maar ook moet zien waarom de andere 31 antwoorden in de zaal niet kloppen. Dit maakt de training veel scherper.
Het Resultaat:
De robot die zo is getraind (zonder menselijke leraars), presteert bijna net zo goed als robots die wel met menselijke leraars zijn getraind.
- Hij wordt beter in wiskunde.
- Hij wordt veiliger (hij leert niet om gevaarlijke dingen te doen).
- Hij werkt zelfs beter als je hem gebruikt om de beste antwoorden uit een grote lijst te kiezen (de "Best-of-N" methode).

Waarom is dit belangrijk?

Tot nu toe dachten we dat we duizenden mensen nodig hadden om AI veilig en slim te maken. Dit onderzoek zegt: "Niet per se."

De "wijsheid" zit al in de enorme hoeveelheid tekst op het internet. Als je weet hoe je die tekst moet lezen (niet op de inhoud, maar op de logische samenhang), kun je een AI trainen die heel goed weet wat "goed" en "slecht" is, zonder dat je iemand betaalt om naar de antwoorden te kijken.

Samenvattend:
Stel je voor dat je een kind wilt leren wat goed en fout is. In plaats van dat je duizenden keren moet zeggen "Nee, dat is fout", laat je het kind gewoon duizenden boeken lezen. Het kind leert vanzelf dat een zin die halverwege afbreekt of niet logisch aansluit, "fout" is. Dat is precies wat deze onderzoekers hebben gedaan met AI: ze hebben de AI laten "lezen" in plaats van "leren", en het resultaat is een slimme, veilige en goedkope AI.

Each language version is independently generated for its own context, not a direct translation.

Titel: Scaling Reward Modeling without Human Supervision

Datum: 4 maart 2026
Auteurs: Jingxuan Fan et al. (Harvard University, Cornell University, Microsoft Research, Kempner Institute)

1. Het Probleem

Het trainen van taalmodellen die veilig en behulpzaam zijn, is momenteel sterk afhankelijk van Reinforcement Learning from Human Feedback (RLHF). Dit proces vereist echter grote hoeveelheden gelabelde voorkeursdata (waarbij mensen aangeven welke van twee antwoorden beter is). Dit leidt tot twee fundamentele problemen:

Kosten en Schaalbaarheid: Het verzamelen en annoteren van voorkeursdatasets is extreem duur en resource-intensief, wat de schaalbaarheid beperkt.
Kwaliteit en Betrouwbaarheid: Menselijke feedback is inherent ruisig door subjectiviteit, inconsistentie en labelfouten. Slechte data kan reward-modellen misleiden, wat leidt tot "reward hacking" (waarbij modellen de beloning manipuleren in plaats van het doel te bereiken) en ernstige misalignement-problemen zoals bedrog of sabotage.

De kernvraag van dit onderzoek is: Kan een effectief reward-model worden getraind zonder menselijke supervisie, puur door gebruik te maken van de structuur van grote, onbewerkte webcorpora?

2. Methodologie: Reward-Based Scaling (RBS)

De auteurs introduceren Reward-Based Scaling (RBS), een framework dat onbewerkte webtekst omzet in impliciete voorkeursignalen zonder menselijke annotatie.

Het Kernprincipe:
In plaats van menselijke labels te gebruiken, exploiteert de methode de structuur van "next-token continuation" in natuurlijke taal.

Data Constructie: Grote webdocumenten (specifiek wiskundige teksten) worden opgesplitst in paren van prefix (prompt) en suffix (vervolg).
Impliciete Voorkeuren: Binnen een batch van $B$ $B$ paren $\{(p_i, r_i)\}$ ${(p_{i}, r_{i})}$ :
- De originele suffix $r_i$ wordt behandeld als de "chosen" (gekozen) respons voor prompt $p_i$ .
- Alle andere suffixen in dezelfde batch $\{r_j\}_{j \neq i}$ worden behandeld als "rejected" (verworpen) responsen voor $p_i$ .
Training: Het reward-model (RM) wordt getraind met een Bradley-Terry-objectief om de kans te maximaliseren dat de echte continuatie een hogere score krijgt dan de andere continuaties in de batch.

Formulering:
De loss-functie combineert de Bradley-Terry loss ( $L_{BT}$ ) met een score-centering regularisatie ( $L_{center}$ ):
$L = L_{BT} + c \cdot L_{center}$

$L_{BT}$ : Minimaliseert de negatieve log-likelihood van het verschil tussen de score van de gekozen en de verworpen continuaties.
$L_{center}$ : Straft grote absolute scores af om te voorkomen dat de schaal van de beloning "drift" (oploopt) door ruis in de data. Dit zorgt voor stabielere training en betere generalisatie.

Data Bron:
De experimenten gebruiken wiskundige webdata (FineMath en InfiMM-WebMath) met een trainingsbudget van 11 miljoen tokens.

3. Belangrijkste Bijdragen

Onbewerkte Supervisie: Het bewijzen dat een significant deel van de supervisie die traditioneel aan menselijke voorkeuren wordt toegeschreven, al latent aanwezig is in grote tekstcorpora.
Schalbaarheid zonder Menselijke Kosten: Een methode die reward-modellen traint met bijna nul annotatiekosten, terwijl het prestaties behaalt die vergelijkbaar zijn met sterk toezicht.
Robuustheid en Generalisatie: Het tonen aan dat deze modellen niet alleen goed presteren in het domein waar ze op zijn getraind (wiskunde), maar ook generaliseren naar veiligheids- en instructievolgende taken (Out-of-Distribution).
Praktische Toepasbaarheid: De reward-modellen zijn succesvol gebruikt voor Best-of-N (BoN) selectie en Policy Optimization (GRPO), wat leidt tot aanzienlijke verbeteringen in downstream taken.

4. Resultaten

De auteurs evalueren hun modellen op diverse benchmarks en taken:

RewardBench Prestaties:
- Modellen getraind op 11M tokens laten een gemiddelde verbetering van +7.7 punten zien op RewardBench v2 ten opzichte van de geïnitieerde checkpoints.
- In het domein van wiskunde (in-domain) werd een verbetering van +16.1 punten bereikt.
- Er waren consistente verbeteringen ook in out-of-domain veiligheids- en algemene subsets.
- De prestaties zijn robuust over verschillende backbones (Llama-3.2, Qwen2.5) en schalen (1B tot 7B parameters).
Best-of-N (BoN) Selectie:
- Wanneer gebruikt om de beste uitkomst te selecteren uit $N$ gegenereerde antwoorden, verbeteren de onbewerkte reward-modellen de nauwkeurigheid op wiskundetaken (GSM8K, MATH) aanzienlijk.
- Ze presteren vergelijkbaar met of zelfs beter dan sterke, gesuperviseerde baselines (zoals Skywork-Reward-V2) van vergelijkbare grootte, ondanks dat ze getraind zijn op minder en ruwere data.
Policy Optimization (GRPO):
- Bij het trainen van actor-modellen met Group Relative Policy Optimization (GRPO) leidden de onbewerkte reward-modellen tot consistente verbeteringen in testnauwkeurigheid op MATH en GSM8K.
- Ze overtroffen vaak de resultaten van random initialisatie en waren concurrerend met gesuperviseerde reward-modellen.
Ablatie Studies:
- Batchgrootte: Grotere batches leiden tot betere prestaties door meer contrastieve supervisie.
- Data Kwaliteit: Hogere kwaliteit wiskundige data (FineMath) presteert beter dan minder gecureerde data.
- Splitting: Het toestaan van zinsbrekingen (in plaats van alleen aan zinsgrenzen) creëert "harder" negatieve voorbeelden en leidt tot betere leerresultaten.
- Centering: De score-centering regularisatie is cruciaal voor stabiliteit en voorkomt dat de reward-schaal uit de hand loopt.

5. Betekenis en Conclusie

Dit paper biedt een paradigmaverschuiving in het veld van AI-veiligheid en alignement. Het toont aan dat menselijke supervisie niet strikt noodzakelijk is om effectieve reward-modellen te bouwen.

Kostenefficiëntie: Het elimineert de dure bottleneck van menselijke annotatie, waardoor reward-model training schaalbaarder wordt.
Betrouwbaarheid: Door te vertrouwen op de intrinsieke coherentie van natuurlijke taal in plaats van subjectieve menselijke oordelen, kunnen potentiële bronnen van bias en ruis worden omzeild.
Toekomstperspectief: Hoewel het niet bedoeld is als een volledige vervanging voor menselijke feedback, fungeert deze aanpak als een krachtige basislaag. Het opent de weg voor hybride systemen en maakt het mogelijk om reward-modellen te trainen op schalen die voorheen onbereikbaar waren.

Samenvattend bewijzen de auteurs dat de "supervisie" die nodig is om taalmodellen te aligneren, grotendeels al aanwezig is in de structuur van de wereldwijde webtekst, en dat deze kan worden geharvest met eenvoudige, schaalbare algoritmen.

Scaling Reward Modeling without Human Supervision

De Kern: Een Rekenmeester zonder Leraar

De Oplossing: "De Volgende Zin" als Geheim Signaal

Waarom werkt dit zo goed?

Waarom is dit belangrijk?

Titel: Scaling Reward Modeling without Human Supervision

1. Het Probleem

2. Methodologie: Reward-Based Scaling (RBS)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Robust Multi-agent Communication via Multi-view Message Certification

DySCo: Dynamic Semantic Compression for Effective Long-term Time Series Forecasting

Sven: Singular Value Descent as a Computationally Efficient Natural Gradient Method

Forecasting Supply Chain Disruptions with Foresight Learning

UQ-SHRED: uncertainty quantification of shallow recurrent decoder networks for sparse sensing via engression