Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

Each language version is independently generated for its own context, not a direct translation.

De Kunst van de Digitale Smaakmaker: Hoe Skywork-Reward-V2 AI Leren "Goed" Te Vinden

Stel je voor dat je een enorme groep jonge chefs (de AI-modellen) hebt die allemaal proberen het beste gerecht ter wereld te koken. Ze zijn slim, maar ze weten niet precies wat jij lekker vindt. Soms maken ze iets dat er prachtig uitziet, maar proeft als zeezout. Soms is het eten perfect, maar staat het er een beetje rommelig bij.

Om deze chefs te verbeteren, heb je een smaakdeskundige nodig. In de wereld van AI noemen we deze deskundige een Reward Model (Beloningmodel). Deze "smaakdeskundige" proeft het eten, geeft een cijfer en zegt: "Dit is goed, dat is slecht." De chefs gebruiken dit cijfer om hun recepten te verbeteren.

Het probleem? De huidige smaakdeskundigen zijn vaak onbetrouwbaar. Ze vinden soms dat een gerecht met een mooie presentatie lekkerder is dan een gerecht dat écht goed smaakt. Of ze zijn niet goed genoeg getraind op de duizenden verschillende smaken die mensen hebben.

Deze paper introduceert Skywork-Reward-V2, een nieuwe generatie smaakdeskundigen die een stuk beter is dan de rest. Hier is hoe ze dat deden, vertaald in alledaagse termen:

1. Het Grote Probleem: Teveel "Slechte" Recepten

Vroeger probeerden onderzoekers hun smaakdeskundigen te trainen met enorme stapels recepten die door andere AI's waren geschreven. Het probleem? Het was alsof je een kok traint met recepten van een kok die zelf ook niet weet hoe je moet koken. De data was rommelig, synthetisch en vaak foutief. Het resultaat? De smaakdeskundigen werden niet slimmer, ze werden alleen maar beter in het raden van patronen die er niet waren.

2. De Oplossing: Een Twee-Stage Keuken (Mens + AI)

De auteurs van Skywork-Reward-V2 bedachten een slimme manier om de beste recepten te vinden uit een berg van 40 miljoen mogelijke opties. Ze noemen hun dataset SynPref-40M.

Ze gebruiken een twee-traps proces, zoals het bouwen van een huis:

Fase 1: De Meesterkok en de Leerling (Kwaliteit)
Hier komen echte mensen (de meesterkoks) en slimme AI's (de leerlingkok) samen.
- De mensen kijken naar een paar recepten en zeggen: "Dit is de beste." Maar ze doen dit niet zomaar. Ze mogen Google gebruiken, code laten uitvoeren of zelfs andere super-slimme AI's raadplegen om zeker te weten dat het antwoord klopt.
- De AI-kok kijkt mee en leert van deze mensen. Als de AI een fout maakt, halen ze meer voorbeelden op die lijken op die fout, zodat de AI precies leert waar hij het mis had.
- De analogie: Het is alsof een meesterkok een leerling laat oefenen op de specifieke gerechten waar de leerling altijd de smaak verkeerd inschat.
Fase 2: De Automatische Keuken (Schaalbaarheid)
Nu ze een zeer slimme AI-kok hebben, kunnen ze de rest van de 40 miljoen recepten snel afhandelen.
- De AI-kok kijkt naar de nieuwe recepten. Als hij zeker weet dat "Recept A" beter is dan "Recept B", en dit komt overeen met wat de meesterkok (de mens) zou zeggen, dan houden ze het recept.
- Als de AI twijfelt of het fout lijkt, draaien ze het om of laten ze het vallen.
- De analogie: Het is alsof je een zeer ervaren keurmeester hebt die nu 10.000 nieuwe producten per uur kan controleren, omdat hij al weet wat "goed" is.

3. Het Resultaat: De Ultieme Smaakdeskundige

Uit dit proces kwamen acht nieuwe smaakdeskundigen (de Skywork-Reward-V2 modellen) voort. Ze variëren in grootte, van een klein modelletje tot een krachtig model, maar ze zijn allemaal getraind op die 26 miljoen perfect geselecteerde recepten.

Wat maakt ze zo speciaal?

Ze zijn niet bevooroordeeld: Ze houden niet van gerechten die alleen maar mooi verpakt zijn. Ze kijken naar de inhoud.
Ze zijn veilig: Ze weten precies wanneer een gerecht "gevaarlijk" is (bijvoorbeeld als het een recept bevat voor het maken van gif).
Ze zijn slim: Zelfs een klein model van hen (1,7 miljard parameters) doet het beter dan de grootste, oudste modellen (70 miljard parameters) van anderen.

4. Waarom is dit belangrijk?

Stel je voor dat je een AI wilt bouwen die jou helpt met je huiswerk, je code schrijft of een verhaal bedenkt. Als je de verkeerde smaakdeskundige gebruikt, zal je AI misschien mooie, maar nutteloze zinnen schrijven.

Met Skywork-Reward-V2 krijg je een AI die echt begrijpt wat jij wilt. Het is alsof je van een kok die alleen maar "lekker" zegt als het eten er glanzend uitziet, overstapt naar een kok die proeft of de ingrediënten echt goed zijn gemengd.

Kortom:
Deze paper zegt: "Stop met het verzamelen van miljoenen willekeurige voorbeelden. Gebruik in plaats daarvan een slimme combinatie van menselijke expertise en AI-schaalbaarheid om de beste voorbeelden te vinden. Dan leer je je AI niet alleen sneller, maar ook veel slimmer."

Het is een bewijs dat kwaliteit (de juiste recepten) veel belangrijker is dan kwantiteit (een berg aan recepten).

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoewel reward models (RMs) cruciaal zijn voor Reinforcement Learning from Human Feedback (RLHF), presteren de huidige state-of-the-art open source modellen slecht op bestaande evaluatiebenchmarks. Ze slagen er niet in om de nuance en complexiteit van menselijke voorkeuren te vangen. De auteurs stellen de hypothese dat deze broosheid voornamelijk voortkomt uit beperkingen in de beschikbare voorkeursdatasets: deze zijn vaak te smal, synthetisch gelabeld of ontberen strikte kwaliteitscontrole. Bovendien tonen studies aan dat scores op de populaire RewardBench niet altijd correleren met prestaties in downstream-taken (zoals best-of-N selectie of policy training), wat suggereert dat de huidige evaluatiemethoden en datakwaliteit ontoereikend zijn.

Methodologie

De kern van de oplossing is SynPref-40M, een groot dataset met 40 miljoen voorkeursparen, waarvan 26 miljoen zorgvuldig is gecureerd. Om dit in schaal te brengen, hebben de auteurs een twee-fasen pipeline ontworpen die menselijke en kunstmatige intelligentie (AI) combineert:

Fase 1: Kleine schaal, mens-in-de-lus (Human-in-the-Loop)
- Initiële verzameling: Verzameling van ongeverifieerde data uit diverse open bronnen (>40).
- Attributen generatie: LLMs genereren metadata voor elk paar (taakcategorie, objectiviteit, controversieelheid, gewenste attributen en annotatierichtlijnen).
- Menselijke verificatie: Menselijke annotatoren verifiëren data volgens een strikt protocol. Ze mogen externe tools gebruiken (zoekmachines, geavanceerde LLMs voor wiskunde/code) om feiten te controleren, maar de uiteindelijke oordeelsvorming blijft bij de mens. Dit creëert een "Gold" dataset ( $D_{gold}$ ).
- Adaptieve ophaling (Adaptive Retrieval): Een reward model wordt getraind op "Silver" data (LLM-gelabeld). Het model wordt geëvalueerd op de Gold data. Fouten worden geanalyseerd en er worden nieuwe, vergelijkbare voorbeelden uit de ongeverifieerde pool opgehaald om opnieuw te labelen. Dit proces herhaalt zich iteratief.
- LLM-labeling met menselijke gids: Voor het labelen van grote hoeveelheden data worden sterke LLMs gebruikt, maar dan geconditioneerd op menselijk gelabelde voorbeelden (few-shot) die specifiek zijn opgehaald voor dat type fout.
Fase 2: Grote schaal, automatische curatie
- Consistentie-filtering: De beste reward model uit Fase 1 en een "Gold" reward model (getraind op menselijke data) worden gebruikt om de resterende "wild" data te filteren.
- Selectie en correctie: Paren die consistent zijn met beide modellen worden behouden. Paren waar de modellen van mening verschillen, worden geannoteerd door LLMs (geleid door menselijke voorbeelden).
- Correctie ("Recycling"): Paren die door de filters worden verworpen, worden niet weggegooid. Als de labels worden omgedraaid (van gekozen/verworpen naar verworpen/gekozen), kunnen ze soms toch nuttige signalen bevatten. Deze "gecorrigeerde" data wordt ook toegevoegd aan de training.

Model Training:
Op basis van deze 26 miljoen gecureerde paren worden acht reward models getraind (Skywork-Reward-V2), variërend van 0.6B tot 8B parameters, gebaseerd op de Llama-3.1/3.2 en Qwen3 architecturen. Ze worden getraind met de standaard Bradley-Terry loss.

Belangrijkste Bijdragen

SynPref-40M: De tot nu toe grootste gecureerde voorkeursmix (40M paren, waarvan 26M hoogwaardig gecureerd).
Skywork-Reward-V2 Serie: Acht state-of-the-art reward models die presteren op een breed scala aan taken, van menselijke voorkeuren tot objectieve juistheid en veiligheid.
Human-AI Synergie Pipeline: Een bewezen methode die menselijke verificatie combineert met schaalbare LLM-labeling, waarbij adaptieve ophaling en consistentie-filtering de datakwaliteit maximaliseren.
Inzicht in Data Scaling: Het paper demonstreert dat schaalbaarheid alleen niet werkt; kwaliteit en curatie zijn de drijvende krachten. Ongecurateerde data schalen levert nauwelijks winst op, terwijl zorgvuldig gecureerde data zelfs kleine modellen (1.7B) superieur maakt aan veel grotere modellen (70B).

Resultaten

De Skywork-Reward-V2 modellen behalen state-of-the-art prestaties op zeven grote benchmarks:

Algemene Prestaties: De 8B variant ( $Skywork-Reward-V2-Llama-3.1-8B-40M$ ) behaalt een gemiddelde score van 88.6, wat significant hoger is dan alle bestaande open reward models (inclusief 70B modellen zoals INF-ORM-Llama3.1-70B).
Best-of-N Schaling: De modellen tonen uitstekende schaalbaarheid bij best-of-N selectie, wat cruciaal is voor RLHF. Ze overtreffen GPT-4o en andere SOTA-modellen met marges tot 20 punten.
Robuustheid: Ze zijn zeer resistent tegen stijl-bias (RM-Bench) en presteren sterk op objectieve taken (wiskunde, code) en veiligheidsaspecten.
Ablatie Studies:
- Menselijke curatie is essentieel; puur LLM-labeling levert nauwelijks verbetering op.
- Adaptieve ophaling verbetert de kwaliteit van LLM-labeling aanzienlijk.
- Het gebruik van "gecorrigeerde" data (omgedraaide paren) levert extra prestatiewinst op.
- Zelfs het trainen op slechts 1.8% van de volledige gecureerde dataset (ongeveer 290K paren) is voldoende om de vorige SOTA (70B model) te verslaan.

Betekenis en Impact

Dit werk markeert een belangrijke stap voorwaarts in het veld van open reward models. Het weerlegt het idee dat alleen grotere modellen of meer data nodig zijn voor betere RLHF-resultaten. In plaats daarvan benadrukt het dat datakwaliteit en zorgvuldige curatie de beperkende factor zijn.

De methodologie toont aan hoe menselijke expertise kan worden geschaald door AI, waardoor het mogelijk wordt om enorme datasets te verwerken zonder de kwaliteit te verliezen. Dit maakt hoogwaardige reward models toegankelijker voor de gemeenschap en versnelt de ontwikkeling van veilige en nuttige AI-systemen. De bevindingen dat kleine, goed getrainde modellen grotere modellen kunnen overtreffen, hebben grote implicaties voor de efficiëntie en kosten van toekomstige RLHF-workflows.

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

1. Het Grote Probleem: Teveel "Slechte" Recepten

2. De Oplossing: Een Twee-Stage Keuken (Mens + AI)

3. Het Resultaat: De Ultieme Smaakdeskundige

4. Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Byte-token Enhanced Language Models for Temporal Point Processes Analysis