Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

Dit paper introduceert Skywork-Reward-V2, een reeks state-of-the-art beloningsmodellen die zijn getraind op het SynPref-40M-dataset van 40 miljoen voorkeursparen, waarbij een mens-AI synergie-pipeline wordt gebruikt om de kwaliteit en schaal van datacuratie te maximaliseren en zo de prestaties op diverse benchmarks aanzienlijk te verbeteren.

Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao, Jujie He, Jiacai Liu, Chaojie Wang, Rui Yan, Wei Shen, Fuxiang Zhang, Jiacheng Xu, Yang Liu, Yahui Zhou

Gepubliceerd 2026-03-04
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De Kunst van de Digitale Smaakmaker: Hoe Skywork-Reward-V2 AI Leren "Goed" Te Vinden

Stel je voor dat je een enorme groep jonge chefs (de AI-modellen) hebt die allemaal proberen het beste gerecht ter wereld te koken. Ze zijn slim, maar ze weten niet precies wat jij lekker vindt. Soms maken ze iets dat er prachtig uitziet, maar proeft als zeezout. Soms is het eten perfect, maar staat het er een beetje rommelig bij.

Om deze chefs te verbeteren, heb je een smaakdeskundige nodig. In de wereld van AI noemen we deze deskundige een Reward Model (Beloningmodel). Deze "smaakdeskundige" proeft het eten, geeft een cijfer en zegt: "Dit is goed, dat is slecht." De chefs gebruiken dit cijfer om hun recepten te verbeteren.

Het probleem? De huidige smaakdeskundigen zijn vaak onbetrouwbaar. Ze vinden soms dat een gerecht met een mooie presentatie lekkerder is dan een gerecht dat écht goed smaakt. Of ze zijn niet goed genoeg getraind op de duizenden verschillende smaken die mensen hebben.

Deze paper introduceert Skywork-Reward-V2, een nieuwe generatie smaakdeskundigen die een stuk beter is dan de rest. Hier is hoe ze dat deden, vertaald in alledaagse termen:

1. Het Grote Probleem: Teveel "Slechte" Recepten

Vroeger probeerden onderzoekers hun smaakdeskundigen te trainen met enorme stapels recepten die door andere AI's waren geschreven. Het probleem? Het was alsof je een kok traint met recepten van een kok die zelf ook niet weet hoe je moet koken. De data was rommelig, synthetisch en vaak foutief. Het resultaat? De smaakdeskundigen werden niet slimmer, ze werden alleen maar beter in het raden van patronen die er niet waren.

2. De Oplossing: Een Twee-Stage Keuken (Mens + AI)

De auteurs van Skywork-Reward-V2 bedachten een slimme manier om de beste recepten te vinden uit een berg van 40 miljoen mogelijke opties. Ze noemen hun dataset SynPref-40M.

Ze gebruiken een twee-traps proces, zoals het bouwen van een huis:

  • Fase 1: De Meesterkok en de Leerling (Kwaliteit)
    Hier komen echte mensen (de meesterkoks) en slimme AI's (de leerlingkok) samen.

    • De mensen kijken naar een paar recepten en zeggen: "Dit is de beste." Maar ze doen dit niet zomaar. Ze mogen Google gebruiken, code laten uitvoeren of zelfs andere super-slimme AI's raadplegen om zeker te weten dat het antwoord klopt.
    • De AI-kok kijkt mee en leert van deze mensen. Als de AI een fout maakt, halen ze meer voorbeelden op die lijken op die fout, zodat de AI precies leert waar hij het mis had.
    • De analogie: Het is alsof een meesterkok een leerling laat oefenen op de specifieke gerechten waar de leerling altijd de smaak verkeerd inschat.
  • Fase 2: De Automatische Keuken (Schaalbaarheid)
    Nu ze een zeer slimme AI-kok hebben, kunnen ze de rest van de 40 miljoen recepten snel afhandelen.

    • De AI-kok kijkt naar de nieuwe recepten. Als hij zeker weet dat "Recept A" beter is dan "Recept B", en dit komt overeen met wat de meesterkok (de mens) zou zeggen, dan houden ze het recept.
    • Als de AI twijfelt of het fout lijkt, draaien ze het om of laten ze het vallen.
    • De analogie: Het is alsof je een zeer ervaren keurmeester hebt die nu 10.000 nieuwe producten per uur kan controleren, omdat hij al weet wat "goed" is.

3. Het Resultaat: De Ultieme Smaakdeskundige

Uit dit proces kwamen acht nieuwe smaakdeskundigen (de Skywork-Reward-V2 modellen) voort. Ze variëren in grootte, van een klein modelletje tot een krachtig model, maar ze zijn allemaal getraind op die 26 miljoen perfect geselecteerde recepten.

Wat maakt ze zo speciaal?

  • Ze zijn niet bevooroordeeld: Ze houden niet van gerechten die alleen maar mooi verpakt zijn. Ze kijken naar de inhoud.
  • Ze zijn veilig: Ze weten precies wanneer een gerecht "gevaarlijk" is (bijvoorbeeld als het een recept bevat voor het maken van gif).
  • Ze zijn slim: Zelfs een klein model van hen (1,7 miljard parameters) doet het beter dan de grootste, oudste modellen (70 miljard parameters) van anderen.

4. Waarom is dit belangrijk?

Stel je voor dat je een AI wilt bouwen die jou helpt met je huiswerk, je code schrijft of een verhaal bedenkt. Als je de verkeerde smaakdeskundige gebruikt, zal je AI misschien mooie, maar nutteloze zinnen schrijven.

Met Skywork-Reward-V2 krijg je een AI die echt begrijpt wat jij wilt. Het is alsof je van een kok die alleen maar "lekker" zegt als het eten er glanzend uitziet, overstapt naar een kok die proeft of de ingrediënten echt goed zijn gemengd.

Kortom:
Deze paper zegt: "Stop met het verzamelen van miljoenen willekeurige voorbeelden. Gebruik in plaats daarvan een slimme combinatie van menselijke expertise en AI-schaalbaarheid om de beste voorbeelden te vinden. Dan leer je je AI niet alleen sneller, maar ook veel slimmer."

Het is een bewijs dat kwaliteit (de juiste recepten) veel belangrijker is dan kwantiteit (een berg aan recepten).