Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen sehr klugen, aber noch etwas ungestümen Roboter (eine Künstliche Intelligenz) erziehen, damit er dir nicht nur Antworten gibt, sondern gute Antworten.

Das Problem ist: Der Roboter weiß oft nicht genau, was „gut" ist. Er kann eine Antwort geben, die grammatikalisch perfekt ist, aber inhaltlich falsch, oder eine, die höflich klingt, aber eigentlich unsinnig ist.

Hier kommt die Belohnungsfunktion (Reward Model) ins Spiel. Stell sie dir wie einen strenge, aber fairen Lehrer vor. Dieser Lehrer liest zwei Antworten des Roboters und sagt: „Antwort A ist besser als Antwort B." Basierend auf diesen Urteilen lernt der Roboter, sich zu verbessern.

Das Problem bisher war: Dieser „Lehrer" war oft nicht gut genug ausgebildet. Die Daten, mit denen er gelernt hat, waren chaotisch, von Computern selbst erstellt oder einfach zu wenig. Das Ergebnis? Der Roboter lernte falsche Dinge oder war sehr launisch.

Die Autoren dieses Papiers (Skywork AI) haben jetzt einen neuen, super-lehrer vorgestellt: Skywork-Reward-V2.

Hier ist die Geschichte, wie sie ihn gebaut haben, einfach erklärt:

1. Das Problem: Der Lehrer hatte keine Ahnung

Bisher haben Forscher versucht, den Lehrer mit immer mehr Daten zu füttern. Aber es war wie ein Schüler, der 10.000 Bücher liest, aber alle sind von einem verrückten Autor geschrieben, der die Hälfte der Fakten erfindet. Der Schüler wird zwar viel wissen, aber das Falsche.
Die alten „Lehrer" (Reward Models) waren so gut, dass sie auf Standard-Tests gut abschnitten, aber im echten Leben versagten sie oft. Sie konnten nicht erkennen, wenn eine Antwort zwar schön geschrieben war, aber inhaltlich Unsinn war.

2. Die Lösung: Eine perfekte Ausbildungskette (Der „Human-AI Synergy"-Ansatz)

Die Forscher haben einen neuen Weg gefunden, um den Lehrer auszubilden. Sie nennen es SynPref-40M. Das klingt kompliziert, ist aber im Grunde eine zweistufige Ausbildung:

Stufe 1: Die Meisterklasse (Der Mensch)
Ein kleines Team von echten Menschen (Experten) geht durch eine Handvoll Daten. Sie nutzen dabei alle möglichen Werkzeuge: Suchmaschinen, andere KI-Modelle, Fachbücher. Sie prüfen jede Antwort genau: „Ist das Faktisch korrekt? Ist das Code richtig?"
Diese menschlichen Urteile sind das Gold. Sie sind teuer und langsam, aber sie sind die Wahrheit.
Stufe 2: Die Massenproduktion (Die KI hilft)
Jetzt kommt der Clou. Die Forscher nehmen das Wissen der menschlichen Experten und geben es an eine sehr starke KI weiter. Diese KI lernt von den menschlichen Urteilen und fängt an, Millionen weitere Datenpaare zu prüfen.
Aber sie macht das nicht blind! Sie nutzt die menschlichen Urteile als „Vorbilder". Wenn sie unsicher ist, schaut sie: „Was hätte der Mensch in einer ähnlichen Situation gesagt?"

Die Analogie: Stell dir vor, ein erfahrener Koch (der Mensch) zeigt einem Kochschüler (der KI) genau, wie man einen perfekten Salat macht. Danach lässt der Kochschüler den Schüler Millionen weitere Salate zubereiten, aber er gibt ihm immer wieder Tipps: „Mach es wie beim Meister, aber schneller."

3. Der Filter: Nur das Beste bleibt

Nicht jede Antwort, die die KI prüft, ist gut. Manche sind einfach nur „okay".
Das Team hat einen cleveren Filter entwickelt:

Wenn die KI sich zu 100% sicher ist, dass Antwort A besser ist als B, behält sie das.
Wenn die KI unsicher ist oder die menschlichen Experten im Widerspruch dazu stehen, wird die Antwort verworfen oder sogar umgedreht (vielleicht war B doch besser als A!).
Am Ende haben sie 40 Millionen Datenpaare gesammelt, davon 26 Millionen, die so sorgfältig geprüft wurden, als wären sie von einem strengen Professor korrigiert worden.

4. Das Ergebnis: Der neue Weltmeister

Mit diesen hochwertigen Daten haben sie eine ganze Familie von „Lehrern" trainiert (die Skywork-Reward-V2 Modelle).

Die Überraschung: Ein kleiner Lehrer (nur 8 Milliarden Parameter, also relativ klein) ist besser als riesige, 70-Milliarden-Parameter-Lehrer von anderen Firmen.
Warum? Weil Qualität wichtiger ist als Quantität. Ein Lehrer, der 100 perfekte Beispiele kennt, ist besser als einer, der 1 Million schlechte Beispiele kennt.

Was können diese neuen Lehrer?

Sie erkennen Faktenfehler (z. B. wenn der Roboter behauptet, das Wasser sei trocken).
Sie sind fair und lassen sich nicht von schönen Worten oder langen Texten täuschen (Stichwort: „Stil-Bias").
Sie sind sicher und erkennen gefährliche Antworten.
Sie funktionieren besonders gut, wenn man viele Antworten vergleicht (Best-of-N), um die absolut beste zu finden.

Zusammenfassung in einem Satz

Die Forscher haben entdeckt, dass man KI-Modelle nicht einfach mit mehr Daten füttern muss, sondern mit besser kuratierten Daten, bei denen Menschen die Qualitätssicherung übernehmen und KIs die Skalierung übernehmen – wie ein Meisterkoch, der eine Armee von Köchen ausbildet, um Millionen perfekte Gerichte zu kochen.

Das Ergebnis ist ein offenes, kostenloses Werkzeug, das hilft, KI-Modelle menschlicher, sicherer und intelligenter zu machen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Reward Models (RMs) sind ein kritischer Bestandteil von Reinforcement Learning from Human Feedback (RLHF) Pipelines, um Large Language Models (LLMs) an menschliche Präferenzen anzupassen. Trotz ihrer Bedeutung zeigen aktuelle State-of-the-Art-Open-Modelle auf bestehenden Evaluierungs-Benchmarks oft schwache Ergebnisse und scheitern daran, die Nuancen und Komplexität menschlicher Präferenzen vollständig abzubilden.

Die Autoren identifizieren zwei Hauptursachen für diese Fragilität:

Datenqualität und -vielfalt: Bestehende Präferenz-Datensätze sind oft zu eng gefasst, synthetisch generiert oder mangeln an strenger Qualitätskontrolle.
Fehlende Skalierbarkeit: Der Versuch, die Datenmenge durch reine Automatisierung (nur LLMs) oder durch reine menschliche Annotation zu skalieren, führt zu keinen signifikanten Leistungssteigerungen. Zudem zeigen Studien, dass hohe Scores auf dem Standard-Benchmark RewardBench nicht unbedingt mit einer besseren Leistung in Downstream-Aufgaben (wie Best-of-N oder Policy-Training) korrelieren.

2. Methodik: Der Human-AI Synergy-Ansatz

Um diese Herausforderungen zu lösen, stellen die Autoren SynPref-40M, einen großen Präferenz-Datensatz mit 40 Millionen Präferenzpaaren, und eine neuartige, zweistufige Datenkuratierungs-Pipeline vor.

A. SynPref-40M

Dieser Datensatz besteht aus öffentlich verfügbaren Präferenzpaaren (über 40 Quellen), die jedoch nicht roh verwendet werden, sondern durch einen strengen Kuratierungsprozess gefiltert und verbessert werden.

B. Die zweistufige Kuratierungs-Pipeline

Die Pipeline kombiniert die Qualität menschlicher Annotationen mit der Skalierbarkeit von LLMs:

Stufe 1: Kleine Skala, Human-in-the-Loop (Iterativ)
- Ziel: Erstellung eines „Gold"-Datensatzes ( $D_{gold}$ ) und eines „Silber"-Datensatzes ( $D_{silver}$ ).
- Prozess:
  1. Menschliche Verifikation: Menschen annotieren Daten unter strengen Protokollen, wobei sie externe Tools (Suchmaschinen, fortgeschrittene LLMs) zur Faktenprüfung nutzen dürfen, aber die endgültige Entscheidung treffen müssen.
  2. LLM-Annotation: LLMs generieren Labels basierend auf den menschlichen Präferenzen.
  3. Adaptive Retrieval: Ein Reward Model wird auf den Silber-Daten trainiert und auf den Gold-Daten evaluiert. Paare, bei denen das Modell Fehler macht oder geringes Vertrauen hat, werden gezielt aus dem unüberprüften Pool ( $D_{un}$ ) zurückgerufen und neu annotiert.
  4. Kontextuelle Führung: Bei der LLM-Annotation werden ähnliche, menschlich verifizierte Beispiele (Few-Shot) aus $D_{gold}$ bereitgestellt, um die Qualität der LLM-Labels zu erhöhen.
- Ergebnis: Nach 8 Iterationen werden ca. 1 Million hochwertige Paare gesammelt.
Stufe 2: Große Skala, Automatische Kuratierung
- Ziel: Skalierung auf den Rest der 40 Millionen Paare ( $D_{wild}$ ) ohne weitere menschliche Aufsicht.
- Prozess:
  - Ein „Gold"-Reward Model (nur auf menschlichen Daten trainiert) und das beste Modell aus Stufe 1 werden gemeinsam genutzt.
  - Konsistenz-Filter: Paare, bei denen beide Modelle übereinstimmen, werden beibehalten. Bei Diskrepanzen wird das Label entweder beibehalten oder umgekehrt („flipped"), wenn dies mit dem Gold-Modell übereinstimmt.
  - Recycling: Paare, die als inkonsistent verworfen wurden, werden nicht gelöscht, sondern durch Umkehren der „gewonnenen/verlorenen" Labels (Flip) wieder in den Trainingspool integriert, sofern sie mit den menschlichen Präferenzen übereinstimmen.

3. Skywork-Reward-V2 Serie

Basierend auf den 26 Millionen sorgfältig kuratierten Paaren (aus den 40M) wurde die Skywork-Reward-V2-Modellfamilie trainiert.

Architektur: Eine Suite von acht Reward Models mit Backbones von Llama-3.1/3.2 und Qwen3.
Größen: Variieren von 0.6B bis 8B Parametern.
Training: Verwendet ausschließlich das Bradley-Terry-Objektiv (Pairwise Classification) auf dem kuratierten Subset.

4. Wichtige Ergebnisse

Die Modelle wurden auf sieben großen Benchmarks evaluiert und zeigen State-of-the-Art-Leistung:

Benchmark-Leistung: Skywork-Reward-V2 (insbesondere die 8B-Variante) erreicht auf allen sieben Benchmarks (RewardBench, RewardBench v2, PPE, RMB, RM-Bench, JudgeBench) die besten Ergebnisse unter allen Open-Source-Modellen.
- Das Skywork-Reward-V2-Llama-3.1-8B-40M erreicht einen Durchschnittsscore von 88.6, was deutlich über dem bisherigen SOTA (z.B. INF-ORM-Llama3.1-70B mit 73.8) liegt.
Skalierungseffizienz: Ein Modell mit nur 1.7B Parametern übertrifft im Durchschnitt viele 70B-Modelle. Dies beweist, dass Datenqualität wichtiger ist als reine Modellgröße.
Best-of-N (BoN) Skalierung: Die Modelle zeigen eine starke positive Skalierung bei der Auswahl der besten Antwort aus $N$ Optionen (z.B. in RMB und PPE), was für RLHF entscheidend ist.
Robustheit: Die Modelle sind widerstandsfähiger gegen Stil-Bias (RM-Bench) und zeigen bessere Fähigkeiten bei objektiver Korrektheit (Mathematik, Code) als viele spezialisierte Reasoning-Modelle.
Downstream-Leistung: In RLHF-Experimenten führen die mit Skywork-Reward-V2 trainierten Policies zu besseren Ergebnissen auf Benchmarks wie MT-Bench und ArenaHard als Policies, die mit früheren Reward-Modellen trainiert wurden.

5. Abtraktionsstudien (Ablation Studies)

Die Autoren belegen durch Abtraktionen die Wirksamkeit ihrer Methode:

Qualität vs. Quantität: Das bloße Hinzufügen von unkuratierten Daten bringt kaum Leistungssteigerungen. Erst die kuratierten Daten führen zu signifikanten Gewinnen.
Menschliche Anleitung ist essenziell: Ein rein automatischer Ansatz (nur LLM-Annotation ohne menschliche Few-Shot-Beispiele) führt zu einem Leistungsplateau (~74-75%), während die menschlich geführte Kuratierung auf ~83% steigt.
Korrektur von Daten: Das „Recycling" von verworfenen Daten durch Umkehren der Labels (Flip) trägt signifikant zur Leistungssteigerung bei, was zeigt, dass auch „schlechte" Daten wertvoll sein können, wenn sie korrekt interpretiert werden.

6. Bedeutung und Fazit

Das Paper stellt einen Paradigmenwechsel in der Entwicklung von Reward Models dar:

Datenqualität vor Größe: Es wird demonstriert, dass hochqualitative, kuratierte Daten (selbst in kleineren Mengen) die Leistung von riesigen, unkuratierten Datensätzen übertreffen.
Human-AI Synergie: Die Kombination aus menschlicher Verifikation (für Qualität und Protokoll) und LLM-Skalierung (für Volumen) ist der Schlüssel zur Erschließung des Potenzials existierender „Wild"-Daten.
Open Source Fortschritt: Die Veröffentlichung von SynPref-40M und der Skywork-Reward-V2-Serie (bis 8B Parameter) setzt neue Maßstäbe für Open-Source-Reward-Modelle und macht hochleistungsfähige RLHF-Techniken auch für Ressourcen-begrenzte Akteure zugänglich.

Zusammenfassend zeigt die Arbeit, dass die aktuellen Grenzen von Reward Models primär durch mangelnde Datenqualität und nicht durch Modellarchitekturen bedingt sind, und liefert einen skalierbaren Weg, um diese Lücke durch intelligente Mensch-KI-Interaktion zu schließen.