Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy
Die Arbeit stellt Skywork-Reward-V2 vor, eine Reihe von Belohnungsmodellen, die durch ein menschlich-künstliche Intelligenz-Synergie-Verfahren auf dem groß angelegten Präferenzdatensatz SynPref-40M trainiert wurden und damit neue Maßstäbe in der Leistungsfähigkeit offener Belohnungsmodelle setzen.