Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy
Ce papier présente Skywork-Reward-V2, une série de modèles de récompense open-source qui atteignent des performances de pointe grâce à l'utilisation du jeu de données SynPref-40M, créé via une synergie humain-IA pour curer à grande échelle des préférences de haute qualité.