RM-R1: Reward Modeling as Reasoning
Le papier présente RM-R1, une nouvelle classe de modèles de récompense génératifs qui améliorent l'interprétabilité et les performances en traitant la modélisation de la récompense comme un tâche de raisonnement via un mécanisme de « chaîne de critères » et un pipeline d'entraînement combinant distillation et apprentissage par renforcement.