Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models
Cette étude révèle que les modèles de récompense de processus (PRM) actuels sont systématiquement vulnérables aux attaques adverses en raison d'une dissociation entre la fluidité et la logique, les transformant en détecteurs de style plutôt qu'en vérificateurs de raisonnement, et propose un cadre de diagnostic et des outils pour évaluer leur robustesse avant déploiement.