When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On
Cet article propose l'« Implicit Error Counting » (IEC), une méthode d'apprentissage par renforcement sans référence qui remplace les rubriques d'évaluation par un comptage d'erreurs pondérées, démontrant ainsi son efficacité supérieure à l'approche « Rubrics as Rewards » pour le réessayage virtuel de vêtements où plusieurs réponses valides existent.