When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On
Die Arbeit stellt Implicit Error Counting (IEC) vor, eine Referenz-freie Reinforcement-Learning-Methode, die durch die Zählung und Gewichtung von Fehlern anstelle der Verwendung von Rubriken effektiv Post-Training für virtuelle Anproben optimiert, wo ideale Referenzantworten nicht verfügbar sind.