When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

Each language version is independently generated for its own context, not a direct translation.

🧵 Le Problème : Quand l'IA essaie de s'habiller (et rate son coup)

Imaginez que vous demandez à un ami très doué mais un peu distrait de vous créer une photo de vous portant une robe spécifique.

Le défi : Il n'y a pas une seule "bonne" photo possible. Vous pouvez porter la robe de différentes façons, avec un éclairage différent, ou une pose légèrement changée. Tant que la robe est bien sur vous, c'est bon.
Le problème actuel : Pour entraîner l'IA à faire ça, on lui donne habituellement une "liste de contrôle" (un rubric) basée sur une photo parfaite de référence. Mais si on n'a pas de photo parfaite de référence (parce que chaque situation est unique), cette liste de contrôle devient floue. L'IA ne sait plus ce qu'elle doit faire exactement.

C'est comme si un professeur de cuisine demandait à un élève de faire un gâteau, mais qu'il n'avait pas de recette parfaite à lui montrer. Il dit : "Fais un bon gâteau", mais l'élève ne sait pas si "bon" signifie "pas trop sucré", "pas trop sec" ou "bien décoré".

💡 La Solution : Compter les erreurs au lieu de chercher la perfection

Les auteurs de ce papier proposent une idée géniale : au lieu de demander à l'IA "Est-ce que c'est parfait ?", demandons-lui "Qu'est-ce qui ne va pas ?".

Ils appellent cela IEC (Implicit Error Counting) ou "Comptage d'erreurs implicite".

L'analogie du Détective vs. Le Critique d'Art

L'ancienne méthode (Rubriques) : C'est comme un critique d'art qui regarde une peinture et dit : "C'est un 7/10". C'est subjectif, flou, et ça change selon l'humeur du critique.
La nouvelle méthode (IEC) : C'est comme un inspecteur de police très méticuleux. Il ne dit pas "c'est joli". Il dit : "Il y a 3 erreurs majeures (la manche est trop courte, le tissu flotte dans le vide, le visage est déformé) et 2 erreurs mineures (un peu de flou ici)".

En comptant les erreurs, on obtient une mesure beaucoup plus précise de la qualité. Moins il y a d'erreurs, plus le score est bon.

🚀 Comment ça marche en pratique ?

L'équipe a testé cette méthode sur le Virtual Try-On (l'essayage virtuel de vêtements). Voici les trois ingrédients secrets de leur recette :

Le Comptage Implicite (Le Chef Cuisinier) :
Au lieu de demander à l'IA de lister toutes les erreurs (ce qui la fait bégayer et changer d'avis d'une seconde à l'autre), on lui demande de compter mentalement les erreurs et de donner directement un score (ex: "85/100").
- Analogie : Imaginez un juge de gymnastique. Au lieu de lui demander de lister chaque petit mouvement raté, on lui demande de donner une note finale basée sur ce qu'il a vu. C'est plus stable et moins sujet aux erreurs de langage.
La Calibration de Groupe (Le Comparateur) :
Parfois, un exercice est plus dur qu'un autre. Si l'IA fait un effort sur un exercice difficile, elle mérite plus de points que sur un exercice facile. Le système compare les résultats de l'IA entre eux dans un même groupe pour s'assurer que la note est juste, peu importe la difficulté de la tâche.
Le Benchmark "MDressBench" (Le Test de Stress) :
Pour vérifier que leur méthode fonctionne vraiment, ils ont créé un test spécial où les vêtements sont très différents de la photo de référence (ex: un t-shirt court vs une robe longue). C'est comme demander à un couturier de transformer un short en manteau d'hiver. C'est là que les autres méthodes échouent, mais la leur réussit.

🏆 Les Résultats : Pourquoi c'est une révolution ?

Les résultats montrent que cette méthode est bien meilleure que les anciennes :

Moins de "hallucinations" : L'IA ne crée plus de vêtements bizarres ou flous. Elle respecte mieux les motifs, les couleurs et la forme du vêtement.
Moins de calculs : L'ancienne méthode demandait deux fois plus de travail à l'ordinateur (créer la liste + noter). La nouvelle méthode ne demande qu'une seule évaluation rapide.
Plus de réalisme : Les vêtements tombent mieux, les ombres sont justes, et le visage de la personne reste intact.

🎯 En résumé

Ce papier nous dit une chose simple mais puissante : Quand on ne sait pas à quoi ressemble la perfection, il vaut mieux savoir exactement à quoi ressemble l'échec.

Au lieu de chercher une image idéale qui n'existe pas, l'IA apprend à éviter les erreurs concrètes (manque de manche, tissu qui flotte, visage déformé). C'est comme apprendre à conduire : au lieu de rêver à une conduite parfaite, on apprend à ne pas faire de fautes de vitesse ou de ne pas sortir de la route. Résultat ? On arrive à destination beaucoup plus sûrement.

Each language version is independently generated for its own context, not a direct translation.

Titre : Quand les grilles d'évaluation échouent : L'énumération des erreurs comme récompense dans l'apprentissage par renforcement sans référence (RL) pour l'essayage virtuel

1. Problématique et Contexte

L'apprentissage par renforcement (RL) est devenu une étape standard pour aligner les modèles génératifs sur les attentes humaines. Dans des domaines aux résultats vérifiables (mathématiques, code), la récompense est simple et dense. Cependant, pour des tâches subjectives comme la génération d'images ou l'essayage virtuel (Virtual Try-On ou VTO), la définition d'une "réponse idéale" unique est souvent impossible.

Le vide des références (Reference-Free Gap) : De nombreuses tâches admettent plusieurs sorties valides (par exemple, un vêtement peut être drapé de différentes manières). Les méthodes existantes comme Rubrics as Rewards (RaR) nécessitent une réponse de référence idéale pour générer une grille d'évaluation (rubric). Sans cette référence, les grilles générées deviennent soit trop génériques, soit trop spécifiques, pénalisant des sorties valides.
Limites de l'évaluation directe : Le simple score global (Direct Scoring) manque de sensibilité aux erreurs fines et spécifiques.
Le défi du VTO : Dans l'essayage virtuel, de nombreuses variations de sortie sont correctes, mais certaines erreurs subtiles (longueur de manche incorrecte, déformation du motif, perte d'identité) rendent le résultat inutilisable. La qualité est définie par l'absence d'erreurs plutôt que par la correspondance à un idéal.

2. Méthodologie : Implicit Error Counting (IEC)

Les auteurs proposent Implicit Error Counting (IEC), un cadre de récompense conçu spécifiquement pour les environnements sans référence idéale. Au lieu de vérifier ce qui est "correct" par rapport à une grille, IEC énumère ce qui est "faux".

Principes Clés :

Énumération Implicite vs Explicite :
- Comptage Explicite (EEC) : Le juge (VLM) liste explicitement chaque erreur. Cela s'avère trop bruyant et instable car des sorties quasi-identiques peuvent recevoir des listes d'erreurs différentes en raison de variations linguistiques du modèle, déstabilisant l'optimisation RL.
- Comptage Implicite (IEC) : Le juge est instruit de compter mentalement les erreurs sur des axes spécifiques (transfert du vêtement, préservation des attributs, réalisme, éclairage, intégrité de la source) et de renvoyer uniquement un score calibré (0 à 1) par axe, accompagné d'un résumé court pour l'interprétabilité. Cela préserve la logique de l'énumération tout en stabilisant le signal de récompense.
Calibration par Groupe (Group Calibration) :
Pour réduire la variance due à la difficulté des prompts ou à l'échelle du juge, une étape de calibration est appliquée sur un groupe de candidats. Elle utilise des statistiques robustes (déviation médiane absolue - MAD) pour normaliser les récompenses, préservant l'ordre relatif au sein du groupe tout en réduisant la dérive d'échelle entre les prompts.
Intégration dans le RL (GRPO) :
La méthode utilise Group Relative Policy Optimization (GRPO) adaptée aux modèles de flux (Flow Matching). Pour chaque condition, $K$ candidats sont générés, et les avantages sont calculés en normalisant les récompenses IEC au sein du groupe.
Métrique d'Évaluation : Cascaded Error Counting (CEC) :
Pour l'évaluation hors ligne, les auteurs introduisent le CEC. Contrairement au comptage simple, le CEC partage un vocabulaire d'erreurs évolutif entre les candidats d'un groupe. Il utilise une phase de "Pool" (collecte des erreurs) suivie d'une phase de "Vérification" où les candidats sont réévalués à la lumière des erreurs collectées, réduisant ainsi la variance et assurant une mesure cohérente sans vérité terrain.

3. Contributions Clés

Identification du problème "Sans Référence" : Mise en évidence du fait que les méthodes basées sur des grilles (RaR) échouent lorsque aucune réponse idéale n'existe pour ancrer les critères.
Proposition de IEC : Un nouveau mécanisme de récompense qui inverse la logique d'évaluation (compter les échecs plutôt que les succès) et utilise un score implicite pour la stabilité.
Nouveau Benchmark (MDressBench) : Création d'un ensemble de données de 700 paires source-référence sélectionnées pour un désaccord maximal d'attributs (ex: source à manches courtes vs référence à manches longues) afin de stresser les designs de récompense.
Validation de la Métrique CEC : Démonstration que le comptage d'erreurs en cascade correspond mieux aux préférences humaines (60% de précision Top-1) que le score direct ou RaR (30%).

4. Résultats Expérimentaux

Les expériences ont été menées sur le benchmark MDressBench (références plates et non plates) ainsi que sur les benchmarks standards VITON-HD et DressCode.

Performance sur MDressBench :
- IEC surpasse systématiquement les méthodes de base (SFT), le score direct (Direct Scoring) et RaR sur tous les métriques.
- Sur les références non plates (plus difficiles), IEC améliore le score CEC de 5,96 % par rapport à RaR, et le score de transfert de vêtement de 2,32 %.
- Contrairement à RaR qui génère des grilles génériques, IEC capture les modes d'échec spécifiques à chaque prompt.
Comparaison avec les Baselines Supervisées :
- Sur VITON-HD et DressCode, IEC (entraîné avec seulement 60 étapes de RL et sans nouvelles données appariées) égale ou dépasse six modèles de base supervisés (SFT) entraînés sur des ensembles de données massifs sur 6 des 8 métriques perceptuelles (LPIPS, SSIM, FID, etc.).
Stabilité de l'Optimisation :
- L'analyse des dynamiques d'entraînement montre que IEC produit une amélioration monotone et lisse.
- À l'inverse, le comptage explicite (EEC) entraîne une régression précoce due au bruit, et le score direct/RaR montre une variance élevée.
Analyse Qualitative :
- Les modèles entraînés avec RaR ont tendance à lisser les textures des vêtements (hacking de récompense).
- IEC préserve mieux les détails fins (motifs, textures) et évite les erreurs d'attribution majeures.

5. Signification et Conclusion

Cet article démontre que dans les domaines génératifs où une "réponse parfaite" unique n'existe pas, définir ce qui est mauvais (comptage des erreurs) est plus efficace que de tenter de définir ce qui est bon (grilles de référence).

Efficacité : IEC nécessite une seule appel de juge par candidat, contre deux pour RaR (génération de grille + évaluation), réduisant le coût computationnel de moitié tout en offrant de meilleures performances.
Stabilité : Le passage d'une énumération explicite (bruyante) à une émission de score implicite (calibrée) est crucial pour la stabilité de l'optimisation par RL.
Généralité : Bien que validé sur l'essayage virtuel, le cadre IEC s'applique potentiellement à d'autres tâches de conception ouverte, de contrôle incarné ou de génération créative où l'espace des erreurs est plus structuré que l'espace des solutions valides.

En résumé, IEC offre une voie robuste et efficace pour l'alignement post-entraînement des modèles de génération d'images dans des scénarios complexes et subjectifs, surpassant les approches traditionnelles basées sur des grilles ou des scores globaux.