EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un chef cuisinier talentueux (c'est le modèle d'IA qui modifie les images). Vous avez reçu une commande très précise de votre client : « Remplacez le chien par un chat, mais gardez le même décor et la même lumière ».

Le problème, c'est que vous n'avez pas de critique culinaire fiable pour vous dire si votre plat est vraiment bon. Les critiques précédents étaient soit des robots qui ne comprenaient pas le goût (les anciennes méthodes de mesure), soit des humains qui étaient fatigués et incohérents. Résultat : les chefs (les modèles open-source) peinent à s'améliorer car ils ne savent pas exactement ce qu'ils doivent corriger.

C'est ici que l'article EDITREWARD entre en jeu. Voici l'histoire racontée simplement :

1. Le Problème : Un manque de "Gourmets" experts

Aujourd'hui, les modèles d'IA propriétaires (comme ceux de Google ou OpenAI) sont excellents pour modifier des images. Pourquoi ? Parce qu'ils ont accès à de superbes recettes et à des critiques d'experts très sévères.

Les modèles gratuits (open-source), eux, sont comme des apprentis cuisiniers qui cuisinent dans le noir. Ils utilisent des outils de mesure automatiques qui sont souvent bêtes (ils comptent juste les pixels) ou des critiques générés par d'autres IA qui se trompent souvent. Ils ont besoin d'un vrai critique humain pour apprendre.

2. La Solution : Créer le "Guide des Gourmets" (EDITREWARD-DATA)

L'équipe de chercheurs a décidé de construire le meilleur guide de critique jamais créé.

L'expérience : Ils ont pris des milliers de commandes (instructions) et ont demandé à 7 "cuisiniers" d'IA différents de préparer le plat.
Le jury : Au lieu de demander à des gens lambda de noter, ils ont engagé des experts formés. Ces experts ont regardé chaque résultat et l'ont noté sur deux critères précis :
1. Respect de la commande : A-t-on vraiment changé le chien en chat ? (C'est la "fidélité").
2. Qualité visuelle : Le chat a-t-il l'air réel ? Y a-t-il des taches bizarres ? (C'est la "beauté").
Le résultat : Ils ont créé une base de données de 200 000 comparaisons soigneusement annotées. C'est comme un livre de 200 000 critiques de restaurants, écrit par les meilleurs critiques du monde.

3. Le Maître-Chien (EDITREWARD)

Ensuite, ils ont entraîné une nouvelle IA, appelée EDITREWARD, à lire ce livre de critiques.

Son pouvoir : Cette nouvelle IA ne se contente pas de dire "c'est beau" ou "c'est moche". Elle comprend la nuance. Elle sait qu'une image peut être très belle visuellement mais avoir raté la commande (ex: un chat magnifique mais sur une table au lieu d'un canapé).
L'innovation : Contrairement aux anciens juges qui donnaient une seule note globale, EDITREWARD comprend que l'humain juge différemment la "fidélité" et la "beauté". Elle est donc plus intelligente et plus proche de ce qu'un humain penserait.

4. La Preuve par l'Exemple : Le Filtre Magique

Pour prouver que leur nouveau critique est le meilleur, ils l'ont utilisé comme un filtre de qualité.

Ils ont pris une énorme pile de 46 000 images générées par une IA (qui étaient un mélange de chefs-d'œuvre et de catastrophes).
Ils ont demandé à EDITREWARD de ne garder que les 20 000 meilleures.
Le résultat : Ils ont réentraîné un modèle d'IA uniquement avec ces 20 000 "meilleurs plats".
Le miracle : Le modèle entraîné sur ce petit tas de "qualité pure" est devenu meilleur que celui entraîné sur les 46 000 images brutes (pleines de déchets).

L'analogie finale :
C'est comme si vous vouliez apprendre à jouer du piano.

L'ancienne méthode : Vous écoutez 100 heures de musique, dont 80 heures de bruit blanc et 20 heures de génie. Vous apprenez un peu, mais vous êtes confus.
La méthode EDITREWARD : Vous utilisez un expert pour écouter les 100 heures, et il ne vous laisse écouter que les 20 heures de génie. Résultat ? Vous apprenez deux fois plus vite et jouez beaucoup mieux.

En résumé

Cette équipe a créé :

Un livre de critiques géant et précis (le dataset).
Un juge IA ultra-performant qui imite les humains (le modèle EDITREWARD).
Une piste de course plus difficile pour tester les futurs juges (le benchmark).

Grâce à cela, ils montrent que pour faire avancer l'IA, ce n'est pas seulement une question de puissance de calcul, mais surtout de qualité des données et de la capacité à bien juger ce qui est "bien" ou "mal". Ils ouvrent maintenant ces outils à tout le monde pour que les modèles gratuits puissent enfin rattraper les géants privés.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Bien que les modèles propriétaires fermés (comme GPT-Image-1, Seedream, Google Nano-Banana) aient réalisé des progrès remarquables dans l'édition d'images guidée par des instructions naturelles, les modèles open-source restent en retard. Le goulot d'étranglement principal est l'absence de modèles de récompense (reward models) fiables capables de filtrer et de sélectionner des données d'entraînement synthétiques de haute qualité.

Les méthodes d'évaluation actuelles présentent plusieurs limites :

Scores perceptuels (ex: LPIPS) : Ils ne capturent pas l'alignement sémantique avec l'instruction.
Scores de caractéristiques (ex: CLIP) : Ils échouent à saisir la sémantique spécifique de l'édition.
VLM en tant que juge (VLM-as-judge) : Les modèles vision-langage génériques ne sont pas optimisés pour l'édition et montrent un faible alignement avec les préférences humaines.
Données d'entraînement existantes : Elles reposent souvent sur des annotations de foule bruyantes ou des pseudo-étiquettes générées par des modèles propriétaires, introduisant du biais et du bruit.

2. Méthodologie

L'approche proposée, EDITREWARD, repose sur trois piliers interconnectés : la construction d'une nouvelle base de données, l'architecture du modèle et une stratégie d'entraînement innovante.

A. Construction de EDITREWARD-DATA

Les auteurs ont créé un jeu de données de préférence à grande échelle (200 000 paires) :

Sources : 9 557 paires instruction-image provenant de 6 benchmarks existants (GEdit-Bench, MagicBrush, etc.) et d'un ensemble interne.
Génération : Pour chaque instruction, 12 images candidates ont été générées par 7 modèles de pointe (Step1X-Edit, Flux-Kontext, Qwen-Image-Edit, etc.).
Annotation : 7 candidats par instruction ont été évalués par des experts humains formés selon un protocole rigoureux.
Critères multidimensionnels : Contrairement aux scores globaux, l'annotation se fait sur deux dimensions distinctes sur une échelle de Likert (1-4) :
1. Suivi de l'instruction (Instruction Following - IF) : Précision sémantique, complétude, absence de modifications non sollicitées.
2. Qualité visuelle (Visual Quality - VQ) : Plausibilité physique, absence d'artefacts, esthétique.
Qualité : L'accord inter-annotateurs (Krippendorff's Alpha) est élevé (0.668 pour IF, 0.597 pour VQ), confirmant la fiabilité des données.

B. Architecture du Modèle (EDITREWARD)

Le modèle est un Reward Model basé sur un Vision-Language Model (VLM) :

Backbone : Utilisation de VLM puissants (Qwen2.5-VL-7B ou MiMo-VL-7B) comme extracteurs de caractéristiques multimodales.
Tête de récompense (Reward Head) : Un MLP qui projette les représentations latentes vers des scores.
Approche probabiliste et incertaine : Inspiré par HPSv3, le modèle ne prédit pas un score déterministe, mais une distribution gaussienne $s \sim \mathcal{N}(\mu, \sigma^2)$ pour chaque dimension. Cela permet de modéliser l'incertitude inhérente aux jugements humains, particulièrement sur les cas ambigus.

C. Stratégies d'Entraînement Innovantes

Perte de classement incertaine multidimensionnelle (Multi-Dimensional Uncertainty-Aware Ranking Loss) : Le modèle apprend à agréger les scores moyens ( $\mu$ ) et les variances ( $\sigma^2$ ) des deux dimensions (IF et VQ) pour calculer une probabilité de préférence. Trois stratégies d'agrégation sont testées (Minimum pessimiste, Moyenne équilibrée, Somme directe).
Désentanglement des égalités (Disentangling Ties) : Une stratégie d'augmentation de données où les paires "ex-aequo" (ties) sont décomposées en deux échantillons d'entraînement opposés basés sur leurs forces dimensionnelles respectives (ex: Image A meilleure en IF, Image B meilleure en VQ). Cela force le modèle à apprendre des compromis nuancés.

D. Évaluation : EDITREWARD-BENCH

Un nouveau benchmark a été créé pour tester la robustesse des modèles de récompense :

Il comprend des tâches de préférence multi-voies (3 ou 4 candidats simultanés) au-delà des simples comparaisons binaires.
La justesse est définie par la prédiction correcte de toutes les relations binaires au sein du tuple, rendant l'évaluation plus stricte.

3. Résultats Clés

Les expériences démontrent que EDITREWARD atteint l'état de l'art (SOTA) sur plusieurs fronts :

Alignement Humain :
- Sur GenAI-Bench, EDITREWARD (MiMo-VL) obtient 65,72 %, surpassant GPT-5 (59,61 %) et ADIEE (59,96 %).
- Sur AURORA-Bench, il atteint 63,62 %, contre 50,81 % pour GPT-4o.
- Sur ImagenHub, il obtient une corrélation de Spearman de 35,20, se classant parmi les meilleurs systèmes.
- Sur le nouveau EDITREWARD-BENCH, il obtient 38,42 %, surpassant les modèles propriétaires et open-source existants.
Impact de l'entraînement : L'application de la méthodologie EDITREWARD sur un VLM de base (Qwen2.5-VL-7B) améliore ses performances de +23 points sur GenAI-Bench, prouvant l'efficacité de la méthode d'entraînement elle-même.
Généralisation Hors Distribution (OOD) : Le modèle maintient des performances compétitives sur des tâches de transfert de style et d'OCR (Text-in-Image), rivalisant avec GPT-4o tout en étant open-source.

4. Application : Curration de Données

Une démonstration pratique montre l'utilité d'EDITREWARD comme superviseur de données :

Les auteurs ont utilisé EDITREWARD pour filtrer le jeu de données bruyant ShareGPT-4o-Image (46k échantillons).
Ils ont sélectionné le sous-ensemble Top 20k de meilleure qualité pour affiner le modèle Step1X-Edit.
Résultat : Le modèle affiné sur le sous-ensemble filtré obtient un score global de 7,1/10 sur GEdit-Bench, contre 6,7/10 pour le modèle entraîné sur l'ensemble complet bruité. Cela place le modèle open-source au niveau de modèles propriétaires comme Doubao-Edit, confirmant que la qualité des données est plus critique que la quantité brute.

5. Contributions et Signification

Contributions principales :

EDITREWARD-DATA : Un jeu de données de préférence à grande échelle (200k) annoté par des experts avec un protocole multidimensionnel rigoureux.
EDITREWARD : Un modèle de récompense VLM entraîné sur ces données, surpassant les juges VLM actuels et les modèles propriétaires.
EDITREWARD-BENCH : Un nouveau benchmark exigeant avec des tâches de classement multi-voies pour une évaluation plus robuste.
Méthodologie d'entraînement : Une approche probabiliste incertaine multidimensionnelle et une technique de désentanglement des égalités.

Signification :
Ce travail comble un fossé critique entre les modèles d'édition d'images propriétaires et open-source. En fournissant un modèle de récompense fiable et des données de haute qualité, il permet de créer des pipelines d'entraînement plus efficaces pour la prochaine génération de modèles d'édition. La libération des données, du modèle et du benchmark (sous licence CC-BY-NC-SA) vise à démocratiser l'accès à des outils de pointe et à accélérer la recherche communautaire dans ce domaine.