Enhancing Spatial Understanding in Image Generation via Reward Modeling

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous demandez à un artiste de dessiner une scène très précise : « Placez un chat sur le canapé, une tasse de café à sa droite, un livre ouvert à sa gauche, et un chien qui dort sous la table, juste devant le canapé. »

Si vous donnez cette instruction à un artiste humain, il comprendra immédiatement la géographie de la pièce. Mais si vous le donnez à une intelligence artificielle (IA) génératrice d'images, elle risque de mettre le chat dans la tasse, de faire flotter le livre dans les airs, ou d'oublier le chien. C'est le problème de la compréhension spatiale.

Voici l'explication simple de la recherche de Tang et de son équipe, qui propose une solution brillante pour régler ce problème.

1. Le Problème : L'IA est bonne en dessin, mais mauvaise en géographie

Les IA actuelles sont incroyables pour créer de belles images. Mais dès que vous leur demandez des relations complexes entre plusieurs objets (gauche, droite, derrière, aligné avec...), elles se perdent.

Pourquoi ? Parce qu'elles sont entraînées à deviner ce qui est "joli" ou "cohérent", pas à respecter des règles de placement strictes. C'est comme si un élève savait dessiner un arbre magnifique, mais ne comprenait pas que l'arbre doit être planté dans la terre et pas dans le ciel.

2. La Solution : Créer un "Professeur de Géographie" (Le Modèle de Récompense)

Les chercheurs ont réalisé que pour apprendre à l'IA à mieux placer les objets, il faut un professeur capable de corriger ses erreurs. Ils ont créé deux choses principales :

A. Le Manuel de Correction (Le Dataset SpatialReward)

Imaginez que vous voulez entraîner un chien. Vous ne pouvez pas juste lui dire "sois gentil". Vous devez lui montrer des exemples précis de "bon comportement" et de "mauvais comportement".

Les chercheurs ont créé 80 000 paires d'exemples.
Dans chaque paire, il y a une image parfaite (le chat est bien sur le canapé) et une image perturbée (le chat est à côté du canapé, ou la tasse est à gauche au lieu de droite).
Des humains experts ont vérifié chaque paire pour s'assurer que la différence était bien liée à la position des objets. C'est comme un manuel d'exercices corrigés ultra-précis.

B. Le Professeur (Le Modèle SpatialScore)

Ensuite, ils ont entraîné une IA spéciale (appelée SpatialScore) à utiliser ce manuel.

Cette IA ne juge pas si l'image est "belle" ou "artistique".
Elle ne regarde que l'exactitude des positions.
Résultat étonnant : Ce petit professeur (7 milliards de paramètres) est devenu meilleur que les géants propriétaires (comme GPT-5 ou Gemini) pour détecter les erreurs de position ! Il est devenu le meilleur détective spatial du monde.

3. L'Entraînement : La méthode du "Top-K" (Le Tri Intelligent)

Une fois qu'ils ont leur professeur, ils l'utilisent pour entraîner l'artiste (l'IA génératrice d'images) via une technique appelée Apprentissage par Renforcement.

Voici le défi : Si l'IA génère 24 images à la fois, certaines sont très bonnes, d'autres sont catastrophiques. Si on donne une note moyenne à tout le groupe, les bonnes images peuvent se sentir "punies" injustement, et les mauvaises peuvent être "récompensées" par erreur.

Pour éviter cela, les chercheurs ont inventé une astuce intelligente, comme un système de tri sélectif :

Au lieu de noter les 24 images, ils ne regardent que les 4 meilleures et les 4 pires.
Ils disent à l'IA : « Regarde ces 4 meilleures, c'est ça le but ! Et regarde ces 4 pires, c'est ce qu'il faut éviter ! »
Cela permet à l'IA d'apprendre beaucoup plus vite et plus efficacement, sans se perdre dans le bruit des images moyennes.

4. Le Résultat : Un Artiste qui a enfin la tête sur les épaules

Grâce à ce système, l'IA génératrice d'images a fait un bond de géant :

Elle respecte désormais les instructions complexes : « La tasse à droite du chat, le chien sous la table. »
Elle ne perd plus d'objets en cours de route.
Elle ne crée plus d'objets flottants impossibles.

En résumé :
Les chercheurs ont compris que pour que l'IA dessine bien, il ne suffisait pas de lui montrer de jolies images. Il fallait lui donner un professeur strict (SpatialScore) formé sur un livre d'exercices géants (SpatialReward-Dataset), et lui apprendre à se concentrer uniquement sur les meilleurs et les pires exemples pour progresser vite.

C'est comme passer d'un élève qui dessine au hasard à un architecte qui respecte scrupuleusement le plan de la maison !

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de génération d'images texte-à-image (T2I) récents ont considérablement amélioré la fidélité visuelle et la créativité. Cependant, ils peinent à respecter des relations spatiales complexes entre plusieurs objets lorsqu'ils sont décrits dans des prompts longs et détaillés (par exemple : "une tasse à droite de l'ordinateur, alignée avec son bord avant").

Les approches actuelles souffrent de trois limitations majeures :

Échec des modèles de récompense existants : Les modèles de récompense basés sur les préférences humaines (comme HPSv3, ImageReward) ou les modèles VLM (Vision-Language Models) généralistes (comme GPT-5, Qwen2.5-VL) attribuent souvent des scores élevés à des images spatialement incorrectes, car ils privilégient l'esthétique globale ou l'alignement sémantique général au détriment de la géométrie fine.
Limites des benchmarks basés sur des règles : Des outils comme GenEval, qui utilisent des détecteurs d'objets pour valider les relations, échouent face aux prompts longs, aux occlusions et manquent de généralisation.
Coût prohibitif des API propriétaires : Bien que les modèles propriétaires (GPT-5, Gemini) aient une bonne compréhension spatiale, leur coût élevé les rend inutilisables pour l'apprentissage par renforcement en ligne (Online RL), qui nécessite des milliers de requêtes de récompense.

2. Méthodologie

L'approche proposée repose sur trois piliers principaux : la construction d'un jeu de données spécialisé, l'entraînement d'un modèle de récompense dédié, et l'optimisation par renforcement avec une stratégie de filtrage.

A. Construction de SpatialReward-Dataset

Pour entraîner un modèle de récompense fiable, les auteurs ont créé un jeu de données de 80 000 paires de préférences adverses.

Génération : Utilisation de GPT-5 pour créer des prompts complexes avec des relations spatiales précises.
Perturbation : Un prompt "parfait" est perturbé en modifiant une ou plusieurs relations spatiales (ex: changer "gauche" en "droite") tout en gardant le reste identique.
Génération d'images : Les prompts parfaits et perturbés sont générés par des modèles T2I de pointe (Qwen-Image, HunyuanImage-2.1, Seedream 4.0).
Validation humaine : Une équipe d'experts vérifie manuellement que l'image "parfaite" respecte strictement le prompt et que l'image "perturbée" contient bien l'erreur spatiale visée, éliminant ainsi les cas ambigus.

B. Développement de SpatialScore

Sur la base de ce dataset, les auteurs entraînent SpatialScore, un modèle de récompense spécialisé.

Architecture : Basé sur Qwen2.5-VL-7B (un modèle VLM open-source), fine-tuné avec LoRA.
Mécanisme : Le modèle reçoit le prompt et l'image. Un token spécial <reward> est inséré pour permettre au modèle de se concentrer sur la cohérence spatiale.
Sortie : Au lieu d'une valeur déterministe, le modèle prédit une distribution gaussienne ( $\mu, \sigma$ ) pour le score, ce qui améliore la robustesse du classement.
Entraînement : Utilisation du modèle de Bradley-Terry pour maximiser la probabilité que l'image "gagnante" (parfaite) reçoive un score supérieur à l'image "perdante" (perturbée).

C. Apprentissage par Renforcement en Ligne (Online RL) avec Filtrage Top-K

SpatialScore est utilisé comme signal de récompense pour optimiser un modèle de base (Flux.1-dev) via l'algorithme GRPO (Group Relative Policy Optimization).

Problème du biais d'avantage : Dans les prompts faciles, la plupart des échantillons ont un score élevé, ce qui fausse la normalisation par groupe et attribue des avantages négatifs à de bons échantillons.
Solution Top-K Filtering : Pour chaque groupe d'échantillons générés, seuls les k meilleurs (top-k) et les k pires (bottom-k) sont sélectionnés pour calculer la moyenne et l'écart-type des avantages. Cela crée un sous-ensemble équilibré, réduisant le biais et accélérant l'apprentissage tout en économisant des calculs (NFE - Nombre d'évaluations de fonctions).

3. Résultats Clés

Performance du Modèle de Récompense (SpatialScore)

Précision supérieure : SpatialScore (7B paramètres) atteint une précision de 95,8 % sur le benchmark de préférence, surpassant des modèles propriétaires comme GPT-5 (93,3 %) et Gemini-2.5 Pro (95,1 %).
Robustesse : Il démontre une capacité supérieure à raisonner sur les relations spatiales complexes entre plusieurs objets par rapport aux modèles VLM open-source existants (Qwen2.5-VL 72B atteint seulement 76 %).

Amélioration de la Génération d'Images

Gain significatif : L'application de SpatialScore via RL améliore le score de compréhension spatiale du modèle Flux.1-dev de 2,18 à 7,81 sur l'évaluation in-domaine.
Généralisation : Contrairement aux modèles entraînés sur GenEval (qui régressent sur les prompts longs), la méthode proposée maintient des performances élevées sur des prompts longs et complexes (benchmarks DPG-Bench, TIIF-Bench, UniGenBench++).
Qualité visuelle : Les images générées respectent fidèlement les positions relatives (ex: objets alignés, empilements corrects) et évitent les artefacts visuels (objets flottants, positions impossibles) souvent observés avec les récompenses basées sur des règles.

4. Contributions Principales

SpatialReward-Dataset : Un jeu de données de 80k paires de préférences adverses, soigneusement curaté par des humains, spécifiquement conçu pour entraîner des modèles à évaluer la géométrie spatiale.
SpatialScore : Un modèle de récompense open-source (7B) qui surpasse les modèles propriétaires fermés dans l'évaluation des relations spatiales complexes, offrant une alternative rentable et performante.
Stratégie de Filtrage Top-K : Une méthode innovante pour l'entraînement par RL qui atténue les biais d'avantage dans les groupes d'échantillons hétérogènes, permettant un apprentissage plus stable et efficace avec moins de calculs.
Preuve de Concept RL : Démonstration que l'optimisation par renforcement guidée par un modèle de récompense spécialisé est la voie la plus efficace pour améliorer la compréhension spatiale des modèles de diffusion, surpassant les approches basées sur des règles simples.

5. Signification et Impact

Ce travail adresse un goulot d'étranglement majeur dans la génération d'images : la capacité à suivre des instructions spatiales complexes. En démontrant qu'un modèle de récompense spécialisé peut surpasser les géants propriétaires et guider efficacement l'apprentissage par renforcement, l'article ouvre la voie à :

La génération d'images pour des scénarios nécessitant une précision géométrique (architecture, design d'intérieur, scènes narratives).
Une réduction de la dépendance aux API coûteuses pour l'entraînement de modèles de génération.
Des perspectives futures vers la génération vidéo, où la cohérence spatiale dans le temps deviendra cruciale pour les simulations réalistes et la robotique.

En résumé, cette étude établit un nouveau standard pour l'évaluation et l'amélioration de la compréhension spatiale dans les modèles génératifs, prouvant que la combinaison de données adverses de haute qualité et d'un RL ciblé est supérieure aux approches génériques actuelles.