Enhancing Spatial Understanding in Image Generation via Reward Modeling

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer getalenteerde, maar soms wat verwarde kunstenaar bent. Je kunt prachtige schilderijen maken van zonsopgangen, katten en landschappen. Maar als je hem vraagt: "Teken een kopje koffie precies links van een laptop, met een bloempot rechts van de laptop en een boekenkast achter de tafel," dan maakt hij vaak een fout. Misschien staat het kopje rechts, of de bloempot staat op de laptop.

Dit is precies het probleem dat de auteurs van dit paper (van Peking University en ByteDance) hebben opgelost. Ze hebben een nieuwe manier bedacht om AI-beeldgeneratie te trainen, zodat deze "kunstenaars" eindelijk goed begrijpen waar dingen zich precies bevinden.

Hier is hoe ze dat deden, vertaald in begrijpelijke taal:

1. Het Probleem: De "Ruimtelijke Verwarring"

Tot nu toe waren AI-modellen heel goed in het maken van mooie plaatjes, maar ze waren slecht in het volgen van complexe instructies over ruimte. Als je een lange, ingewikkelde zin gaf, raakten ze de draad kwijt.

De reden? De "leraren" die de AI trainden (de beloningssystemen) keken vooral naar: "Is dit een mooi plaatje?" of "Lijkt dit op de tekst?" Ze keken niet goed genoeg naar: "Staat het kopje nu echt links of rechts?"

De analogie: Het is alsof je een kunstcriticus vraagt om een schilderij te beoordelen. Hij zegt: "Wat een prachtige kleuren!" terwijl de kunstenaar de bomen op de grond heeft getekend en de wolken in de grond. De criticus merkt het niet op omdat hij alleen naar de verf kijkt, niet naar de logica.

2. De Oplossing: Een Nieuwe "Ruimtelijke Leraar"

De auteurs hebben drie stappen ondernomen om dit op te lossen:

Stap 1: Het Maken van een "Fouten-boek" (De Dataset)

Ze hebben een enorme verzameling gemaakt van 80.000 paar plaatjes.

Het perfecte plaatje: Een AI maakt een plaatje dat precies klopt met de tekst (bijv. de koffie links van de laptop).
Het "verkeerde" plaatje: Ze nemen dezelfde tekst, maar veranderen één ding (bijv. de koffie staat nu rechts).
Het resultaat: Ze hebben een boek vol met voorbeelden van "goed" en "fout" gemaakt, speciaal gericht op ruimtelijke posities. Dit noemen ze SpatialReward-Dataset.

Stap 2: Het Trainen van de "Ruimtelijke Criticus" (SpatialScore)

Met dit boek hebben ze een nieuwe AI-trainer getraind, genaamd SpatialScore.

Wat doet hij? Deze trainer kijkt niet naar hoe mooi de kleuren zijn, maar puur naar de logica: "Staat het object op de juiste plek?"
Het wonder: Deze nieuwe trainer is zelfs beter geworden dan de duurste, gespecialiseerde AI's van grote tech-bedrijven (zoals GPT-5 of Gemini) als het gaat om het beoordelen van ruimtelijke posities. Hij is als een super-scherpe leraar die nooit een foutje in de opstelling over het hoofd ziet.

Stap 3: De "Online Oefening" (Reinforcement Learning)

Nu hebben ze de kunstenaar (de beeldgeneratie AI) laten oefenen met deze nieuwe trainer.

Hoe werkt het? De AI maakt een plaatje. De trainer (SpatialScore) kijkt er naar en zegt: "Goed gedaan, de koffie staat links!" (beloning) of "Fout, de koffie staat rechts!" (straf).
De slimme truc (Top-k filtering): Soms maakt de AI zo'n goed plaatje dat de trainer vergeten is dat er nog betere opties zijn, of juist zo'n slecht plaatje dat alles fout lijkt. Om dit te voorkomen, selecteren ze alleen de allerbeste en de aller slechtste voorbeelden om van te leren. Dit zorgt voor een evenwichtige les.

3. Het Resultaat: Van Verwarde Kunstenaar tot Meester

Na deze training kan de AI plotseling complexe scènes maken die voorheen onmogelijk leken.

Voorbeeld: Vroeger zou de AI een tent, een rugzak en een boom door elkaar halen. Nu kan hij perfect een tent in het midden zetten, een rugzak voor de tent, en een boom achter de tent, precies zoals gevraagd.
Vergelijking: Het is alsof je een leerling die altijd "links" en "rechts" door elkaar haalde, nu hebt getraind met een speciale oefenmethode. Plotseling kan hij een routebeschrijving volgen zonder verdwaald te raken.

Samenvatting in één zin

De auteurs hebben een slimme "ruimtelijke leraar" gebouwd die AI-kunstenaars leert om niet alleen mooie plaatjes te maken, maar ook om de exacte positie van objecten ten opzichte van elkaar perfect te begrijpen, zelfs in heel ingewikkelde situaties.

Dit is een grote stap voorwaarts, omdat het AI-toepassingen mogelijk maakt die echt nodig hebben om de wereld om hen heen logisch te doorgronden, zoals robots die een kamer inrichten of films maken met complexe scènes.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Recente doorbraken in tekst-naar-beeld (T2I) generatie hebben de visuele kwaliteit en creativiteit aanzienlijk verbeterd. Echter, deze modellen worstelen nog steeds met het nauwkeurig weergeven van complexe ruimtelijke relaties tussen meerdere objecten in ingewikkelde prompts (bijv. "een kopje rechts van de laptop, maar links van de plant").

Huidige beperkingen: Bestaande beloningmodellen (reward models) zoals HPSv3, PickScore of ImageReward zijn getraind op esthetiek en algemene tekst-beeld-uitlijning, maar missen het vermogen om fijne ruimtelijke nuances te beoordelen. Ze geven vaak een hogere score aan ruimtelijk incorrecte beelden dan aan correcte.
GenEval falen: Rule-based methoden zoals GenEval, die objectdetectoren gebruiken, falen bij lange prompts met complexe relaties en zijn gevoelig voor visuele obstakels zoals occlusie (verduistering).
Propriëtaire modellen: Grote visuele taalmodellen (VLMs) zoals GPT-5 kunnen ruimtelijke relaties wel beoordelen, maar zijn te duur voor online Reinforcement Learning (RL), waarbij duizenden evaluaties per trainingstap nodig zijn.

Methodologie

De auteurs introduceren een nieuwe aanpak die bestaat uit drie hoofdcomponenten: een gespecialiseerd dataset, een nieuw beloningmodel en een geoptimaliseerd RL-trainingsproces.

1. SPATIALREWARD-DATASET

Om een betrouwbaar beloningssignaal te creëren, hebben de auteurs een dataset van 80.000 voorkeursparen (preference pairs) samengesteld.

Opbouw: Voor elk paar wordt een "perfecte" prompt gegenereerd met complexe ruimtelijke relaties. Vervolgens wordt een "verstoord" (perturbed) paar gemaakt door GPT-5, waarbij één of meer ruimtelijke relaties bewust worden gewijzigd (bijv. "links" wordt "rechts"), terwijl de rest van de prompt gelijk blijft.
Generatie: Beelden worden gegenereerd met state-of-the-art modellen (Qwen-Image, HunyuanImage-2.1, Seedream 4.0) om esthetische variatie te minimaliseren.
Validatie: Menselijke experts filteren de data strikt om ervoor te zorgen dat het perfecte beeld de prompt exact volgt en het verstoorde beeld een duidelijke ruimtelijke fout bevat.

2. SPATIALSCORE (Het Beloningmodel)

Gebaseerd op de dataset trainen de auteurs SpatialScore, een gespecialiseerd beloningmodel.

Architectuur: Het model gebruikt Qwen2.5-VL-7B als ruggengraat (backbone). De oorspronkelijke taalmodelleringskop wordt vervangen door een lineaire "reward head" die de features projecteert naar een beloningswaarde.
Training: Het model wordt getraind met LoRA (Low-Rank Adaptation) op de voorkeursparen. In plaats van een deterministische waarde, wordt de beloning gemodelleerd als een Gaussische verdeling ( $\mu, \sigma$ ) om robuustere rangschikking te mogelijk maken. Het model leert de kans te maximaliseren dat het "winnaar"-beeld (perfect) een hogere score krijgt dan het "verliezer"-beeld (verstoord).
Resultaat: SpatialScore presteert beter dan leidende propriëtaire modellen (zoals GPT-5 en Gemini-2.5 Pro) in het beoordelen van ruimtelijke consistentie, ondanks dat het een open-source 7B-parameter model is.

3. Online Reinforcement Learning met Top-k Filtering

SpatialScore wordt gebruikt als beloningssignaal voor online RL-training van een base-model (FLUX.1-dev) via het Flow-GRPO algoritme.

Het Uitdaging: Bij online RL kunnen prompts van verschillende moeilijkheidsgraden leiden tot een bias in de "advantage" berekening. Bij makkelijke prompts krijgen veel hoge-kwaliteit beelden een negatieve "advantage" omdat de groepsgemiddelde score te hoog is.
Oplossing (Top-k Filtering): Om dit te mitigeren, selecteert de methode alleen de top-k (beste) en bottom-k (slechtste) beelden uit een groep van gegenereerde samples om de gemiddelde en standaardafwijking te berekenen. Dit zorgt voor een gebalanceerde verdeling en stabiliseert de training.
Efficiëntie: Deze strategie vermindert het aantal function evaluations (NFE) aanzienlijk tijdens de update-fase, waardoor training efficiënter wordt zonder in te leveren op prestaties.

Kernresultaten

Superieure Evaluatie: SpatialScore bereikt een pairwise accuracy van 95,8% op de ruimtelijke evaluatiebenchmark. Dit is hoger dan propriëtaire modellen zoals GPT-5 (93,3%) en Gemini-2.5 Pro (95,1%), en aanzienlijk beter dan bestaande open-source VLMs en image reward models.
Verbeterde Generatie: Na RL-training met SpatialScore toont het FLUX.1-dev model aanzienlijke verbeteringen in ruimtelijk begrip:
- In-domein: De score op de SpatialScore-evaluatie steeg van 2,18 naar 7,81.
- Out-of-domein: Op benchmarks zoals DPG-Bench, TIIF-Bench en UniGenBench++ (zowel korte als lange prompts) werden consistente verbeteringen gezien in ruimtelijke relaties, attributen en redenering.
- Vergelijking: Het model presteert beter dan een variant getraind met Flow-GRPO op GenEval, die faalde bij lange prompts en vaak objecten miste of onrealistische artefacten genereerde.
Generalisatie: De methode werkt ook effectief op andere base-modellen zoals Qwen-Image, wat aantoont dat het een robuuste aanpak is.

Bijdragen en Significantie

Eerste gespecialiseerde dataset: De introductie van de SPATIALREWARD-DATASET (80k paren) vult een cruciale lacune in de T2I-community, waar eerder geen grote datasets bestonden die specifiek gericht waren op complexe ruimtelijke relaties.
Nieuwe SOTA beloningmodel: SpatialScore bewijst dat een goed getraind, gespecialiseerd open-source model ruimtelijke redenering beter kan beoordelen dan dure, gesloten propriëtaire API's. Dit maakt geavanceerde RL voor ruimtelijke taken haalbaar en betaalbaar.
Efficiëntie in RL: De Top-k filtering strategie lost een fundamenteel probleem op bij GRPO-training voor complexe prompts, waardoor training stabieler en efficiënter wordt.
Impact: Dit werk opent de deur voor het genereren van visueel complexe scènes met hoge nauwkeurigheid, wat essentieel is voor toepassingen zoals game-design, architecturale visualisatie en robotica-simulatie. Het legt de basis voor toekomstig werk in video-generatie, waar ruimtelijke consistentie over tijd nog belangrijker wordt.

Kortom, dit paper toont aan dat door het combineren van een hoogwaardige, mens-gecurateerde dataset met een gespecialiseerd beloningmodel en slimme RL-optimalisatie, de beperkingen van huidige T2I-modellen in ruimtelijk begrip effectief kunnen worden opgeheven.