Agentic Planning with Reasoning for Image Styling via Offline RL

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstenaar bent die een foto wil veranderen. Je wilt bijvoorbeeld een saaie kantoorruimte omtoveren tot een woestijn met cactussen, of een winterse scène met magische sneeuw.

In het verleden probeerden mensen dit te doen door gewoon een tekstje te typen naar een computer, zoals: "Maak hier een woestijn van." Het probleem? De computer is vaak niet slim genoeg om te begrijpen hoe je dat moet doen. Het resultaat is dan vaak raar: de cactussen staan op het dak, de zon schijnt uit de verkeerde hoek, of de stoelen zijn verdwenen. Het is alsof je een kind vraagt om een complex schilderij te maken zonder instructies; het resultaat is vaak een rommel.

De auteurs van dit paper hebben een slimme oplossing bedacht: Ze laten de computer eerst nadenken, voordat hij iets tekent.

Hier is hoe hun methode werkt, vertaald naar alledaags taal:

1. De Chef-Kok en de Kookboeken (De "Agent")

Stel je voor dat de computer niet direct de foto bewerkt, maar eerst een chef-kok is die een recept schrijft.

De oude manier: Je zegt "Maak een taart", en de computer gooit alle ingrediënten in één grote kom en hoopt dat het lukt.
De nieuwe manier: De computer schrijft eerst een stap-voor-stap recept:
1. Verander de lucht in gouden uur (zonsondergang).
2. Verander het seizoen naar winter.
3. Voeg sneeuw toe.
4. Zorg dat het huis er nog steeds uitziet zoals het hoort.

Dit noemen ze "Agentic Planning". De computer denkt na over de volgorde en de details voordat hij aan de slag gaat.

2. De Oefenboeken met Rode Pen (Offline RL)

Hoe leer je een computer om zo'n goed recept te schrijven? Je kunt hem niet duizenden keren laten proberen en hopen dat hij het zelf uitvindt (dat kost te veel tijd en energie).

In plaats daarvan hebben de onderzoekers een grote bibliotheek met oefenopdrachten gemaakt.

Ze hebben een heel slimme "meester-chef" (een groot AI-model) laten werken aan duizenden foto's.
Deze meester-chef schreef de recepten en maakte de foto's.
Vervolgens hebben mensen (en andere AI's) gekeken naar de resultaten en een cijfer gegeven (van 0 tot 5 sterren).
- Slechte foto? Cijfer 2.
- Prachtige foto? Cijfer 5.

Nu komt het slimme deel: Ze hebben een kleinere, snellere computer (de "student") getraind op deze bibliotheek. Maar ze hebben niet alle oefeningen even zwaar laten tellen.

Als de student een recept schreef dat leidde tot een 5-sterren foto, kregen ze een grote beloning (meer aandacht in de les).
Als het een 2-sterren foto was, kregen ze een kleine beloning (of zelfs een tik op de vingers).

Dit noemen ze Offline Reinforcement Learning. Het is alsof je een student niet laat oefenen met willekeurige sommen, maar alleen met de sommen waar hij al goed in is, en hem extra belooft voor de allerbeste antwoorden. Zo leert hij sneller en beter.

3. Waarom werkt dit beter?

De onderzoekers hebben getest of hun kleine, slimme computer (met 4 of 8 miljard "hersencellen") beter kan doen dan de enorme, dure supercomputers (zoals GPT-4o) die je direct kunt gebruiken.

Het resultaat? Ja!

De kleine computer, die is getraind om eerst te plannen en dan te werken, maakt betere foto's dan de grote computer die direct probeert te tekenen.
Het is alsof een slimme, goed opgeleide kok (onze kleine computer) met een goed recept een betere maaltijd maakt dan een gigantische, dure machine die zomaar alles door elkaar gooit.

De Grootste Les

De kernboodschap van dit paper is simpel: Soms is het beter om eerst goed na te denken dan om direct te handelen.

Door de computer te leren om complexe veranderingen op te splitsen in kleine, logische stappen (zoals: eerst het licht veranderen, dan het seizoen, dan de sneeuw), en door te leren van de beste voorbeelden, krijgen we foto's die er echt uitzien zoals we willen. Het is de kracht van planning gecombineerd met leren van succes.

Kort samengevat:
In plaats van een computer te vragen "Maak dit mooi", zeggen ze: "Denk eerst na over hoe je dat stap voor stap doet, leer van de beste voorbeelden, en pas dan pas de knoppen in." Het resultaat? Prachtige foto's, gemaakt door een slimme, kleine robot die weet wat hij doet.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

Huidige methoden voor het bewerken van afbeeldingen op basis van natuurlijke taal (zoals "verander dit naar een winterwonderland") stuiten vaak op fundamentele beperkingen bij complexe transformaties.

Vage Prompts: Gebruikersinstructies zijn vaak subjectief en onnauwkeurig. Een enkele prompt specificeert niet expliciet welke visuele dimensies (bijv. tijd van de dag, seizoen, sfeer) moeten worden aangepast, in welke volgorde, of hoe conflicterende eisen (bijv. "behoud de architectuur" terwijl je "cyberpunk sfeer" toevoegt) moeten worden gebalanceerd.
Gebrek aan Structuur: Directe prompt-gebaseerde editing (zogenoemde "Edit-Only" baselines) mist gestructureerd redeneren. Dit leidt tot inconsistenties, verkeerde kleuren, structurele artefacten en een gebrek aan volgzaamheid aan complexe instructies.
Data Tekortkoming: Er ontbreken bestaande datasets die expliciete, tool-gebaseerde styling-supervisie bieden met redeneerketens (chain-of-thought) voor multi-stap bewerkingen.

2. Methodologie

De auteurs stellen een tool-gebaseerd agentic RL-post-training framework voor dat complexe stylingtaken decomposeert in een reeks van geïnterpreteerbare tool-aanroepen met expliciete redenering. Het proces verloopt via een vier-traps pijplijn:

Gestructureerde Context Extractie:
- Het systeem extraheren een gestructureerde tekstuele representatie ( $c_i$ ) van de huidige visuele staat van de afbeelding over 10 orthogonale dimensies (bijv. locatie, architectuur, tijdperk, tijd van de dag, seizoen, weer, sfeer, kleurencorrectie, artistiek medium, atmosferische effecten).
- Dit zorgt voor "state awareness" in plaats van alleen te vertrouwen op impliciet visueel inzicht.
Actieplanning met Redenering (Chain-of-Thought):
- Een agent (gebaseerd op Qwen3-VL) genereert een actieplan bestaande uit 2-5 tool-aanroepen.
- Voor elke actie genereert het model expliciete redenering ( $z_{i,j}$ ) die uitlegt waarom een bepaalde tool wordt gekozen en hoe deze bijdraagt aan het einddoel.
- Voorbeeld: "Stel tijd van de dag in op 'golden hour' om warme zonsondergangstinten te creëren die de winteratmosfeer versterken."
Synthese van Precieze Instructies:
- De reeks acties en redeneringen worden vertaald naar een verfijde, natuurlijke taal-instructie ( $\hat{e}_i$ ) die specifiek genoeg is voor de beeldbewerkingsmodule.
Rendering:
- Een bevroren (frozen) black-box beeldeditor (Qwen-Image-Edit) voert de gegenereerde instructie uit om de finale afbeelding te produceren.

Offline Reinforcement Learning (RL) Strategie:
In plaats van online RL, gebruiken de auteurs offline RL op synthetisch gegenereerde data. Ze trainen studentenmodellen (4B en 8B parameters) op trajecten gegenereerd door een sterke "teacher" (Qwen3-VL-8B). Ze vergelijken verschillende trainingsalgoritmen:

Supervised Learning (SL): Trains op alle data, ongeacht kwaliteit.
Reward-Filtered (R): Verwijdert trajecten met een lage score (onder de 4.0).
Reward-Weighted (RW): Gebruikt alle data, maar weegt de gradiënt-bijdrage van elk traject evenredig met zijn kwaliteitsscore ( $w(r) = \max\{r-3.0, 0\}$ ).
Standardized Reward-Weighted (SW): Een geavanceerde variant van RW waarbij de beloningen worden genormaliseerd (z-score) voordat ze worden gewogen. Dit vermindert de variantie in de gradiënten, vooral bij datasets met uiteenlopende beloningsverdelingen.
Direct Preference Optimization (DPO): Trains op gepaarde data (gekozen vs. verworpen trajecten) zonder een expliciete reward-model.

3. Belangrijkste Bijdragen

Agentic Planning Framework: Een complete pipeline die composiete tool-bibliotheken, gestructureerde documentrepresentaties en per-stap chain-of-thought redenering combineert om complexe styling te decomponeren.
Grootschalige Synthetische Datasets: De auteurs hebben drie nieuwe datasets gegenereerd en openbaar gemaakt (via HuggingFace), elk met ongeveer 10.000 trajecten:
- Simple: 1-2 stappen, atomische transformaties.
- Regular: 3-5 stappen, composiete bewerkingen over 10 interieurstijlen.
- Complex: 3-5 stappen met strikte behoudsbeperkingen over 83 diverse thema's.
- Elk traject bevat context, actieplannen, redenering en kwaliteitsscores.
Reward-Aware Training Methodes: De introductie en validatie van RW en SW als kernalgoritmen. Deze methoden behouden de diversiteit van de data terwijl ze de invloed van hoogwaardige voorbeelden maximaliseren, wat leidt tot betere prestaties dan directe editing of standaard supervised learning.
Uitgebreide Empirische Analyse: Een evaluatie over 30.000 synthetische trajecten met Qwen3-VL (4B/8B) modellen, waarbij wordt aangetoond dat gestructureerde planning met reward-aware training superieur is aan directe prompt-gebaseerde editing.

4. Resultaten

Superioriteit van Planning: De "Edit-Only" baseline presteert consequent slechter dan de beste RL-methoden, wat aantoont dat gestructureerd plannen essentieel is voor coherentie en instructievolgzaamheid.
Prestatie per Methode:
- SW (Standardized Reward-Weighted) excelleert op complexe tekstuele taken (Regular Text-4B/8B), met de hoogste scores voor semantische nauwkeurigheid en instructievolgzaamheid.
- RW (Reward-Weighted) domineert op eenvoudige visueel-gegrounde taken (Simple Vision-4B).
- DPO presteert het beste op zeer diverse thema's (Complex Vision-8B), waar contrastief leren van voorkeuren effectief is.
Vergelijking met GPT-4o: De getrainde compacte modellen (4B/8B) overtreffen de zero-shot GPT-4o planner op beeldkwaliteit in 10 van de 11 configuraties, ondanks dat GPT-4o een veel groter gesloten model is.
Kwaliteit van Redenering: Modellen getraind met reward-aware methodes genereren duidelijkere, specifiekere en logischer chain-of-thought redeneringen dan baselines, wat direct correleert met betere actieplanning.

5. Betekenis en Impact

Paradigmaverschuiving: Het paper bewijst dat het decomponeren van complexe creatieve taken in gestructureerde, interpreteerbare stappen (planning) superieur is aan end-to-end directe generatie, vooral bij multi-dimensionale bewerkingen.
Efficiëntie: Door offline RL te gebruiken op synthetische data, kunnen kleine, open-source modellen (4B/8B) worden getraind om prestaties te leveren die grotere gesloten modellen (zoals GPT-4o) evenaren of overtreffen, zonder de kosten van online RL of API-gebruik.
Transparantie: De nadruk op expliciete redenering en tool-gebruik maakt het proces transparanter en controleerbaar, wat belangrijk is voor toepassingen waar de herleidbaarheid van een bewerking cruciaal is (bijv. content authenticiteit).
Toekomstgericht: De gepubliceerde datasets en methodologie bieden een blauwdruk voor het bouwen van agentische systemen in creatieve domeinen, met potentie voor uitbreiding naar videobewerking en grotere tool-bibliotheken.

Kortom, dit werk demonstreert dat gestructureerde planning gecombineerd met reward-aware offline training de sleutel is tot het oplossen van de ambiguïteit in natuurlijke taal voor complexe beeldbewerkingstaken.

Agentic Planning with Reasoning for Image Styling via Offline RL

1. De Chef-Kok en de Kookboeken (De "Agent")

2. De Oefenboeken met Rode Pen (Offline RL)

3. Waarom werkt dit beter?

De Grootste Les

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions