Agentic Planning with Reasoning for Image Styling via Offline RL

Dit paper introduceert een framework voor agentic planning met redenering voor afbeeldingsstyling, dat composiete bewerkingen deconstrueert in interpreteerbare toolsequenties en via offline RL wordt geoptimaliseerd op synthetische datasets om superieure resultaten te behalen ten opzichte van directe prompt-gebaseerde methoden.

Subhojyoti Mukherjee, Stefano Petrangeli, Branislav Kveton, Trung Bui, Franck Dernoncourt, Arko Mukherjee

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstenaar bent die een foto wil veranderen. Je wilt bijvoorbeeld een saaie kantoorruimte omtoveren tot een woestijn met cactussen, of een winterse scène met magische sneeuw.

In het verleden probeerden mensen dit te doen door gewoon een tekstje te typen naar een computer, zoals: "Maak hier een woestijn van." Het probleem? De computer is vaak niet slim genoeg om te begrijpen hoe je dat moet doen. Het resultaat is dan vaak raar: de cactussen staan op het dak, de zon schijnt uit de verkeerde hoek, of de stoelen zijn verdwenen. Het is alsof je een kind vraagt om een complex schilderij te maken zonder instructies; het resultaat is vaak een rommel.

De auteurs van dit paper hebben een slimme oplossing bedacht: Ze laten de computer eerst nadenken, voordat hij iets tekent.

Hier is hoe hun methode werkt, vertaald naar alledaags taal:

1. De Chef-Kok en de Kookboeken (De "Agent")

Stel je voor dat de computer niet direct de foto bewerkt, maar eerst een chef-kok is die een recept schrijft.

  • De oude manier: Je zegt "Maak een taart", en de computer gooit alle ingrediënten in één grote kom en hoopt dat het lukt.
  • De nieuwe manier: De computer schrijft eerst een stap-voor-stap recept:
    1. Verander de lucht in gouden uur (zonsondergang).
    2. Verander het seizoen naar winter.
    3. Voeg sneeuw toe.
    4. Zorg dat het huis er nog steeds uitziet zoals het hoort.

Dit noemen ze "Agentic Planning". De computer denkt na over de volgorde en de details voordat hij aan de slag gaat.

2. De Oefenboeken met Rode Pen (Offline RL)

Hoe leer je een computer om zo'n goed recept te schrijven? Je kunt hem niet duizenden keren laten proberen en hopen dat hij het zelf uitvindt (dat kost te veel tijd en energie).

In plaats daarvan hebben de onderzoekers een grote bibliotheek met oefenopdrachten gemaakt.

  • Ze hebben een heel slimme "meester-chef" (een groot AI-model) laten werken aan duizenden foto's.
  • Deze meester-chef schreef de recepten en maakte de foto's.
  • Vervolgens hebben mensen (en andere AI's) gekeken naar de resultaten en een cijfer gegeven (van 0 tot 5 sterren).
    • Slechte foto? Cijfer 2.
    • Prachtige foto? Cijfer 5.

Nu komt het slimme deel: Ze hebben een kleinere, snellere computer (de "student") getraind op deze bibliotheek. Maar ze hebben niet alle oefeningen even zwaar laten tellen.

  • Als de student een recept schreef dat leidde tot een 5-sterren foto, kregen ze een grote beloning (meer aandacht in de les).
  • Als het een 2-sterren foto was, kregen ze een kleine beloning (of zelfs een tik op de vingers).

Dit noemen ze Offline Reinforcement Learning. Het is alsof je een student niet laat oefenen met willekeurige sommen, maar alleen met de sommen waar hij al goed in is, en hem extra belooft voor de allerbeste antwoorden. Zo leert hij sneller en beter.

3. Waarom werkt dit beter?

De onderzoekers hebben getest of hun kleine, slimme computer (met 4 of 8 miljard "hersencellen") beter kan doen dan de enorme, dure supercomputers (zoals GPT-4o) die je direct kunt gebruiken.

Het resultaat? Ja!

  • De kleine computer, die is getraind om eerst te plannen en dan te werken, maakt betere foto's dan de grote computer die direct probeert te tekenen.
  • Het is alsof een slimme, goed opgeleide kok (onze kleine computer) met een goed recept een betere maaltijd maakt dan een gigantische, dure machine die zomaar alles door elkaar gooit.

De Grootste Les

De kernboodschap van dit paper is simpel: Soms is het beter om eerst goed na te denken dan om direct te handelen.

Door de computer te leren om complexe veranderingen op te splitsen in kleine, logische stappen (zoals: eerst het licht veranderen, dan het seizoen, dan de sneeuw), en door te leren van de beste voorbeelden, krijgen we foto's die er echt uitzien zoals we willen. Het is de kracht van planning gecombineerd met leren van succes.

Kort samengevat:
In plaats van een computer te vragen "Maak dit mooi", zeggen ze: "Denk eerst na over hoe je dat stap voor stap doet, leer van de beste voorbeelden, en pas dan pas de knoppen in." Het resultaat? Prachtige foto's, gemaakt door een slimme, kleine robot die weet wat hij doet.