Agentic Planning with Reasoning for Image Styling via Offline RL

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler trasformare una foto noiosa di un ufficio in una scena mozzafiato di un'oasi nel deserto, con cactus, sabbia e un sole cocente.

Il Problema: Il "Comandante" confuso

Fino a poco tempo fa, per fare questo, dovevi scrivere un messaggio al computer (un "prompt") tipo: "Fai diventare questa stanza un deserto".
Il problema è che i computer, per quanto intelligenti, spesso capiscono male le cose. Se gli dici "deserto", potrebbero cancellare la scrivania, mettere la sabbia sul soffitto o dimenticare i cactus. È come dare istruzioni a un cuoco che non ha mai cucinato: se non gli dici esattamente cosa fare e in che ordine, il risultato sarà un disastro.

La Soluzione: Il "Chef" con un Ricettario

Gli autori di questo paper hanno creato un nuovo modo di lavorare. Invece di dare un ordine generico al computer, hanno insegnato al modello a comportarsi come un Chef esperto che non salta direttamente alla cottura, ma prima pianifica la ricetta.

Ecco come funziona il loro sistema, passo dopo passo:

1. Il Pianificatore (L'Architetto)

Immagina che il tuo computer non sia un semplice esecutore, ma un architetto. Quando gli chiedi di trasformare la foto, lui non agisce subito. Prima si ferma e pensa:

"Ok, devo cambiare la luce (da giorno a tramonto)."
"Devo cambiare la stagione (da estate a inverno)."
"Devo aggiungere la neve."
"Ma attenzione! Non devo toccare la casa, deve rimanere intatta."

L'architetto scrive una lista di piccoli compiti (chiamati "strumenti") e spiega perché li sceglie. È come se dicesse: "Prima cambio la luce perché altrimenti la neve sembrerà strana". Questo ragionamento passo-passo è fondamentale.

2. La Scuola di Cucina (L'Addestramento Offline)

Come si insegna a questo architetto a essere bravo? Non facendogli provare e sbagliare milioni di volte (che sarebbe costoso e lento).
Gli autori hanno creato una grande scuola di cucina virtuale:

Hanno usato un "Maestro" (un'intelligenza artificiale molto potente) per creare 30.000 esempi di trasformazioni perfette.
Per ogni esempio, il Maestro ha scritto la ricetta, spiegato il ragionamento e poi ha valutato il risultato con un voto da 0 a 5.
Hanno creato tre tipi di "libri di ricette":
- Semplici: Cambiare solo il colore (es. da estate a inverno).
- Normali: Cambiare più cose insieme (es. luce + stagione + atmosfera).
- Complessi: Cambiare tutto mantenendo alcuni oggetti intatti (es. trasformare un appartamento in un nightclub cyberpunk ma senza toccare i mobili di legno).

3. I Metodi di Apprendimento (Come studiare i voti)

Qui arriva la parte geniale. Hanno provato diversi modi per insegnare agli studenti (i modelli più piccoli da 4 o 8 miliardi di parametri) a imparare da questi voti:

Metodo "Filtro" (R): "Butta via i compiti brutti e studia solo quelli con il voto 5". Funziona, ma spreca molti dati.
Metodo "Preferenza" (DPO): "Confronta due compiti: questo è meglio di quello? Impara a scegliere il migliore". Ottimo per le differenze sottili.
Metodo "Pesi" (RW e SW): Questo è il loro segreto. Immagina che ogni compito sia un peso.
- Se un compito ha un voto alto (5), il modello lo studia con molta attenzione (peso alto).
- Se ha un voto medio (3.5), lo studia un po' meno.
- Se ha un voto basso (2), lo ignora quasi.
- Il metodo SW (Standardizzato) è come un allenatore che dice: "Non guardare solo il voto assoluto, guarda quanto sei migliore della media di oggi". Se oggi tutti hanno fatto male, anche un voto 3.5 è un'ottima performance e va premiato.

I Risultati: Piccoli ma Forti

Il risultato sorprendente è che i loro modelli "piccoli" (4 o 8 miliardi di parametri), addestrati con questo metodo di pianificazione e ragionamento, sono diventati più bravi a seguire le istruzioni rispetto a giganti come GPT-4o (che è enorme e chiuso), pur usando una frazione della potenza di calcolo.

In sintesi:
Hanno insegnato all'AI a pensare prima di agire. Invece di dire "Fai la magia!", l'hanno addestrata a dire: "Prima cambio la luce, poi metto la neve, e mi assicuro che la casa resti lì".

Perché è importante?

È come passare dal dare un ordine confuso a un bambino ("Disegna un bel quadro!") all'aver un assistente che ti chiede: "Che colori vuoi? Che stile? Vuoi che il sole sia a sinistra o a destra?".
Questo rende le immagini generate molto più fedeli a ciò che l'utente vuole, senza bisogno di modelli giganteschi e costosissimi, aprendo la strada a strumenti creativi accessibili a tutti.

La metafora finale:
Se l'editing di immagini diretto è come lanciare un dardo bendato sperando di colpire il centro, questo nuovo metodo è come avere una mappa, una bussola e un allenatore che ti dice esattamente come muovere il braccio per colpire il bersaglio ogni volta.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

L'editing di immagini basato su prompt diretti (dove l'utente inserisce una descrizione testuale e il modello genera l'immagine modificata) fallisce frequentemente in trasformazioni complesse e multidimensionali. I prompt naturali sono spesso vaghi e soggettivi, portando a risultati incoerenti, allineamento errato dei colori e artefatti strutturali quando si richiedono modifiche simultanee su più attributi visivi (es. cambiare l'ora del giorno, la stagione, l'illuminazione e lo stile artistico mantenendo la coerenza architettonica).

L'ipotesi centrale degli autori è che il passaggio da un approccio "prompt-to-image" diretto a un pianificazione agenziale strutturata (agent-based planning) con ragionamento esplicito (Chain-of-Thought) permetta un controllo più preciso e un migliore allineamento con le preferenze umane.

2. Metodologia

Il framework proposto si basa su un approccio di Reinforcement Learning Offline (Offline RL) per il post-training di modelli pianificatori (planner) vision-language. Il sistema non modifica direttamente i pixel, ma genera istruzioni di editing strutturate per un editor di immagini "congelato" (frozen).

A. Pipeline a Quattro Stadi

Il processo di generazione dei dati e di pianificazione segue quattro fasi:

Estrazione del Contesto Strutturato: Un modello VLM (Vision-Language Model) analizza l'immagine di input e ne estrae uno stato visivo strutturato in 10 dimensioni (es. posizione, architettura, periodo storico, ora del giorno, stagione, meteo, illuminazione, color grading, mezzo artistico, effetti atmosferici).
Pianificazione delle Azioni con Ragionamento: Il modello agente genera una sequenza di chiamate agli strumenti (tool calls) accompagnate da una catena di pensiero (CoT). Per ogni strumento scelto, il modello spiega perché è necessario e come contribuisce all'obiettivo finale.
Sintesi dell'Istruzione Precisa: La sequenza di azioni e il ragionamento vengono sintetizzati in un prompt di editing naturale, ma molto più preciso e dettagliato rispetto al prompt originale dell'utente.
Rendering dell'Immagine: Un editor di immagini pre-addestrato e congelato (es. Qwen-Image-Edit) esegue l'istruzione sintetizzata per produrre l'immagine finale.

B. Libreria di Strumenti Compositivi

Il sistema utilizza una libreria di strumenti primitivi ortogonali (10 dimensioni di base, estendibili a 20 o 30 per compiti complessi). Questa ortogonalità permette di combinare trasformazioni in modo prevedibile (es. cambiare la stagione senza alterare lo stile architettonico).

C. Generazione di Dati Sintetici

Poiché non esistono dataset esistenti con supervisione basata su strumenti e ragionamento esplicito, gli autori hanno creato una pipeline di generazione di dati sintetici su larga scala:

Teacher-Student: Un modello "insegnante" forte (Qwen3-VL-8B) genera traiettorie complete (contesto, piano, ragionamento, istruzione, immagine finale).
Valutazione: Ogni traiettoria viene valutata con un punteggio di reward (0-5) basato su 6 criteri (allineamento all'obiettivo, qualità estetica, coerenza spaziale, qualità tecnica, coerenza temporale, interpretazione creativa).
Dataset: Sono stati generati tre dataset da 10.000 traiettorie ciascuno: Simple (1-2 passi), Regular (3-5 passi, temi di design d'interni) e Complex (3-5 passi, 83 temi diversi con vincoli di preservazione).

D. Algoritmi di Addestramento (Offline RL)

Il paper confronta diversi metodi di addestramento per i modelli studenti (Qwen3-VL 4B e 8B):

Supervised Learning (SL): Addestramento standard su tutte le traiettorie, ignorando la qualità.
Reward-Filtered (R): Filtra le traiettorie mantenendo solo quelle con reward alto (es. $\ge 4.0$ ).
Reward-Weighted (RW): Addestra su tutte le traiettorie, ma pesa il gradiente di ogni campione in base al suo punteggio di reward ( $w(r) = \max(r-3.0, 0)$ ).
Standardized Reward-Weighted (SW): Estensione di RW che normalizza i reward (z-score) prima del pesaggio per ridurre la varianza e stabilizzare l'addestramento su dataset con distribuzioni eterogenee.
Direct Preference Optimization (DPO): Addestramento basato su coppie preferenziali (scelta vs rifiuto) senza un modello di reward esplicito.

3. Contributi Chiave

Framework Agentic Tool-Based: Introduzione di una metodologia che combina una libreria di strumenti compositivi, rappresentazione contestuale strutturata e ragionamento passo-passo per decomporre compiti di styling complessi.
Dataset Sintetici su Larga Scala: Creazione e rilascio pubblico di tre dataset (30.000 traiettorie totali) con catene di ragionamento, piani d'azione e punteggi di qualità, colmando il vuoto di dati supervisionati per l'editing basato su agenti.
Metodi di Addestramento Reward-Aware: Dimostrazione che i metodi RW e SW superano costantemente le baseline (incluso l'editing diretto e l'SL standard), preservando la diversità dei dati mentre enfatizzano gli esempi di alta qualità.
Analisi Empirica Completa: Valutazione su modelli da 4B e 8B parametri, mostrando che i modelli più piccoli addestrati con RL offline superano le baseline zero-shot di modelli chiusi molto più grandi (come GPT-4o) in termini di qualità dell'immagine e rispetto delle istruzioni.

4. Risultati

Prestazioni Superiori: I modelli pianificatori addestrati (specialmente con SW e RW) superano la baseline "Edit-Only" (editing diretto senza pianificazione) in quasi tutte le configurazioni. Il divario è particolarmente marcato nei compiti complessi, dove l'editing diretto fallisce nel seguire istruzioni articolate.
Confronto con GPT-4o: I modelli open-source compatti (4B/8B) addestrati con questo framework superano GPT-4o (usato come baseline zero-shot) in 10 su 11 configurazioni di valutazione, dimostrando che l'addestramento specifico su dati strutturati è più efficace della semplice scalatura del modello.
Impatto del Ragionamento: L'analisi qualitativa mostra che i modelli addestrati con reward-aware generano piani di azione più dettagliati, specifici e logicamente coerenti rispetto alle baseline.
Efficacia dei Metodi:
- SW eccelle nei compiti testuali compositivi (Regular Text).
- RW domina nei compiti visivi semplici (Simple Vision).
- DPO mostra risultati superiori su dataset molto diversificati con grounding visivo (Complex Vision-8B).
Validazione Umana: Uno studio di valutazione umana su 3.000 campioni ha confermato un tasso di approvazione (Pass rate) del 77%, validando la qualità dei dati sintetici generati.

5. Significato e Impatto

Questo lavoro dimostra che per compiti creativi complessi come lo styling delle immagini, la pianificazione strutturata è superiore alla generazione diretta. Separando il problema della "pianificazione" (cosa e come cambiare) da quello dell'"esecuzione" (rendering dei pixel), è possibile addestrare modelli più piccoli ed efficienti che superano sistemi proprietari molto più grandi.

L'approccio offre:

Interpretabilità: Ogni passaggio è giustificato da un ragionamento esplicito, rendendo il processo di editing trasparente e controllabile.
Efficienza: L'uso di dati sintetici e RL offline permette di ottimizzare le prestazioni senza costosi cicli di addestramento online o interazioni umane in tempo reale.
Generalizzazione: Il framework è applicabile a vari domini creativi e può essere esteso all'editing video o ad altre forme di manipolazione multimodale.

In sintesi, il paper stabilisce un nuovo paradigma per l'editing di immagini guidato da agenti, dove il ragionamento esplicito e l'addestramento basato su reward sono fondamentali per raggiungere risultati di alta qualità e fedeltà alle istruzioni.