Imagine How To Change: Explicit Procedure Modeling for Change Captioning

Each language version is independently generated for its own context, not a direct translation.

🎬 ProCap: Non solo "Prima e Dopo", ma il "Film" del cambiamento

Immagina di guardare due foto: una di un bambino che tiene un gelato e una successiva dove il gelato è caduto a terra.
I metodi tradizionali per descrivere questo cambiamento (chiamati Change Captioning) guardano solo queste due foto statiche e dicono: "Il gelato è caduto". È corretto, ma è come guardare solo la prima e l'ultima scena di un film e cercare di indovinare cosa è successo nel mezzo.

ProCap (Procedure Captioning) è un nuovo sistema intelligente che fa qualcosa di diverso: invece di guardare solo le due foto, immagina e ricostruisce il "film" intero che collega le due immagini. Capisce non solo cosa è cambiato, ma come è cambiato.

Ecco come funziona, diviso in due fasi magiche:

1️⃣ Fase 1: Il Regista che inventa il film (Modellazione Esplicita)

Immagina che il sistema sia un regista che ha solo la scena iniziale e quella finale.

Cosa fa: Usa un "motore magico" (un modello di interpolazione) per generare automaticamente le scene intermedie. Se il gelato cade, il sistema immagina il gelato che si stacca, vola nell'aria e atterra.
Il problema: Questo "film" generato è troppo lungo e pieno di scene inutili (come il gelato che si muove di un millimetro). Sarebbe noioso e costoso da guardare tutto.
La soluzione (Il Montatore Intelligente): ProCap ha un assistente che guarda il film e seleziona solo i momenti chiave (i "frame" più importanti). È come se un montatore cinematografico tagliasse via le parti noiose e tenesse solo l'inizio, il momento in cui il gelato si stacca, e il momento in cui tocca terra.
L'allenamento: Il sistema viene addestrato a guardare queste scene chiave e a indovinare cosa c'era dietro le immagini cancellate (un po' come un gioco di "trova l'errore" o "riempie i buchi"), imparando così a capire la logica del movimento.

2️⃣ Fase 2: Lo Storyteller che non guarda il film (Descrizione Implicita)

Ora, quando il sistema deve descrivere una nuova coppia di foto, non vuole ricreare tutto il film ogni volta (sarebbe troppo lento e potrebbe sbagliare a inventare i dettagli).

La magia: Invece di guardare le immagini intermedie, inserisce nel cervello del computer delle "domande invisibili" (chiamate procedure queries).
Come funziona: Immagina di avere due foto e di chiedere al sistema: "Ehi, cosa è successo nel mezzo?". Invece di mostrare un video, il sistema usa queste domande invisibili per "sentire" il movimento. È come se un detective avesse solo la scena del crimine e la scena finale, ma grazie alla sua esperienza (addestrata nella Fase 1), potesse ricostruire mentalmente l'azione senza bisogno di vederla accadere.
Il risultato: Il sistema scrive una descrizione precisa e coerente, tipo: "Il gelato si è staccato dal cono e ha colpito il marciapiede", senza aver mai dovuto generare un video pesante.

🌟 Perché è una grande novità?

Capisce il "Come": I vecchi metodi vedevano solo il risultato finale. ProCap capisce la dinamica. È la differenza tra dire "Il vaso è rotto" e dire "Il vaso è caduto dal tavolo e si è frantumato".
È veloce ed efficiente: Non deve generare video pesanti ogni volta che deve scrivere una frase. Usa le "domande invisibili" per essere veloce.
È più robusto: Se le foto sono sfocate o c'è poco contrasto, ProCap riesce a capire il movimento perché ha imparato la logica del "film", non solo a confrontare i pixel.

🍕 L'Analogia della Pizza

Immagina di dover spiegare a qualcuno come si fa una pizza.

Metodo vecchio: Ti mostro la foto dell'impasto crudo e la foto della pizza cotta. Ti dico: "È diventata una pizza".
Metodo ProCap:
1. Fase 1: Guardo come si stende l'impasto, come si mette il pomodoro, come va nel forno (creo il "film" mentale).
2. Fase 2: Quando mi chiedi di descrivere una nuova pizza, non ti mostro il video. Ti dico: "Ho messo l'impasto, ho aggiunto il condimento e l'ho cotta". Ho imparato la procedura, quindi posso descriverla perfettamente senza dover ricreare tutto il video ogni volta.

In sintesi

ProCap è come un regista che, invece di limitarsi a confrontare due foto, impara a reggere il montaggio mentale di ciò che è successo nel mezzo. Questo gli permette di raccontare la storia del cambiamento in modo molto più umano, preciso e veloce rispetto a quanto facevano i computer in passato.

Each language version is independently generated for its own context, not a direct translation.

Ecco un riassunto tecnico dettagliato del paper "IMAGINE HOW TO CHANGE: EXPLICIT PROCEDURE MODELING FOR CHANGE CAPTIONING" (ProCap), pubblicato come articolo di conferenza all'ICLR 2026.

1. Il Problema: Limitazioni dell'Approccio Statico

L'attività di Change Captioning (descrizione delle differenze) mira a generare testi che descrivono le differenze tra due immagini visivamente simili (prima e dopo).

Stato dell'arte attuale: I metodi esistenti trattano il problema come un confronto statico tra coppie di immagini. Si basano su encoder-decoder che analizzano solo i due frame finali.
Limitazione fondamentale: Questo approccio ignora la dinamica temporale e il processo di transizione che collega le due immagini. Nella realtà, il cambiamento avviene attraverso una sequenza di stati intermedi che rivelano come è avvenuta la modifica (movimento, trasformazione, apparizione/scomparsa).
Conseguenza: Senza modellare esplicitamente il processo di transizione, i modelli faticano a distinguere tra cambiamenti reali e variazioni di prospettiva, illuminazione o disordine di sfondo, portando a descrizioni imprecise o all'incapacità di cogliere la natura dinamica del cambiamento.

2. Metodologia: Il Framework ProCap

Gli autori introducono ProCap, un nuovo framework in due stadi che riformula il task da un confronto statico a una modellazione dinamica del procedimento.

Fase 1: Modellazione Esplicita del Procedimento (Explicit Procedure Modeling)

In questa fase, il sistema apprende a rappresentare la dinamica spaziotemporale del cambiamento.

Generazione del Procedimento (Procedure Generation):
- Viene utilizzato un modello di Frame Interpolation (FI) pre-addestrato per sintetizzare una sequenza densa di frame intermedi tra l'immagine "prima" ( $I_{bef}$ ) e "dopo" ( $I_{aft}$ ).
- Questo trasforma la trasformazione implicita in una sequenza temporale esplicita e osservabile.
Campionamento Basato sulla Confidenza (Confidence-Based Frame Sampling):
- Poiché la sequenza generata è ridondante e computazionalmente costosa, viene introdotto un modulo di campionamento.
- Assegna un punteggio di confidenza a ogni frame basato sulla sua importanza semantica e temporale (misurando quanto il frame è equidistante semanticamente dallo stato iniziale e finale).
- Seleziona un sottoinsieme sparso di frame chiave (keyframes) che catturano i momenti critici della transizione, scartando i frame ridondanti.
Modellazione del Procedimento (Procedure Modeling):
- Un Procedure Encoder (basato su Transformer) apprende una rappresentazione latente compatta di questi frame chiave.
- Task di Addestramento: Viene utilizzato un task di ricostruzione mascherata condizionata al testo (caption-conditioned masked reconstruction).
- Mascheramento Multi-Granularità: Vengono applicati quattro schemi di mascheramento (intero frame, patch casuali, blocchi interni, blocchi esterni) per costringere il modello a imparare sia la semantica globale che i dettagli locali, ricostruendo i frame mascherati guidati dal testo di descrizione.
- Loss: L'obiettivo combina la ricostruzione della sequenza mascherata, l'allineamento cross-modale (immagine-testo) e la coerenza temporale.

Fase 2: Descrittione del Procedimento Implicito (Implicit Procedure Captioning)

Questa fase genera la descrizione finale senza dover rigenerare o elaborare i frame intermedi durante l'inferenza, garantendo efficienza.

Query Procedurali Apprendibili: Invece di inserire i frame sintetizzati nell'encoder (che causerebbe overhead computazionale e rumore), ProCap inserisce un set di query procedurali apprendibili (learnable procedure queries) tra le feature delle immagini "prima" e "dopo".
Meccanismo: Queste query agiscono come "slot" che sostituiscono i frame intermedi espliciti. L'encoder, avendo appreso la dinamica nella Fase 1, usa queste query per inferire implicitamente la rappresentazione latente del processo di cambiamento.
Generazione: Un decoder testuale trasforma questa rappresentazione latente in una descrizione testuale coerente.
Vantaggio: Permette un addestramento end-to-end con una loss di captioning, eliminando la necessità di sintesi di frame costosa durante l'inferenza.

3. Contributi Chiave

Paradigma Shift: Passaggio dalla comparazione statica di coppie di immagini alla modellazione dinamica del processo di cambiamento.
Modellazione Esplicita: Introduzione di un modulo che sintetizza e campiona strategicamente i frame intermedi per catturare le dinamiche latenti, utilizzando un task di ricostruzione mascherata multi-granularità.
Descrittione Implicita: Sviluppo di un meccanismo di captioning efficiente che utilizza query apprendibili per inferire la dinamica senza il costo computazionale della generazione di frame durante l'inferenza.
Performance: Dimostrazione che modellare il "come" (il procedimento) è cruciale quanto modellare il "cosa" (l'oggetto cambiato).

4. Risultati Sperimentali

Il modello è stato valutato su tre dataset benchmark: CLEVR-Change (sintetico, con distrazioni di prospettiva), Spot-the-Diff (scene reali complesse) e Image-Editing-Request (scenari open-ended).

Prestazioni: ProCap ha ottenuto risultati competitivi o superiori rispetto allo stato dell'arte (SOTA), sia nei metodi basati su LLM che in quelli non-LLM.
- Su CLEVR-Change, ha superato tutti i metodi non-LLM e ha competuto con successo contro modelli basati su LLM (come Qwen-VL e LLaVA-1.5) con un'architettura molto più leggera.
- Su Spot-the-Diff, ha dimostrato una forte capacità di gestire cambiamenti multipli e sottili in scene affollate, ottenendo un punteggio CIDEr di 42.7.
- Su Image-Editing-Request, ha mostrato una migliore generalizzazione a vocaboli non visti rispetto ai baselines non-LLM.
Efficienza: L'approccio con query apprendibili riduce drasticamente il costo computazionale rispetto ai metodi che richiedono la sintesi di frame durante l'inferenza.
Ablation Study: Gli esperimenti hanno confermato che:
- La combinazione di modellazione esplicita e query implicite è essenziale per le prestazioni massime.
- Il campionamento basato sulla confidenza è superiore al campionamento casuale.
- La strategia di mascheramento multi-granularità migliora la comprensione spaziotemporale.

5. Significato e Impatto

Innovazione Concettuale: Il lavoro dimostra che la comprensione del cambiamento visivo richiede la modellazione esplicita della traiettoria temporale, non solo degli stati finali. Questo è un passo avanti significativo rispetto alla visione puramente statica.
Efficienza vs. Prestazioni: ProCap risolve il dilemma tra la ricchezza informativa dei video (o sequenze temporali) e l'efficienza computazionale, permettendo di apprendere dinamiche complesse senza doverle elaborare esplicitamente al momento della generazione del testo.
Applicabilità: Il metodo è particolarmente rilevante per applicazioni come il monitoraggio remoto, la diagnosi medica (confronto di immagini cliniche), la pianificazione urbana e il controllo qualità industriale, dove comprendere la natura del cambiamento è critico.

In sintesi, ProCap stabilisce un nuovo standard per il change captioning, dimostrando che l'integrazione di una modellazione procedurale esplicita (durante l'addestramento) con un meccanismo di inferenza implicito (durante il test) porta a descrizioni più accurate, robuste e semanticamente coerenti.