Imagine How To Change: Explicit Procedure Modeling for Change Captioning
Il paper presenta ProCap, un nuovo framework che rivoluziona la descrizione dei cambiamenti (change captioning) passando dal confronto statico di coppie di immagini alla modellazione dinamica delle procedure di trasformazione, utilizzando un encoder addestrato su fotogrammi chiave intermedi e query apprendibili per generare descrizioni testuali che spiegano non solo cosa è cambiato, ma anche come è avvenuto.