Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers
Questo articolo propone GramCol e le Mappe di Attenzione al Movimento Interpretabili (IMAP) per localizzare spazialmente e temporalmente i concetti di movimento nei Video Diffusion Transformers senza richiedere calcoli di gradiente o aggiornamenti dei parametri.