Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers
Deze paper introduceert GramCol en een Interpretable Motion-Attentive Map (IMAP) om zonder gradiëntberekening ruimtelijk en temporeel te lokaliseren hoe Video Diffusion Transformers bewegingsconcepten vertalen naar video's.