FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation
Il paper introduce FrameDiT, un modello di generazione video basato su Diffusion Transformer che utilizza una nuova "Matrix Attention" a livello di fotogramma per bilanciare efficienza e coerenza temporale, ottenendo risultati all'avanguardia rispetto alle tecniche esistenti.