EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

本文提出了 EasyAnimate,这是一个基于扩散 Transformer 的高性能视频生成框架,通过引入混合窗口注意力机制、奖励反向传播微调、基于 Token 长度的训练策略以及多模态大语言模型文本编码器,在显著提升训练与推理效率的同时实现了视频生成质量与人类偏好对齐的突破,并在 VBench 榜单及人工评估中取得了最先进水平。

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs