Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index
この論文は、拡散トランスフォーマー(DiT)ベースの動画生成モデルが抱えるメモリ消費と遅延の問題を解決するため、シーケンス並列推論と因果的ローテート位置埋め込み(Causal-RoPE SP)の導入、および演算融合などのシステム最適化を行い、リアルタイム対話アプリケーションに対応可能な高速な推論を実現したことを報告しています。