Mode Seeking meets Mean Seeking for Fast Long Video Generation
Die Arbeit stellt einen Decoupled Diffusion Transformer vor, der durch die Kombination von überwachtem Flow Matching für die globale Kohärenz und einem mode-suchenden Verteilungs-Matching für die lokale Realismusübertragung effizient hochqualitative Minuten-videos generiert und dabei die Lücke zwischen Bildqualität und Videolänge schließt.