SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation
Il paper presenta SPATIALALIGN, un framework di auto-miglioramento che potenzia i modelli di generazione video da testo per allinearsi accuratamente alle relazioni spaziali dinamiche specificate nei prompt, utilizzando una nuova metrica geometrica chiamata DSR-SCORE e un processo di ottimizzazione diretto basato su preferenze.