EchoFoley: Event-Centric Hierarchical Control for Video Grounded Creative Sound Generation
Per superare le limitazioni chiave nei modelli esistenti di video-testo-audio, il documento introduce EchoFoley, un nuovo compito incentrato sugli eventi con controllo gerarchico, supportato dal benchmark EchoFoley-6k e dal framework EchoVidia, che migliora significativamente sia la controllabilità che la qualità percettiva nella generazione di suoni basata sul video.