Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models
Il lavoro presenta MMHNet, una rete gerarchica multimodale potenziata che utilizza Mamba non causale per superare le sfide della generalizzazione temporale, permettendo la generazione di audio coerente da video di oltre 5 minuti senza richiedere addestramento su sequenze lunghe.