Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models
Este trabalho apresenta o MMHNet, uma rede hierárquica multimodal aprimorada que utiliza Mamba não causal para permitir a geração de áudio longo (superior a 5 minutos) a partir de vídeos, demonstrando que modelos treinados em instâncias curtas podem generalizar eficazmente para durações maiores sem necessidade de treinamento específico nesses intervalos.