RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding
Questo lavoro introduce il nuovo compito di apprendimento audio-visivo "Region-Aware Sound Source Understanding" (RA-SSU), supportato dai dataset annotati f-Music e f-Lifescene e dal modello SSUFormer, che mira a ottenere una comprensione dettagliata delle sorgenti sonore a livello di regione e di fotogramma con prestazioni state-of-the-art.