Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion
Questo articolo propone un metodo robusto per l'estrazione del parlante target audio-visivo che, sfruttando la fusione di più registrazioni e un addestramento con alti tassi di dati mancanti, mantiene prestazioni elevate anche in presenza di interruzioni dei segnali visivi o uditivi tipici degli scenari reali.