Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion
Ce papier propose une méthode robuste d'extraction de locuteur cible audio-visuelle qui, en s'entraînant avec un taux élevé de données manquantes, maintient des performances stables même en cas de perte de modalités lors du test, démontrant notamment l'efficacité de la fusion d'une image de visage avec des caractéristiques labiales.