Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion
Este artículo presenta un método robusto para la extracción de hablantes objetivo audio-visuales que, mediante el entrenamiento con altas tasas de ausencia de modalidades, mantiene un rendimiento estable al fusionar características de labios y una única imagen facial incluso ante la pérdida intermitente de señales en escenarios reales.