Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion
Este artigo investiga a robustez da fusão de múltiplas inscrições na Extração de Falante Alvo Audiovisual (AVTSE), demonstrando que treinar com altas taxas de ausência de modalidades e combinar uma imagem facial única com características labiais permite manter um desempenho estável mesmo diante de falhas intermitentes de sinais em cenários do mundo real.