Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion
Dit artikel presenteert een robuuste emotion-bewuste methode voor audio-visuele sprekerextractie die, door te trainen met een hoge mate van ontbrekende modaliteiten, stabiele prestaties behoudt bij testtijd-uitval van signalen en zo de uitdagingen van de cocktailparty-situatie effectief aanpakt.