Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion
Diese Arbeit zeigt, dass das Training mit hohen Ausfallraten von Modalitäten die Robustheit eines Emotions-bewussten, Multi-Enrollment-Fusionsmodells für die audio-visuelle Zielsprecherextraktion signifikant verbessert und so auch bei unvorhergesehenen Signalverlusten stabile Leistung gewährleistet.