A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Deze studie onthult door middel van een grootschalige analyse van elf zelftoezichtmodellen voor spraak hoe deze modellen sprekerspecifieke informatie coderen, waarbij wordt vastgesteld dat diepere lagen onverwacht identiteit herstellen en dat tussenliggende representaties dynamische prosodie beter vastleggen dan gespecialiseerde spreker-embeddings.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs