BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings
Il paper presenta BabyHuBERT, un modello di apprendimento auto-supervisionato multilingue addestrato su 13.000 ore di registrazioni infantili che supera le prestazioni dei modelli esistenti nel distinguere i bambini dagli adulti in registrazioni lunghe e naturali, offrendo risorse preziose per lo studio dello sviluppo linguistico in oltre 40 lingue.