WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation
Ce papier présente WavSLM, un modèle de langage vocal qui, grâce à la distillation de WavLM et à une prédiction autoregressive sur un seul flux de tokens, parvient à générer de la parole cohérente en modélisant conjointement les informations sémantiques et acoustiques sans aucune supervision textuelle.