SyncSpeech: Efficient and Low-Latency Text-to-Speech based on Temporal Masked Transformer
Het paper introduceert SyncSpeech, een efficiënt en laag-latentie tekst-naar-spraakmodel dat de Temporal Masked Transformer-paradigma gebruikt om de voordelen van autoregressieve en niet-autoregressieve modellen te combineren, waardoor een aanzienlijke verbetering in snelheid en latentie wordt bereikt zonder in te leveren op spraakkwaliteit.