Latent Speech-Text Transformer
Dit paper introduceert de Latent Speech-Text Transformer (LST), een model dat spraaktokens aggregeert tot latente patches om de rekenefficiëntie te verbeteren en de prestaties van zowel spraak- als teksttaken te verhogen door de sequentiegranulariteit tussen beide modaliteiten te aligneren.