Latent Speech-Text Transformer
O artigo apresenta o Latent Speech-Text Transformer (LST), um modelo que agrupa tokens de fala em patches latentes para alinhar a granularidade com o texto, resultando em maior eficiência computacional e melhor desempenho tanto na fala quanto no texto em diversas tarefas e escalas.