Parallel Token Prediction for Language Models
O artigo apresenta o PTP (Parallel Token Prediction), um framework que acelera a geração de linguagem ao prever múltiplos tokens simultaneamente em uma única chamada de modelo, substituindo a amostragem pós-hoc por variáveis de entrada aleatórias e alcançando um speedup de 2,4x em benchmarks de decodificação especulativa.