Balancing Coverage and Draft Latency in Vocabulary Trimming for Faster Speculative Decoding
Questo articolo propone un metodo di ottimizzazione per la selezione del vocabolario nei modelli di bozza dello speculative decoding, che bilancia copertura e latenza riducendo fino al 97% la dimensione del vocabolario e migliorando il throughput fino al 20% su compiti specifici di dominio.