Slow-Fast Inference: Training-Free Inference Acceleration via Within-Sentence Support Stability
Il paper introduce Slow-Fast Inference, un metodo di inferenza senza addestramento che accelera la decodifica a lungo contesto sfruttando la stabilità dell'attenzione all'interno delle frasi per alternare passi veloci con memoria sparsa a passi lenti che aggiornano il contesto, ottenendo un throughput fino a 14,4 volte superiore mantenendo la qualità.