Slow-Fast Inference: Training-Free Inference Acceleration via Within-Sentence Support Stability
O artigo apresenta a "Slow-Fast Inference" (SFI), uma metodologia de aceleração de inferência sem necessidade de treinamento que reduz custos computacionais em contextos longos ao alternar entre passos rápidos que reutilizam uma memória esparsa estável e passos lentos que atualizam essa memória em fronteiras semânticas, mantendo a qualidade do modelo.