Slow-Fast Inference: Training-Free Inference Acceleration via Within-Sentence Support Stability
Le papier présente Slow-Fast Inference, une méthode d'accélération sans entraînement qui améliore le débit de décodage des modèles à contexte long en alternant des étapes rapides utilisant une mémoire sparse réutilisable et des étapes lentes qui rafraîchissent cette mémoire aux frontières sémantiques, tout en préservant la qualité de génération.