One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache
Ce papier présente DynaKV, un cadre d'entraînement postérieur innovant qui alloue dynamiquement des taux de compression spécifiques à chaque token pour réduire efficacement la mémoire du cache KV des modèles de langage tout en préservant une haute qualité de génération.