One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache
El artículo presenta DynaKV, un marco de compresión post-entrenamiento que asigna dinámicamente tasas de compresión a nivel de token según su significado semántico, logrando una reducción significativa de la memoria del caché KV sin sacrificar la calidad de generación en modelos de lenguaje grandes.