One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache
Il paper presenta DynaKV, un innovativo framework di post-addestramento per la compressione del cache KV che assegna dinamicamente tassi di compressione a livello di token in base al loro significato semantico, ottenendo così una riduzione significativa della memoria e prestazioni superiori rispetto alle tecniche esistenti, specialmente se combinato con metodi di pruning come SnapKV.