One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache
O artigo apresenta o DynaKV, um framework de pós-treinamento inovador que otimiza a compressão de cache KV em modelos de linguagem grandes ao alocar dinamicamente taxas de compressão baseadas no significado semântico de cada token, superando métodos existentes ao reduzir significativamente o uso de memória sem comprometer a qualidade da geração.