Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach
O artigo apresenta o FlashCache, um novo framework de compressão de cache KV para modelos de linguagem multimodal que utiliza uma abordagem guiada por domínio de frequência para identificar e preservar outliers críticos, resultando em uma aceleração de decodificação de até 1,69 vezes e uma redução de 80% no uso de memória sem comprometer o desempenho.