Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach
El artículo presenta FlashCache, un marco de compresión de caché KV multimodal que utiliza un enfoque guiado por el dominio de la frecuencia para identificar y preservar las salidas atípicas (outliers), logrando una reducción significativa de la memoria y una aceleración en la inferencia sin comprometer el rendimiento de los modelos.