Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach
이 논문은 멀티모달 KV 캐시의 주파수 영역 에너지 분포와 이상치 (Outlier) KV 를 분석하여, 기존 방법의 한계를 극복하고 FlashAttention 과 호환되면서도 메모리 사용량을 80% 줄이고 디코딩 속도를 1.69 배 향상시키는 'FlashCache'라는 새로운 압축 프레임워크를 제안합니다.