Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach
Dit paper introduceert FlashCache, een frequentiedomein-gestuurde compressiemethode voor multimodale KV-cache die uitbijterparen behoudt om de inferentie-efficiëntie van multimodale grote taalmodellen aanzienlijk te verbeteren zonder prestatieverlies.