Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach
Die Arbeit stellt FlashCache vor, einen frequenzdomänengesteuerten Ansatz zur Komprimierung des Multimodal-KV-Caches, der durch die Identifizierung und Erhaltung von Ausreißer-KV-Paaren sowie eine dynamische Budgetzuweisung die Inferenzgeschwindigkeit und Speichereffizienz von Multimodal Large Language Models signifikant verbessert, ohne die Leistung zu beeinträchtigen.