ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs
Il paper presenta ARKV, un framework adattivo e leggero che ottimizza la gestione della cache KV per l'inferenza di LLM in contesti lunghi, riducendo l'uso di memoria GPU di 4 volte mantenendo il 97% dell'accuratezza di base senza richiedere riaddestramento o modifiche architetturali.