KV Cache Transform Coding for Compact Storage in LLM Inference
Het artikel introduceert KVTC, een lichtgewicht coderingstechniek die de Key-Value-cache van grote taalmodellen met tot 20 keer comprimeert door decorrelatie, adaptieve kwantisatie en entropiecodering toe te passen, waardoor het GPU-geheugenverbruik aanzienlijk wordt verlaagd zonder in te leveren op de nauwkeurigheid.