Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superintelligente robot hebt (een Groot Taalmodel of LLM) die je helpt met moeilijke wiskundeproblemen of het schrijven van code. Om slim te zijn, moet deze robot een "werkgeheugen" hebben waar hij alle eerdere zinnen van het gesprek onthoudt. In de techwereld noemen we dit de KV-cache.

Het probleem is dat dit werkgeheugen enorm groot wordt als de robot langere en complexere redeneringen moet maken. Het is alsof je een kamer vult met stapels papier: naarmate het gesprek langer duurt, heb je steeds meer ruimte nodig. Als de kamer vol zit, moet je wachten tot er ruimte vrijkomt, of je kunt maar met één persoon tegelijk praten. Dit is de bottleneck die de paper beschrijft.

Hier is hoe Zipage (de nieuwe uitvinding uit het paper) dit oplost, vertaald naar een alledaags verhaal:

1. Het Probleem: De Volgepropte Kamer

Stel je een kantoor voor waar een slimme assistent werkt. Elke keer als hij een zin schrijft, legt hij een velletje papier in een archiefkastje om het later te kunnen raadplegen.

Oude methode: De assistent bewaart elk velletje papier dat ooit geschreven is. Als het gesprek 10.000 woorden lang is, heb je een hele bibliotheek nodig. Je kunt maar één klant bedienen voordat de kast vol zit.
Het gevolg: De assistent kan niet snel genoeg werken voor veel mensen tegelijk (lage "concurrentie").

2. De Oplossing: Zipage (De Slimme Archiefbeheerder)

De auteurs van het paper hebben een nieuwe manier bedacht om de archiefkast te beheren, genaamd Zipage. Ze gebruiken twee slimme trucs:

A. De "PagedAttention" (De Blokken)

In plaats van papier in één lange reeks te leggen, verdelen ze het in vaste blokken (zoals pagina's in een boek). Dit is al een bekende techniek, maar Zipage doet er nog meer bij.

B. De "Compressie" (Het Vergeten van Onbelangrijke Details)

Dit is de echte magische truc. Stel je voor dat de assistent een lang verhaal vertelt.

De observatie: De assistent kijkt naar wat hij zojuist heeft gezegd (de laatste paar zinnen).
De selectie: Hij vraagt zich af: "Welke oude stukjes van het verhaal zijn echt cruciaal om de rest te begrijpen, en welke zijn gewoon saai herhaling?"
De actie: Hij gooit de saaie, minder belangrijke stukjes papier weg (of comprimeert ze tot een samenvatting) en houdt alleen de belangrijkste stukjes over.
Het resultaat: De archiefkast blijft altijd even groot, ongeacht hoe lang het gesprek duurt. Hij gooit het oude, minder belangrijke papier weg om ruimte te maken voor het nieuwe.

3. De Slimme Regels (Scheduling)

Hoe zorg je dat dit niet chaotisch wordt? Zipage gebruikt een slimme planner:

Niet alles tegelijk: Als de assistent bezig is met het weggooien van oud papier (compressie), hoeft hij niet te stoppen met het schrijven van nieuwe zinnen. Ze doen het tegelijkertijd (asynchroon).
Deelbare blokken: Als twee klanten hetzelfde begin van een verhaal hebben (bijvoorbeeld "Hoe los ik deze wiskundevraag op?"), delen ze die eerste pagina's. Zipage zorgt ervoor dat ze die pagina's niet dubbel hoeven op te slaan, wat ruimte bespaart.
Geen vastlopen: Als de kast even vol zit, wacht de planner niet tot iemand klaar is. Hij schuift de minst belangrijke taken even opzij om ruimte te maken voor nieuwe, dringende vragen.

4. Het Resultaat: Sneller en Slimmer

In de tests hebben ze gekeken naar moeilijke wiskundetoetsen (zoals AMC 23).

Snelheid: Zipage was 2,1 keer sneller dan de oude systemen. Het kon meer dan 2.500 woorden per seconde genereren, terwijl de oude systemen er maar 900 haalden.
Kwaliteit: Ondanks dat ze papier weggooiden, bleef de assistent bijna even slim. Hij behield 95% van zijn intelligentie vergeleken met het systeem dat alles bewaarde.

Samenvatting in één zin

Zipage is als een slimme bibliothecaris die, terwijl hij een gesprek voert, continu de minder belangrijke oude notities weggooit om ruimte te maken voor nieuwe, zodat hij honderden mensen tegelijk kan bedienen zonder dat de bibliotheek ooit vol raakt, terwijl hij toch zijn scherpe verstand behoudt.

Dit maakt het mogelijk om krachtige AI-modellen veel efficiënter en goedkoper te draaien, zelfs voor complexe taken zoals wiskunde en programmeren.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention" in het Nederlands.

Probleemstelling

Met de opkomst van Large Language Models (LLMs) die gespecialiseerd zijn in redeneren (zoals in wiskunde en codering), is de inferentie-eis verschoven van pure rekenkracht naar geheugenefficiëntie.

De Bottleneck: Tijdens het decoderen (het genereren van antwoorden) moet de KV-cache (Key-Value cache) van het model in het geheugen worden bewaard. Bij redeneertaken worden sequenties extreem lang, wat leidt tot een enorme geheugenvraag.
Beperkingen van Bestaande Oplossingen:
- Bestaande methoden voor het verwijderen (evicting) van KV-cache-items zijn vaak onpraktisch voor industriële toepassingen.
- Sommige methoden behouden constant geheugengebruik maar missen essentiële functies zoals continuous batching en prefix caching, wat de doorvoer (throughput) verlaagt.
- Andere methoden gebruiken grove, paginagewijze verwijdering, wat kan leiden tot het verlies van cruciale informatie en prestatieverlies.
- Bestaande compressietechnieken (zoals KV-Compress) ondersteunen vaak alleen input-compressie, verstoren de prefix-cache en verhogen de kosten voor het vullen (prefilling).

Methodologie: Compressed PagedAttention

Het paper introduceert Compressed PagedAttention, een nieuwe aanpak die de efficiënte geheugenbeheertechniek PagedAttention (gebruikt in vLLM) combineert met flexibele, token-gewijze verwijdering van de KV-cache.

De kerncomponenten zijn:

Compressed PagedAttention Mechanisme:
- Elke aanvraag (request) heeft een vast maximumaantal blokken ( $N_{max}$ ) dat het mag bezetten tijdens het decoderen.
- Zodra een aanvraag $N_{max}$ blokken bereikt en de laatste blok vol is, wordt een compressie-operatie geactiveerd.
- Tijdens compressie worden minder belangrijke KV-cache-items verwijderd en worden de behouden items verplaatst naar de eerste $N_{max}-1$ blokken. De $N_{max}$ -de blok wordt gereserveerd voor toekomstige decoding, en overtollige blokken worden vrijgegeven.
- Dit zorgt ervoor dat het geheugengebruik per aanvraag binnen een vast limiet blijft, waardoor hoge concurrentie mogelijk blijft.
Hybride Scheduling Strategie:
- Om de beperkingen van strikte concurrentielimieten te overwinnen, introduceert Zipage een hybride scheduling.
- Aanvragen die minder dan $N_{max}$ blokken gebruiken of die nog geen compressie nodig hebben, kunnen doorgaan zonder extra query-slots.
- Alleen aanvragen die compressie nodig hebben, krijgen query-slots toegewezen.
- Als er geen blokken meer beschikbaar zijn, wordt preemptie (onderbreking) toegepast, waarbij prioriteit wordt gegeven aan het verwijderen van aanvragen zonder toegewezen query-slots. Dit maximaliseert het blokgebruik en voorkomt dat de wachtrij vastloopt.
Gedeelde Prefix Caching:
- Om het delen van KV-cache voor gedeelde voorvoegsels (prefixes) mogelijk te maken ondanks compressie, wordt de compressiestrategie aangepast.
- In plaats van items binnen bestaande blokken te herschikken, wordt compressie uitgevoerd in een nieuwe set "doelblokken". Dit behoudt de structuur van gedeelde blokken voor meerdere aanvragen.
- Als een aanvraag al genoeg gedeelde blokken heeft, worden nieuwe blokken toegewezen voor compressie; anders worden bestaande blokken hergebruikt.
Asynchrone Decoding en Compressie:
- Compressie is een kostbare bewerking. Zipage voert compressie en decoding asynchroon uit.
- Aanvragen die klaar zijn voor decoding, wachten niet op de voltooiing van de compressie van andere aanvragen. Dit maximaliseert het GPU-bezettingspercentage en verhoogt de algehele doorvoer.
Geoptimaliseerde Kernels:
- De auteurs hebben speciale GPU-kernels ontwikkeld (met Triton) voor compressiebewerkingen.
- Ze introduceren een "Lightning Redundancy Score" (O(N × b²) complexiteit) in plaats van de oorspronkelijke O(N² × b²) methode, wat de compressiesnelheid aanzienlijk verbetert zonder prestatieverlies.

Belangrijkste Bijdragen

Zipage Engine: Een nieuwe, hoog-concurrentie inferentie-engine gebaseerd op Compressed PagedAttention.
Integratie van Technieken: Het is de eerste oplossing die token-gewijze KV-cache-evictie succesvol integreert met PagedAttention, continuous batching, prefix caching en asynchrone verwerking.
Efficiëntie-verbeteringen: Ontwikkeling van geoptimaliseerde kernels en scheduling-strategieën die de overhead van compressie minimaliseren.
Open Source: De code is beschikbaar gesteld (GitHub: microsoft/Zipage).

Resultaten

De prestaties zijn geëvalueerd op diverse redeneertaken (wiskunde: AMC 23, AIME 24; codering: LiveCodeBench) met modellen zoals Qwen3 (0.6B tot 32B) en DeepSeek-R1 Distill Llama 8B.

Doorvoer (Throughput): Zipage bereikt een 2,1x tot 3,4x versnelling (speedup) ten opzichte van bestaande inferentie-engines zoals vLLM en Nano-vLLM, afhankelijk van het model en de werklast.
Kwaliteit (Performance): Ondanks de compressie behoudt Zipage ongeveer 95% van de prestaties (gemeten in pass@1) van een engine met een volledige KV-cache (Full KV).
Efficiëntie:
- Bij een KV-cache budget van 2048 tokens voor wiskundige taken (AMC 23) met Qwen3 8B, wordt 95% van de Full KV-prestatie behaald met meer dan 2x de doorvoer.
- Asynchrone compressie en hybride scheduling dragen significant bij aan de verbetering van de TPS (Tokens Per Second).
Gebruik: Zipage behoudt een hoge concurrentie (vaak >100 aanvragen tegelijk) terwijl Nano-vLLM door geheugentekort vaak vastloopt bij lagere concurrentie.

Betekenis en Impact

Dit paper lost een kritiek probleem op in de schaalbaarheid van LLM-diensten voor redeneertaken.

Industriële Toepasbaarheid: Het maakt het mogelijk om dure redeneermodellen te draaien met hoge concurrentie op beperkte hardware, wat essentieel is voor kostenefficiënte productieomgevingen.
Paradigmaverschuiving: Het bewijst dat agressieve geheugencompressie niet noodzakelijk leidt tot kwaliteitsverlies, mits de juiste scheduling en caching-mechanismen worden toegepast.
Toekomstperspectief: Het legt de basis voor online inferentie-engines die dynamisch kunnen omgaan met variërende sequentielengtes zonder dat de gebruiker merkt aan vertragingen of prestatieverlies.

Kortom, Zipage biedt een robuuste oplossing voor de geheugenbottleneck bij LLM-redenering, waardoor het mogelijk wordt om complexe taken te draaien met een doorvoer die eerder alleen haalbaar was voor kortere, minder geheugenvragende taken.

Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention

1. Het Probleem: De Volgepropte Kamer

2. De Oplossing: Zipage (De Slimme Archiefbeheerder)

A. De "PagedAttention" (De Blokken)

B. De "Compressie" (Het Vergeten van Onbelangrijke Details)

3. De Slimme Regels (Scheduling)

4. Het Resultaat: Sneller en Slimmer

Samenvatting in één zin

Probleemstelling

Methodologie: Compressed PagedAttention

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem