Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, ein großes Sprachmodell (wie ein sehr kluger KI-Assistent) ist wie ein genialer Detektiv, der einen komplexen Fall lösen muss. Um den Fall zu lösen, muss er viele Hinweise sammeln, sie auf einem riesigen Whiteboard anordnen und dann Schritt für Schritt eine Lösung ableiten.

Das Problem bei dieser KI ist jedoch, dass ihr Gedächtnis (der Arbeitsspeicher) begrenzt ist.

Hier ist die einfache Erklärung der Forschungspapiere "Zipage" und "Compressed PagedAttention", übersetzt in eine Alltagssprache:

1. Das Problem: Der überfüllte Schreibtisch

Wenn die KI einen langen Text schreibt (z. B. eine Matheaufgabe löst), muss sie sich an jeden einzelnen Wort, das sie bisher geschrieben hat, erinnern, um den nächsten Satz logisch zu formulieren.

Die alte Methode: Jeder Hinweis wird auf ein neues Stück Papier geschrieben und auf den Schreibtisch gelegt. Je länger der Text wird, desto mehr Papier braucht sie.
Das Ergebnis: Der Schreibtisch (der GPU-Speicher) wird voll. Wenn er voll ist, muss die KI warten, bis jemand anderes Platz macht. Das bedeutet: Weniger Leute können gleichzeitig mit der KI arbeiten. Das ist wie ein Restaurant, in dem nur 5 Tische Platz haben, obwohl 50 Gäste da sind.

2. Die Lösung: "Zipage" – Der clevere Hausmeister

Die Autoren haben eine neue Methode namens Zipage entwickelt. Man kann sich das wie einen extrem effizienten Hausmeister vorstellen, der den Schreibtisch der KI in Echtzeit aufräumt, ohne wichtige Informationen zu verlieren.

Hier sind die drei genialen Tricks, die Zipage benutzt:

A. Der "Komprimierte Ordner" (Compressed PagedAttention)

Statt jeden Hinweis auf ein riesiges Blatt Papier zu schreiben, nutzt Zipage eine Art intelligente Aktenablage.

Wie es funktioniert: Der Hausmeister schaut sich die Hinweise an. Wenn er sieht, dass zwei Hinweise fast das Gleiche sagen (z. B. "der Hund bellt" und "das Tier bellt"), fasst er sie zusammen oder wirft den weniger wichtigen weg.
Der Clou: Er macht das nicht stur, sondern sehr präzise. Er behält die wichtigsten "Kern-Hinweise" (die für die Lösung entscheidend sind) und räumt den Rest weg. So bleibt der Schreibtisch immer klein genug, auch wenn der Fall sehr komplex ist.

B. Der "Schicht-Wechsel" (Hybrid Scheduling)

Stellen Sie sich vor, die KI ist ein Koch in einer Küche.

Das alte Problem: Wenn ein Koch einen sehr langen Suppenrezept (einen langen Text) kocht, braucht er den ganzen Herd. Andere Köche (andere Anfragen) müssen warten, bis der Herd frei ist.
Die Zipage-Methode: Der Hausmeister (Zipage) sagt: "Hey, du Koch, du brauchst nicht den ganzen Herd für die Suppe! Wir räumen die Hälfte der Töpfe weg, während du kochst, und geben sie einem anderen Koch, der gerade nur einen Salat macht."
Das Ergebnis: Viele Köche können gleichzeitig arbeiten. Die Küche wird viel effizienter genutzt.

C. Der "Gemeinsame Vorrat" (Shared Prefix Cache)

Oft beginnen viele Anfragen mit demselben Satz. Zum Beispiel fragen 100 Leute: "Wie berechne ich die Fläche eines Kreises?"

Die alte Methode: Jeder der 100 Köche würde den ersten Schritt (das Rezept für "Kreis") neu aufschreiben. Das ist Verschwendung.
Die Zipage-Methode: Es gibt einen gemeinsamen Vorratsschrank. Sobald einer den ersten Schritt aufgeschrieben hat, dürfen alle anderen darauf zugreifen, ohne es neu schreiben zu müssen. Zipage sorgt dafür, dass dieser Schrank auch dann noch funktioniert, wenn der Hausmeister später Dinge wegräumt.

3. Das Ergebnis: Schnell und trotzdem schlau

Das Paper zeigt, dass diese Methode zwei Dinge gleichzeitig erreicht:

Geschwindigkeit: Die KI kann über 2-mal so viele Anfragen gleichzeitig bearbeiten wie bisher (wie ein Restaurant, das plötzlich 100 Gäste statt 50 bedienen kann).
Qualität: Die KI vergisst nichts Wichtiges. Sie ist immer noch 95 % so schlau wie die KI, die ihren ganzen Schreibtisch behalten darf.

Zusammenfassung in einem Satz

Zipage ist wie ein super-effizienter Butler, der den Schreibtisch einer KI ständig aufräumt, unwichtige Notizen verwirft und Platz für neue Gäste schafft, ohne dass die KI ihre Intelligenz verliert – so kann sie viel mehr Menschen gleichzeitig bedienen.

Das ist besonders wichtig für Logik-Aufgaben (wie Mathe oder Programmieren), bei denen die KI sehr lange Texte generieren muss und sonst schnell an ihre Speicher-Grenzen stößt.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papiers „Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention" auf Deutsch:

1. Problemstellung

Mit dem Aufkommen von Large Language Models (LLMs), die auf Reasoning (logisches Schlussfolgern) spezialisiert sind (z. B. in Mathematik und Programmierung), hat sich die Anforderung an die Sequenzlänge drastisch erhöht. Diese Modelle führen oft umfangreiche Denkvorgänge durch, bevor sie eine Antwort generieren.

Der Engpass: Während des Decoding-Prozesses wächst der Speicherbedarf für den KV-Cache (Key-Value-Cache) linear mit der Sequenzlänge. Dies führt zu einem massiven Speicherengpass, der die Anzahl gleichzeitiger Anfragen (Concurrency) limitiert.
Grenzen bestehender Lösungen:
- Vollständiger KV-Cache: Ermöglicht hohe Qualität, aber begrenzt die Concurrency stark durch den Speicherbedarf.
- Bestehende Eviction-Methoden (z. B. SnapKV, PyramidKV): Komprimieren oft nur den Eingabe-KV-Cache oder nutzen grobkörnige, seitenbasierte (page-wise) Löschung. Dies führt entweder zu einem Verlust kritischer Informationen (Performance-Einbußen) oder ist nicht mit modernen Inferenz-Engines (wie vLLM, SGLang) kompatibel, die Techniken wie Continuous Batching und Prefix Caching benötigen.
- Andere Ansätze (z. B. MorphKV, R-KV): Erreichen konstanten Speicherverbrauch, sind aber oft nicht in Inferenz-Engines integriert und unterstützen keine fortgeschrittenen Scheduling-Strategien.

2. Methodik: Compressed PagedAttention

Die Autoren stellen Compressed PagedAttention vor, eine neue Methode zur Verwaltung des KV-Caches, die PagedAttention (wie in vLLM verwendet) mit einer tokenweisen Eviction-Strategie kombiniert.

Kernkomponenten:

Tokenweise Eviction mit Obergrenze: Jeder Anfrage wird eine maximale Anzahl von Blöcken ( $N_{max}$ ) zugewiesen. Sobald ein Request diese Grenze erreicht (und der letzte Block voll ist), wird ein Kompressionsvorgang ausgelöst.
Selektive Löschung: Anstatt ganze Blöcke zu löschen, werden unwichtige KV-Cache-Einträge auf Token-Ebene identifiziert und entfernt. Die verbleibenden, wichtigen Einträge werden in die ersten $N_{max}-1$ Blöcke verschoben. Der $N_{max}$ -te Block bleibt für zukünftige Decoding-Schritte reserviert.
Bewertungsfunktion (Scoring): Um zu entscheiden, welche Tokens behalten werden, wird eine Scoring-Funktion verwendet, die auf Aufmerksamkeitsscores basiert. Die Autoren integrieren und optimieren Techniken wie:
- Observation Window: Die letzten $w$ Tokens werden als Referenz genutzt.
- Global Score: Berücksichtigt historische Aufmerksamkeit über die gesamte Sequenz.
- Redundancy Score: Misst die Ähnlichkeit zwischen Key-States, um redundante Informationen zu entfernen.
- Lightning Redundancy Score: Ein neu entwickelter Algorithmus, der die Rechenkomplexität der Redundanzberechnung von $O(N^2 \cdot b^2)$ auf $O(N \cdot b^2)$ reduziert, indem er die Berechnung blockweise und ohne Speicherung der gesamten Ähnlichkeitsmatrix durchführt. Dies verhindert Speicherüberlauf und beschleunigt den Prozess erheblich.

Scheduling-Strategien:

Hybrid Scheduling: Um die Auslastung der GPU zu maximieren, erlaubt das System, dass Anfragen, die weniger als $N_{max}$ Blöcke benötigen oder deren letzter Block noch nicht voll ist, ohne Zuweisung von speziellen „Query Slots" (für die Kompression) decodieren können. Dies verhindert, dass kurze Anfragen blockiert werden, während lange Anfragen komprimiert werden.
Asynchrone Kompression und Decoding: Da nur ein kleiner Bruchteil der laufenden Anfragen zu jedem Zeitpunkt komprimiert werden muss, wird die Kompression asynchron zum Decoding ausgeführt. Anfragen, die keine Kompression benötigen, warten nicht auf den Abschluss der Kompression anderer Anfragen. Dies verbessert die GPU-Auslastung und den Durchsatz signifikant.
Prefix Caching für komprimierte Daten: Um das Teilen von gemeinsamen Präfixen (Shared Prefix) trotz Kompression zu ermöglichen, wird die Kompression so gesteuert, dass sie auf neue Ziel-Blöcke umgelenkt wird, während die gemeinsamen Blöcke (mit Referenzzähler > 1) intakt bleiben.

3. Wichtige Beiträge

Compressed PagedAttention: Eine neue Architektur, die die Vorteile von PagedAttention (effizientes Speichermanagement) mit feinkörniger, tokenbasierter Kompression vereint, ohne die Kompatibilität mit modernen Inferenz-Features zu verlieren.
Zipage Engine: Die Implementierung eines hochparallelen Inferenz-Engines, der diese Methoden nutzt.
Optimierte GPU-Kernel: Entwicklung von spezialisierten Kernels (in Triton implementiert) für die Kompression, einschließlich des „Lightning Redundancy Score", der den Flaschenhals der Berechnung beseitigt.
Hybrides Scheduling & Asynchronität: Eine neue Scheduling-Strategie, die Preemption minimiert und die GPU-Auslastung durch asynchrone Verarbeitung maximiert.

4. Ergebnisse

Die Evaluation erfolgte auf verschiedenen Reasoning-Aufgaben (Mathematik: AMC 23, AIME 24; Code: LiveCodeBench) mit Modellen der Qwen3-Serie (0.6B bis 32B) und DeepSeek-R1 Distill Llama 8B.

Durchsatz (Throughput): Zipage erreicht im Vergleich zu einem Full-KV-Engine (Nano-vLLM) einen Speedup von über 2,1x (bis zu 4,5x in bestimmten Szenarien) bei mathematischen Reasoning-Aufgaben.
Qualität (Performance): Trotz der Kompression bleibt die Leistung (gemessen an Pass@1) sehr hoch. Zipage erreicht etwa 95 % der Leistung eines Full-KV-Systems bei einem KV-Cache-Budget von 2048 Tokens. Bei einem Budget von 4098 Tokens nähert es sich der Vollleistung noch stärker an.
Vergleich mit State-of-the-Art: Zipage übertrifft sowohl vLLM als auch Nano-vLLM deutlich im Durchsatz (TPS), während es die Qualität von Full-KV-Methoden beibehält. Andere Eviction-Methoden (wie MorphKV, R-KV) erreichen zwar konstanten Speicher, leiden aber unter geringerer Qualität oder fehlender Integration in moderne Engines.
Effizienz: Die asynchrone Kompression sorgt für eine stabile und hohe Durchsatzrate, während Nano-vLLM aufgrund von Preemption und Blockierung starke Schwankungen aufweist.

5. Bedeutung und Ausblick

Das Papier adressiert ein kritisches Hindernis für den industriellen Einsatz von Reasoning-LLMs: den Speicherbedarf bei langen Sequenzen.

Praktische Relevanz: Zipage ermöglicht es, mehr gleichzeitige Benutzeranfragen auf derselben Hardware zu bedienen, ohne die Antwortqualität signifikant zu beeinträchtigen. Dies ist entscheidend für kosteneffiziente Cloud-Dienste.
Technischer Fortschritt: Die Arbeit zeigt, dass feinkörnige Kompression (Token-Ebene) mit modernen Scheduling-Techniken (Continuous Batching, Prefix Caching) vereinbar ist, was bisher als unvereinbar galt.
Zukunft: Die Autoren planen, die Engine für den Online-Einsatz zu erweitern (z. B. TTFT-Optimierung) und dynamische Budgets pro Anfrage einzuführen, um die Leistung weiter zu optimieren.

Zusammenfassend stellt Zipage einen bedeutenden Schritt dar, um die Skalierbarkeit von LLM-Inferenzsystemen für rechenintensive Reasoning-Aufgaben zu lösen, indem es Speicherengpässe durch intelligente Kompression und asynchrone Verarbeitung überwindet.