Agent Memory Below the Prompt: Persistent Q4 KV Cache for Multi-Agent LLM Inference on Edge Devices

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der vergessliche Kellner auf dem kleinen Tisch

Stell dir vor, du hast einen sehr schlauen Kellner (den KI-Modell), der dir Geschichten erzählt oder Aufgaben löst. Dieser Kellner hat ein kurzes Arbeitsgedächtnis. Um eine lange Geschichte zu erzählen, muss er sich vorher alles merken, was bisher passiert ist.

In der Welt der Computer nennt man dieses "Erinnern" den KV-Cache (Key-Value Cache).

Das Problem auf kleinen Geräten wie einem MacBook oder einem iPhone ist der Platz:

Der Tisch ist klein: Dein Computer hat nur begrenzten Arbeitsspeicher (RAM).
Die Gäste sind viele: Stell dir vor, du hast 10 verschiedene Agenten (z. B. einen Programmierer, einen Übersetzer, einen Planer), die alle gleichzeitig arbeiten wollen. Jeder braucht seinen eigenen "Tisch" mit seinem eigenen Gedächtnis.
Das Chaos: Wenn der Tisch voll ist, muss der Kellner einen Gast rauswerfen, um Platz für einen neuen zu machen. Aber wenn der rausgeworfene Gast später wiederkommt, hat er sein Gedächtnis verloren! Der Kellner muss die ganze Geschichte von vorne lesen und sich alles neu merken. Das dauert ewig (manchmal 15 Sekunden oder mehr).

Das ist wie bei einem Kellner, der bei jedem Wechsel des Gastes das gesamte Menü neu auswendig lernen muss, weil er es nicht aufgeschrieben hat.

Die Lösung: Ein Notizbuch, das nie vergisst

Die Autoren dieses Papers haben eine clevere Lösung gefunden, die wie ein magisches Notizbuch funktioniert.

Das Notizbuch (Festplatte): Anstatt das Gedächtnis der Kellner nur im flüchtigen Arbeitsspeicher zu halten (wo es beim Ausschalten verschwindet), schreiben sie es sofort in ein Notizbuch auf der Festplatte.
Der Kompressor (4-Bit-Quantisierung): Das Notizbuch ist riesig. Um Platz zu sparen, komprimieren sie die Notizen extrem stark (auf 4-Bit). Stell dir vor, sie schreiben nicht "Der Kellner trug eine rote Schürze", sondern nur "Rote Schürze". Das nimmt nur ein Viertel des Platzes weg, aber der Kellner versteht es trotzdem fast genauso gut.
Der schnelle Abruf: Wenn ein Gast (Agent) zurückkommt, holt der Kellner nicht die ganze Geschichte neu aus dem Kopf, sondern liest einfach die Notizen aus dem Notizbuch. Das geht super schnell (unter einer Sekunde).

Die drei genialen Tricks im Detail

Das System besteht aus drei Hauptteilen, die wie ein gut geöltes Team arbeiten:

1. Der isolierte Parkplatz (Block Pool)

Jeder Agent bekommt seinen eigenen, abgeschirmten Parkplatz. Wenn der Kellner für Agent A arbeitet, stört das nicht Agent B. Selbst wenn der Server neu startet, sind die Notizen auf dem Parkplatz (der Festplatte) noch da. Niemand vermischt die Notizen der Gäste.

2. Der Tausch-Trick (Interleaving)

Das ist der coolste Teil. Stell dir vor, der Kellner schreibt gerade eine Antwort für Agent A (das dauert ein paar Sekunden). In dieser Zeit, während Agent A "denkt", holt der Kellner parallel die Notizen für Agent B aus dem Notizbuch.

Ergebnis: Der Wartezeit für Agent B ist unsichtbar, weil sie genau in die Zeit fällt, in der Agent A schon antwortet. Es fühlt sich an, als wären alle sofort da.

3. Das fortlaufende Kapitel (Cross-Phase Injection)

Oft arbeiten Agenten in Phasen (z. B. erst planen, dann diskutieren, dann entscheiden). Normalerweise müsste man bei jeder neuen Phase alles neu lesen.
Mit diesem System ist es wie bei einem Buch: Wenn du von Kapitel 1 zu Kapitel 2 kommst, musst du nicht Kapitel 1 neu lesen. Du legst einfach das Buch auf, machst es auf Seite 50 auf und fährst fort. Das System merkt sich, wo ihr hattet, und baut darauf auf, ohne Zeit zu verschwenden.

Warum ist das so wichtig?

Geschwindigkeit: Ohne diese Technik dauert es bei langen Gesprächen bis zu 172 Sekunden, bis die KI das erste Wort sagt. Mit dieser Technik sind es nur 1,3 Sekunden. Das ist wie der Unterschied zwischen einem langsamen Zug und einem Hochgeschwindigkeitszug.
Platz: Auf einem normalen MacBook passen mit dieser Technik 4-mal mehr Agenten gleichzeitig rein als ohne. Man kann also viel mehr Dinge parallel tun, ohne dass der Computer einfriert.
Datenschutz: Da alles auf deinem eigenen Gerät passiert und nicht in die Cloud gesendet wird, bleiben deine privaten Gespräche privat. Niemand sonst sieht deine Notizen.

Das Fazit

Die Forscher haben einen Weg gefunden, wie KI auf kleinen Geräten (wie deinem Laptop oder Handy) so arbeiten kann, als hätte sie unendlich viel Gedächtnis. Sie nutzen die Festplatte als "zweites Gehirn", komprimieren die Daten clever und lassen die Wartezeiten im Hintergrund verschwinden.

Es ist, als würde man einem kleinen Kellner einen unendlichen Vorrat an Notizkarten geben, damit er sich an jeden Gast perfekt erinnern kann, ohne den Tisch zu überladen. Und das Beste: Er merkt sich alles auch dann noch, wenn das Licht ausgeht und wieder angeht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert ein kritisches Speicherproblem bei der Ausführung von Multi-Agenten-Systemen mit Large Language Models (LLMs) auf Edge-Geräten (z. B. Apple Silicon MacBook Pro).

Speicherbeschränkung: Edge-Geräte verfügen über einen festen, begrenzten RAM (z. B. 10,2 GB für KV-Caches auf einem M4 Pro nach Abzug von OS und Modellgewichten). Ein einzelner Agent benötigt für einen Kontext von 4.096 Token im FP16-Format bereits ca. 1,5 GB. Ein 10-Agenten-Workflow kann nicht alle Agenten gleichzeitig im RAM halten.
Ineffiziente Verwaltung: Herkömmliche Systeme (wie vLLM oder SGLang) verwalten den KV-Cache im RAM. Wenn ein Agent verdrängt (evicted) wird, um Platz für einen anderen zu schaffen, muss bei dessen Wiederaufruf der gesamte Kontext neu durch das Modell „prefilled" werden.
Latenz-Katastrophe: Auf Edge-Geräten ist dieser „Cold Prefill" extrem langsam. Bei einem 4K-Kontext dauert der Neustart eines Agents ca. 15,7 Sekunden. Bei einem 10-Agenten-Workflow summiert sich dies zu erheblichen Totzeiten (Dead Time), was interaktive Anwendungen unbrauchbar macht.
Architektonische Herausforderung: Das Zusammenführen mehrerer Agenten-Historien in einen einzigen langen Prompt führt zu „Position Bias" (Informationen in der Mitte erhalten weniger Aufmerksamkeit) und skaliert quadratisch ( $O(n^2)$ ) in der Rechenkomplexität. Separate Caches pro Agent sind notwendig, aber speicherintensiv.

2. Methodik und Systemdesign

Die Autoren schlagen ein System vor, das den KV-Cache (Key-Value Cache) persistent auf der Festplatte (SSD) in einem quantisierten Format speichert und direkt in die Aufmerksamkeitsschicht lädt, um den Neukomputationsaufwand zu eliminieren.

Persistenter Block-Pool (Persistent Block Pool):
- Jeder Agent erhält einen isolierten KV-Cache, der in Blöcken von 256 Token organisiert ist.
- Die Caches werden im Safetensors-Format auf der SSD persistiert. Dies ermöglicht das Überstehen von Server-Neustarts oder Geräteneustarts.
- Die Isolation verhindert Kontaminierung zwischen Agenten und schützt vor Prompt-Rekonstruktionsangriffen (wie bei PROMPTPEEK).
Q4-Quantisierungspipeline (4-Bit Quantization):
- Der KV-Cache wird in 4-Bit-Quantisierung (Q4) gespeichert (uint32 gepackte Daten + bfloat16 Skalen/Bias pro Gruppe).
- Speichereffizienz: Q4 reduziert den Speicherbedarf um ca. 72 % im Vergleich zu FP16 (Faktor ~0,28). Auf einem M4 Pro passen bei 8K Kontext mit Q4 12 Agenten, während nur 3 mit FP16 Platz finden.
- Direkte Inferenz: Das System nutzt eine modifizierte scaled dot-product attention in MLX, die direkt auf den Q4-Tensoren operiert, ohne sie erst in FP16 zu dequantisieren.
BatchQuantizedKVCache & Scheduling:
- Da MLX nicht thread-sicher ist, läuft die Inferenz auf einem einzigen Scheduler-Thread.
- Ein interleaved Scheduler wechselt zwischen Agenten: Während Agent A generiert (Decode-Phase), lädt Agent B seinen Cache von der SSD (Prefill-Phase). Da die Ladezeit (~500 ms) kürzer ist als die Generierungszeit, wird die Latenz „versteckt" (Latency Hiding).
- Das System unterstützt das gleichzeitige Inferieren mehrerer Agenten durch Batch-Operationen auf quantisierten Caches.
Cross-Phase Context Injection:
- Für Multi-Phase-Workflows (z. B. Verhandlungen, Debatten) wird der Cache nicht pro Phase neu berechnet. Stattdessen wird der Cache als „Arbeitsgedächtnis" behandelt: Neue Phasen erweitern den bestehenden Cache (EXTEND-Match), anstatt ihn zu ersetzen.

3. Wichtige Beiträge

Persistenter Block-Pool: Ein System zur Verwaltung isolierter, quantisierter KV-Caches pro Agent, die auf der SSD gespeichert sind und Server-Neustarts überdauern.
BatchQuantizedKVCache: Eine Implementierung für gleichzeitige Inferenz über mehrere quantisierte Caches hinweg mit einem interleaved Prefill/Decode-Scheduler.
Cross-Phase Injection: Ein Mechanismus, der den Attention-Zustand über verschiedene Gesprächsphasen hinweg wiederverwendet, ohne Neu-Berechnung.
Modellagnostische Architektur: Das System funktioniert nahtlos mit unterschiedlichen Architekturen (GQA bei Gemma/Llama, MLA bei DeepSeek) durch eine Abstraktionsebene (ModelCacheSpec).
OpenAI-kompatible API: Das System kann von jedem Framework verwendet werden, das Chat-Completion-Anfragen stellt, ohne Code-Änderungen.

4. Ergebnisse und Evaluation

Die Evaluation erfolgte auf einem Apple M4 Pro (24 GB RAM) mit drei Modellen: Gemma 3 12B, DeepSeek-Coder-V2-Lite 16B und Llama 3.1 8B.

Latenz-Reduktion (TTFT - Time to First Token):
- Der Wechsel von Cold-Prefill zu Warm-Cache (Wiederherstellung von der SSD) reduziert die Latenz drastisch.
- Gemma 3 (32K Kontext): Reduktion von 172 Sekunden auf 1,8 Sekunden (136-fache Beschleunigung).
- DeepSeek (32K Kontext): Von 47,3 Sekunden auf 633 ms (76-fach).
- Llama 3.1 (16K Kontext): Von 47,6 Sekunden auf 526 ms (91-fach).
- Bei 4K Kontext liegt die Warm-Ladezeit bei ca. 500–600 ms, was unter die 1-Sekunden-Schwelle für akzeptable Interaktivität fällt.
Speicherkapazität:
- Q4 ermöglicht es, 4-mal mehr Agenten im gleichen Speicherbudget unterzubringen als FP16. Bei 8K Kontext passen 12 Agenten (Q4) vs. 3 (FP16).
- FP16-Caching scheitert bei Multi-Agenten-Workflows oft bereits bei 16K Kontext aufgrund von OOM (Out of Memory), während Q4 bis 32K funktioniert.
Qualität (Perplexity):
- Die Q4-Quantisierung führt zu einer minimalen Qualitätsverschlechterung:
  - Gemma 3: -0,7 % (innerhalb der Messrauschens).
  - Llama 3.1: +2,8 %.
  - DeepSeek: +3,0 %.
- Diese Werte sind konsistent mit der aktuellen Literatur zu Q4-KV-Caches und akzeptabel für die meisten Anwendungen.
Vergleich mit vllm-mlx:
- vllm-mlx (FP16, flüchtiger Prefix-Cache) ist im Cold-Start schneller, scheitert aber bei Speicherdruck und Neustarts.
- Das vorgestellte System (Q4, persistent) überlebt Neustarts und bietet bei warmem Cache eine vergleichbare Latenz wie FP16-Prefix-Caching, jedoch mit deutlich höherer Kapazität und Persistenz.

5. Bedeutung und Fazit

Dieses Paper stellt einen Paradigmenwechsel für Edge-AI dar:

Virtual Memory für Attention: Das System implementiert ein Konzept ähnlich dem virtuellen Speicher (Paging) für den KV-Cache. Agenten sehen einen „unbegrenzten" Kontext, während das System Caches zwischen RAM und SSD austauscht.
Praktische Anwendbarkeit: Es ermöglicht komplexe Multi-Agenten-Workflows (z. B. Debatten, Team-Arbeit) auf Consumer-Hardware, die bisher nur in Rechenzentren mit großen GPU-Clustern möglich waren.
Datenschutz: Da die Inferenz lokal und ohne Netzwerkübertragung der Historie stattfindet, werden Datenschutzanforderungen (GDPR, HIPAA) besser erfüllt.
System-Engineering: Der Erfolg liegt nicht in neuen Algorithmen, sondern in der intelligenten Kombination bestehender Techniken (Quantisierung, Disk-Persistence, Batched Inference) zu einem funktionierenden System für spezifische Edge-Einschränkungen.

Das System ist Open Source verfügbar und adressiert die Lücke zwischen der hohen Rechenleistung moderner Edge-Chips und den Speicherbeschränkungen, die bisher Multi-Agenten-Anwendungen auf diesen Geräten limitierten.