Agent Memory Below the Prompt: Persistent Q4 KV Cache for Multi-Agent LLM Inference on Edge Devices
Diese Arbeit stellt ein System vor, das durch die persistente Speicherung von 4-bit quantisierten KV-Caches auf der Festplatte die wiederholte Neuberechnung bei Multi-Agenten-LLM-Inferenz auf Edge-Geräten eliminiert und so die Time-to-First-Token-Zeit um bis zu 136-fach reduziert, während gleichzeitig die Speicherkapazität vervierfacht wird.