Agent Memory Below the Prompt: Persistent Q4 KV Cache for Multi-Agent LLM Inference on Edge Devices

Deze paper introduceert een systeem voor multi-agent LLM-inferentie op randapparaten dat persistentie van 4-bit gekwantiseerde KV-caches op schijf mogelijk maakt om herhaalde voorvulling te elimineren, waardoor de tijd tot het eerste token tot wel 136 keer sneller wordt en meer agenten binnen het beperkte geheugen kunnen worden gehost.

Yakov Pyotr Shkolnikov

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een team van vijf slimme assistenten (AI-agenten) hebt die op je laptop werken. Ze hebben allemaal hun eigen "werkgeheugen" nodig om te onthouden wat er eerder is gezegd in een gesprek. Dit werkgeheugen heet een KV-cache.

Het probleem is dat laptops (zoals de nieuwe Apple M4 Pro) niet genoeg geheugen hebben om al die werkgeheugens tegelijk open te houden. Als je van de ene assistent naar de andere springt, moet de computer het geheugen van de eerste assistent op de schijf zetten en het geheugen van de tweede assistent weer in het werkgeheugen laden.

Zonder deze nieuwe technologie is dat als het opnieuw lezen van een heel boek elke keer dat je van hoofdstuk wisselt. Dat duurt lang (soms wel 15 seconden per wisseling), waardoor je wacht en de assistent traag reageert.

Dit paper introduceert een slimme oplossing: "Agent Memory Below the Prompt". Hier is hoe het werkt, vertaald naar alledaagse termen:

1. Het Probleem: De "Vergeten" Assistent

Stel je voor dat je een gesprek voert met een assistent over een complex onderwerp. Je stopt even, gaat naar een andere assistent, en komt later terug.

  • Hoe het nu gaat: De computer gooit je gesprek weg en moet het hele gesprek opnieuw lezen om te weten waar je gebleven was. Dit is als een student die elke keer dat hij de kamer uitgaat, zijn hele studieboek opnieuw moet lezen om de les te herinneren.
  • Het gevolg: Je wacht 15 seconden. Dat voelt als een eeuwigheid in een chatgesprek.

2. De Oplossing: De "Snelkookpan" voor Geheugen

De auteurs hebben een systeem bedacht dat twee dingen doet:

  1. Het comprimeert: Ze verkleinen het werkgeheugen van de assistent enorm (van 100% naar 25% grootte) zonder de betekenis te verliezen. Dit is alsof je een dik boek in een klein notitieboekje samenvat, maar alle belangrijke details behoudt.
  2. Het slaat het op: Ze schrijven dit samengevatte geheugen direct op je harde schijf (SSD), in plaats van het te vergeten als je de assistent sluit.

3. De Magie: Het "Snel Laden"

Wanneer je terugkeert naar die assistent:

  • Oude manier: De computer moet het hele gesprek opnieuw berekenen (15 seconden).
  • Nieuwe manier: De computer pakt het samengevatte notitieboekje van de schijf en plakt het direct in het werkgeheugen. Dit duurt slechts 0,5 seconden.

Het is alsof je in plaats van het hele boek te lezen, gewoon naar je samenvatting kijkt. De assistent weet direct weer waar hij gebleven was.

Waarom is dit zo speciaal?

  • Meer assistenten tegelijk: Omdat het geheugen zo klein is gemaakt (de "4-bit" techniek), kun je op dezelfde laptop nu 4 keer zoveel assistenten tegelijk actief houden. In plaats van 3, kun je er 12 hebben.
  • Verborgen wachttijd: Het systeem is zo slim dat het de laadtijd van de ene assistent "verbergt" terwijl de andere assistent al aan het praten is. Het is alsof je terwijl je wacht op de koffie, alvast je broodje belegt. Je merkt de wachttijd niet meer.
  • Veiligheid: Omdat elke assistent zijn eigen gescheiden "notitieboekje" heeft, kan geen enkele assistent het gesprek van een andere "lezen". Dit is belangrijk voor privacy.

De Resultaten in het Kort

  • Snelheid: Het herstarten van een gesprek is nu 136 keer sneller dan voorheen.
  • Kwaliteit: De assistenten worden niet dommer door het samenvatten; ze maken nauwelijks fouten (minder dan 3% verschil in kwaliteit).
  • Toepassing: Dit werkt perfect op laptops en telefoons, zodat je complexe AI-gesprekken kunt voeren zonder internet en zonder dat je wacht.

Kortom: Dit paper maakt AI-assistenten op je eigen apparaat veel sneller, slimmer en betrouwbaarder door hun "herinneringen" slim op te slaan en te comprimeren, zodat je nooit meer hoeft te wachten terwijl ze "nadenken".

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →