Structured Distillation for Personalized Agent Memory: 11x Token Reduction with Retrieval Preservation

Dit paper introduceert gestructureerde distillatie voor gepersonaliseerde agentgeheugens, waarbij conversatiegeschiedenis wordt gecomprimeerd tot een compacte zoeklaag van gemiddeld 38 tokens per uitwisseling (een 11-voudige reductie) terwijl de zoekkwaliteit behouden blijft of zelfs verbetert ten opzichte van volledige tekst.

Sydney Lewis

Gepubliceerd 2026-03-16
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar vergeetachtige assistent hebt. Elke keer als je met hem praat, begint hij opnieuw, alsof hij net is geboren. Jij herinnert je: "Oh ja, drie weken geleden hebben we dat raam in de code opgelost!" Maar de assistent weet dat niet, tenzij jij het hem opnieuw vertelt.

Het probleem is dat als je maandenlang met hem praat, die gesprekken enorm lang worden. Het is alsof je een hele bibliotheek moet meenemen in je rugzak elke keer dat je een vraag stelt. Dat is zwaar, duur en onpraktisch.

Deze paper, geschreven door Sydney Lewis, biedt een slimme oplossing: een "samenvatting" die de essentie bewaart, maar de details op de achtergrond houdt.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Vergeten" Bibliotheek

Stel je voor dat je elke dag met je assistent een gesprek voert. Na een jaar heb je duizenden gesprekken.

  • De oude manier: Als je iets wilt opzoeken, moet de assistent al die duizenden gesprekken in zijn geheugen laden. Dat is alsof je probeert een heel boek te lezen om één zin te vinden. Het kost te veel tijd en ruimte.
  • De huidige "oplossing": Veel systemen maken een samenvatting van alles wat er is gezegd en gooien het originele gesprek weg. Dat is gevaarlijk, want bij het samenvatten gaan vaak belangrijke details (zoals een specifieke foutmelding of een bestandsnaam) verloren. Het is alsof je een foto maakt van een schilderij, maar de verfkleur verandert.

2. De Oplossing: De "Gouden Kaart" (Structured Distillation)

De auteurs hebben een nieuwe manier bedacht om die gesprekken te comprimeren. Ze noemen het gestructureerde distillatie.

In plaats van het hele gesprek te bewaren, maken ze voor elk gesprek een klein, strak kaartje (een "object"). Dit kaartje heeft vier vakjes:

  1. De Kern: Wat is er eigenlijk bereikt? (Bijv. "We hebben de verbindingstijd voor de database verhoogd.")
  2. De Details: De specifieke technische termen die belangrijk zijn. (Bijv. "Foutmelding: ConnectionPoolTimeout")
  3. De Kamer: In welke "thema-kamer" hoort dit gesprek? (Bijv. "Database" of "Veiligheid").
  4. De Bestanden: Welke bestanden zijn er aangepast?

Het magische trucje:
Het originele gesprek wordt niet weggegooid. Het blijft veilig op je harde schijf staan. Het kaartje is alleen een zoekindex.

  • Als je zoekt, kijkt de assistent eerst naar de kaartjes. Die zijn heel klein (ongeveer 1/11e van de oorspronkelijke grootte).
  • Zodra hij het juiste kaartje vindt, haalt hij het originele gesprek op om je te laten zien wat er precies is gebeurd.

Het is alsof je een bibliotheek hebt met duizenden boeken. In plaats van alle boeken te openen, heb je een perfecte catalogus (de kaartjes). Als je een boek zoekt, kijk je in de catalogus, en dan loop je naar het juiste boek op de plank.

3. Werkt het? De "Zoektest"

De auteurs hebben dit getest met duizenden echte gesprekken van een software-ontwikkelaar. Ze stelden vragen als: "Waar hebben we dat probleem met de login-oplossing besproken?"

Ze vergelijkingen twee methodes:

  • Zoeken in de originele, lange gesprekken.
  • Zoeken in de kleine kaartjes.

De resultaten:

  • De "Slimme Zoeker" (Vector Search): Als je zoekt op betekenis (bijv. "hoe hebben we de database gefixt?"), werkt het zoeken in de kleine kaartjes bijna net zo goed als in de lange gesprekken. De kwaliteit is 96% hetzelfde, maar je gebruikt 11 keer minder ruimte!
  • De "Woordzoeker" (Keyword Search): Als je zoekt op exacte woorden, werkt de kleine kaartje-methode iets minder goed. De kaartjes zijn te kort om elk woord te bevatten.
  • De "Super-Los": De beste manier is een combinatie: gebruik de lange gesprekken voor het zoeken op exacte woorden, en de kaartjes voor het zoeken op betekenis. Samen zijn ze zelfs beter dan alleen de lange gesprekken!

4. Waarom is dit belangrijk?

Stel je voor dat je een assistent hebt die 1000 gesprekken in zijn hoofd kan houden.

  • Zonder deze truc: Hij zou 400.000 woorden moeten onthouden. Dat is te zwaar; hij wordt traag en duur.
  • Met deze truc: Hij onthoudt alleen de "kaartjes" (39.000 woorden). Dat past makkelijk in zijn hoofd. Hij is snel, goedkoop en onthoudt nog steeds alles wat belangrijk is.

De Grootte van de Idee in één zin:

Het is alsof je een Gedachtenpaleis bouwt: je hebt een compacte kaart van alle kamers (de kaartjes) om snel te navigeren, maar als je een kamer binnenloopt, zie je de volledige, originele inrichting (het gesprek) die nooit is veranderd.

Conclusie:
Je kunt je geheugen voor je AI-assistent 11 keer kleiner maken zonder dat hij vergeten wordt wat hij voor je heeft gedaan. De "essentie" blijft bewaard, en de "ruzie" (de lange, saaie details) kun je altijd nog opzoeken als je er echt naar op zoek bent.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →