Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

Dit paper introduceert Memex, een mechanisme voor geïndexeerd ervaringsgeheugen dat, in combinatie met het versterkingsleringsframework MemexRL, lange-horizon LLM-agenten in staat stelt om volledige interacties te archiveren en op vraag op te halen, waardoor de contextbeperkingen worden overwonnen zonder dat er essentiële informatie verloren gaat door samenvattingen.

Zhenting Wang, Huancheng Chen, Jiayun Wang, Wei Wei

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Memex(RL): De Slimme Assistent met een Perfect Geheugen

Stel je voor dat je een enorme, complexe klus moet klaren. Misschien moet je een nieuw huis inrichten, een lang verhaal schrijven of een ingewikkeld computerprogramma bouwen. Je hebt een zeer slimme assistent bij je: een kunstmatige intelligentie (een LLM-agent). Deze assistent is briljant, maar heeft één groot nadeel: zijn 'werkgeheugen' is klein.

Het is alsof je assistent alleen maar kan kijken naar wat er direct op zijn bureau ligt. Als je hem 100 stappen laat zetten, wordt zijn bureau zo vol met papieren, notities en gereedschap dat hij de eerste stap niet meer kan zien. Hij raakt de draad kwijt.

Dit is het probleem dat het paper Memex(RL) oplost. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: Het "Bureau" is te vol

Normaal gesproken proberen assistenten om alles wat ze hebben gedaan in hun hoofd te houden. Ze schrijven een samenvatting van wat er gebeurd is. Maar dat is als het samenvatten van een heel boek in één zin: je verliest de details. Als je later precies die ene zin uit hoofdstuk 3 nodig hebt, is hij weg of onherkenbaar.

Andere systemen proberen alles op te slaan in een externe map, maar dan zoeken ze vaak op basis van "wat klinkt het hetzelfde?". Dat is als zoeken in een rommelige kast waar alles door elkaar ligt; je vindt misschien iets, maar het is niet het exacte stukje papier dat je nodig had.

2. De Oplossing: Memex (De "Index" Methode)

Memex introduceert een nieuw systeem dat werkt als een perfecte archiefler. In plaats van alles op je bureau te houden, doet hij twee dingen tegelijk:

  1. Het Werkblad (Klein en Overzichtelijk): Hij houdt een heel kort, overzichtelijk lijstje bij op zijn bureau. Dit lijstje bevat alleen de belangrijkste stappen en nummers (indexen) die verwijzen naar de details.
  2. De Kelder (Volledig Archief): Alle saaie details, lange teksten, foutmeldingen en code die hij heeft gegenereerd, gooit hij niet weg. Hij stopt ze in een grote, georganiseerde kelder (een externe database) en plakt er een duidelijk etiket op met een nummer.

De Analogie:
Stel je voor dat je een detective bent die een moordzaak oplost.

  • Oude manier: Je schrijft elke getuigenverklaring van 10 pagina's op een vel papier en stapelt ze op je bureau. Na 50 getuigen zit je bureau vol en kun je de eerste getuige niet meer vinden.
  • Memex-methode: Je schrijft op je bureau: "Getuige A: zag de dader om 20:00 (zie dossier #101)."
    De volledige verklaring van Getuige A ligt netjes in dossier #101 in de archiefkast. Je bureau blijft schoon. Als je later die verklaring nodig hebt, kijk je op je lijstje, pakt je dossier #101 uit de kast en leest je het exacte stukje dat je nodig hebt.

3. De Leermeester: MemexRL (Leren door Proberen)

Het is niet vanzelfsprekend dat een computer weet wanneer hij iets moet opslaan en hoe hij het moet labelen. Als hij te vaak opslaat, is het bureau weer vol. Als hij te weinig opslaat, vergeet hij dingen.

Daarom gebruiken de onderzoekers een truc genaamd MemexRL (Reinforcement Learning, oftewel "leren door beloning en straf").

  • De Beloning: De assistent krijgt punten als hij de klus succesvol afrondt.
  • De Straf: Hij krijgt punten af als zijn bureau te vol raakt (te veel tokens) of als hij dezelfde vragen blijft stellen (redundantie).

Door duizenden keren te oefenen, leert de assistent vanzelf: "Oh, ik moet nu even stoppen met schrijven en dit belangrijke feit in de kelder stoppen met een goed label, zodat ik het straks snel kan vinden." Hij leert niet alleen wat te doen, maar ook hoe te onthouden.

4. Wat levert dit op?

De resultaten zijn indrukwekkend:

  • Meer succes: De assistent lost veel langere en moeilijkere taken op (van 24% naar 85% succes).
  • Kleinere werkplek: Hij doet dit terwijl zijn bureau (het werkgeheugen) bijna de helft kleiner blijft.
  • Precisie: Hij vergeet niets, omdat hij de originele details altijd kan terugvinden via de nummers, in plaats van te vertrouwen op een vaag samenvatting.

Conclusie

Memex is als het geven van een slimme notitieblok en een perfecte archiefkast aan een slimme assistent. In plaats van te proberen alles in zijn hoofd te houden (wat onmogelijk is bij lange taken), leert hij om een kort overzicht te houden en de zware details netjes op te slaan voor later. Hierdoor kan hij werken aan projecten die duizenden stappen lang zijn, zonder ooit de draad te verliezen.

Het is een stap in de richting van AI-assistenten die echt langdurig werk kunnen verrichten, net zoals een mens dat doet met zijn eigen notities en bestanden.