Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

Each language version is independently generated for its own context, not a direct translation.

Memex(RL): De Slimme Assistent met een Perfect Geheugen

Stel je voor dat je een enorme, complexe klus moet klaren. Misschien moet je een nieuw huis inrichten, een lang verhaal schrijven of een ingewikkeld computerprogramma bouwen. Je hebt een zeer slimme assistent bij je: een kunstmatige intelligentie (een LLM-agent). Deze assistent is briljant, maar heeft één groot nadeel: zijn 'werkgeheugen' is klein.

Het is alsof je assistent alleen maar kan kijken naar wat er direct op zijn bureau ligt. Als je hem 100 stappen laat zetten, wordt zijn bureau zo vol met papieren, notities en gereedschap dat hij de eerste stap niet meer kan zien. Hij raakt de draad kwijt.

Dit is het probleem dat het paper Memex(RL) oplost. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: Het "Bureau" is te vol

Normaal gesproken proberen assistenten om alles wat ze hebben gedaan in hun hoofd te houden. Ze schrijven een samenvatting van wat er gebeurd is. Maar dat is als het samenvatten van een heel boek in één zin: je verliest de details. Als je later precies die ene zin uit hoofdstuk 3 nodig hebt, is hij weg of onherkenbaar.

Andere systemen proberen alles op te slaan in een externe map, maar dan zoeken ze vaak op basis van "wat klinkt het hetzelfde?". Dat is als zoeken in een rommelige kast waar alles door elkaar ligt; je vindt misschien iets, maar het is niet het exacte stukje papier dat je nodig had.

2. De Oplossing: Memex (De "Index" Methode)

Memex introduceert een nieuw systeem dat werkt als een perfecte archiefler. In plaats van alles op je bureau te houden, doet hij twee dingen tegelijk:

Het Werkblad (Klein en Overzichtelijk): Hij houdt een heel kort, overzichtelijk lijstje bij op zijn bureau. Dit lijstje bevat alleen de belangrijkste stappen en nummers (indexen) die verwijzen naar de details.
De Kelder (Volledig Archief): Alle saaie details, lange teksten, foutmeldingen en code die hij heeft gegenereerd, gooit hij niet weg. Hij stopt ze in een grote, georganiseerde kelder (een externe database) en plakt er een duidelijk etiket op met een nummer.

De Analogie:
Stel je voor dat je een detective bent die een moordzaak oplost.

Oude manier: Je schrijft elke getuigenverklaring van 10 pagina's op een vel papier en stapelt ze op je bureau. Na 50 getuigen zit je bureau vol en kun je de eerste getuige niet meer vinden.
Memex-methode: Je schrijft op je bureau: "Getuige A: zag de dader om 20:00 (zie dossier #101)."
De volledige verklaring van Getuige A ligt netjes in dossier #101 in de archiefkast. Je bureau blijft schoon. Als je later die verklaring nodig hebt, kijk je op je lijstje, pakt je dossier #101 uit de kast en leest je het exacte stukje dat je nodig hebt.

3. De Leermeester: MemexRL (Leren door Proberen)

Het is niet vanzelfsprekend dat een computer weet wanneer hij iets moet opslaan en hoe hij het moet labelen. Als hij te vaak opslaat, is het bureau weer vol. Als hij te weinig opslaat, vergeet hij dingen.

Daarom gebruiken de onderzoekers een truc genaamd MemexRL (Reinforcement Learning, oftewel "leren door beloning en straf").

De Beloning: De assistent krijgt punten als hij de klus succesvol afrondt.
De Straf: Hij krijgt punten af als zijn bureau te vol raakt (te veel tokens) of als hij dezelfde vragen blijft stellen (redundantie).

Door duizenden keren te oefenen, leert de assistent vanzelf: "Oh, ik moet nu even stoppen met schrijven en dit belangrijke feit in de kelder stoppen met een goed label, zodat ik het straks snel kan vinden." Hij leert niet alleen wat te doen, maar ook hoe te onthouden.

4. Wat levert dit op?

De resultaten zijn indrukwekkend:

Meer succes: De assistent lost veel langere en moeilijkere taken op (van 24% naar 85% succes).
Kleinere werkplek: Hij doet dit terwijl zijn bureau (het werkgeheugen) bijna de helft kleiner blijft.
Precisie: Hij vergeet niets, omdat hij de originele details altijd kan terugvinden via de nummers, in plaats van te vertrouwen op een vaag samenvatting.

Conclusie

Memex is als het geven van een slimme notitieblok en een perfecte archiefkast aan een slimme assistent. In plaats van te proberen alles in zijn hoofd te houden (wat onmogelijk is bij lange taken), leert hij om een kort overzicht te houden en de zware details netjes op te slaan voor later. Hierdoor kan hij werken aan projecten die duizenden stappen lang zijn, zonder ooit de draad te verliezen.

Het is een stap in de richting van AI-assistenten die echt langdurig werk kunnen verrichten, net zoals een mens dat doet met zijn eigen notities en bestanden.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem: De Context-Window Beperking

Grote Taalmodellen (LLM) worden steeds vaker ingezet als agenten voor complexe, langdurige taken (long-horizon tasks) die honderden stappen en tool-aanroepen vereisen. Het fundamentele knelpunt is de beperkte contextwindow van het model.

Het dilemma: Naarmate een traject groeit, wordt het onmogelijk om alle tool-outputs, observaties en redeneringen in het in-context venster te houden.
Bestaande oplossingen: Huidige systemen gebruiken vaak truncatie (weglaten van oude data) of lossy samenvattingen (samenvatten van verleden data).
De tekortkoming: Deze methoden zijn fundamenteel verliesgevend. Ze verwijderen of vervormen bewijsmateriaal dat later cruciaal kan blijken voor het bereiken van een subdoel. Semantische zoekopdrachten in externe databases zijn vaak onnauwkeurig en leiden tot dubbelzinnigheid.

2. Methodologie: Memex en MemexRL

De auteurs introduceren Memex, een architectuur die context comprimeert zonder bewijsmateriaal te verliezen, en MemexRL, een versterkingsleerframework om dit gedrag te optimaliseren.

A. Memex: Geïndexeerde Ervaringsgeheugen (Indexed Experience Memory)

Memex scheidt het werkgeheugen van het volledige archief:

Compact Werkgeheugen: De agent houdt een korte, gestructureerde "geïndexeerde samenvatting" (Indexed Summary) in de context. Deze bevat een actievere staat en een lijst van stabiele indexen met beschrijvingen.
Externe Ervaringsdatabase: Volledige, hoogwaardige interacties (tool-outputs, logs, code) worden opgeslagen in een externe key-value database onder de stabiele indexen.
Operaties:
- CompressExperience: De agent vervangt een lange reeks interacties in de context door een compacte samenvatting en archiveert de ruwe data in de externe database.
- ReadExperience: Wanneer specifieke eerdere bewijsstukken nodig zijn, "ontkoppelt" (dereferences) de agent een index om de exacte inhoud op te halen en weer in de context te injecteren.
- Dual-mode opslag: De agent kan kiezen tussen het herschrijven van content (voor efficiëntie) of het gebruik van "anchors" (start/midden/eind) om exacte tekstspans uit de conversatie te archiveren.

B. MemexRL: Versterkingsleer Framework

Omdat het bepalen van wanneer te comprimeren, wat te archiveren en hoe te indexeren een complexe lange-termijn beslissing is, wordt dit geleerd via versterkingsleer (RL).

Beloningssysteem (Reward Shaping): De beloning ( $R$ $R$ ) bestaat uit:
- $R_{task}$ : Succes van de taak.
- $P_{context}$ : Strafpunten voor het overschrijden van de contextlimiet.
- $P_{redundancy}$ : Strafpunten voor het herhaaldelijk uitvoeren van identieke tool-aanroepen (moedigt het gebruik van ReadExperience aan).
- $P_{format}$ : Strafpunten voor syntactische fouten in tool-aanroepen.
Segmented Trajectory Processing: Omdat compressie de voorvoegsel (prefix) van de context verandert, worden trajecten op compressiepunten opgesplitst in segmenten. Alle segmenten delen dezelfde eindbeloning, wat zorgt voor correcte credit assignment voor eerdere compressiebeslissingen.
Soft Triggering: In plaats van een harde limiet, krijgt de agent een "Context Status" melding. De agent leert zelf wanneer het verstandig is om te comprimeren op basis van semantische grenzen en niet alleen token-aantallen.

3. Belangrijkste Bijdragen

Indexed Experience Memory: Een nieuwe interface die een compacte in-context samenvatting koppelt aan een volledig trouw extern archief via stabiele indexen, wat precieze en auditabele toegang tot verleden bewijs mogelijk maakt.
MemexRL: Een RL-framework dat specifiek is ontworpen om schrijf- en leesgedrag voor geheugen te optimaliseren, inclusief een aangepaste trainingsprocedure voor trajecten met meerdere compressies.
Theoretische Analyse: Bewijs dat de Memex-lus in theorie de besluitvormingskwaliteit kan behouden (met een begrensd aantal dereferenties) terwijl de effectieve in-context berekening begrensd blijft, ongeacht de lengte van de geschiedenis.
Empirisch Bewijs: Resultaten tonen aan dat geleerde indexering leidt tot hogere taaksuccespercentages onder strikte contextbudgetten.

4. Resultaten

De methode werd getest op een aangepaste, moeilijkere versie van het ALFWorld-benchmark (met verborgen observaties en beperkte "look"-acties).

Model: Qwen3-30B-A3B-Thinking (MoE-model).
Succespercentage: De taaksuccesrate steeg van 24,2% (zonder RL) naar 85,6% (met MemexRL).
Contextgebruik: De piek-lengte van het werkgeheugen daalde van ~16.934 tokens naar ~9.634 tokens (een reductie van ~43%), terwijl de trainingsdrempel op 8.000 tokens lag.
Gedragsverandering:
- Het aantal compressies per episode daalde van 6,5 naar 3 (meer selectief comprimeren).
- Het aantal opvragingen (ReadExperience) steeg van 1 naar 6-7.
- Dit toont aan dat de agent leert om een herbruikbaar indexgeheugen op te bouwen in plaats van continu de context te herschrijven.

5. Betekenis en Conclusie

Memex(RL) biedt een nieuwe schaalbare aanpak voor langdurige LLM-agenten. In plaats van te vertrouwen op steeds grotere contextvensters of verliesgevende samenvattingen, stelt het een systeem voor dat werkt zoals menselijk werkgeheugen: een klein aantal actieve concepten in het hoofd, met verwijzingen naar gedetailleerde notities in een extern archief.

De studie toont aan dat het leren van samenvatten, indexeren en ophalen een cruciale schaalas is voor het bouwen van persistentere en betrouwbaardere AI-agenten die complexe workflows kunnen uitvoeren zonder vast te lopen in contextlimieten.

Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

1. Het Probleem: Het "Bureau" is te vol

2. De Oplossing: Memex (De "Index" Methode)

3. De Leermeester: MemexRL (Leren door Proberen)

4. Wat levert dit op?

Conclusie

1. Het Probleem: De Context-Window Beperking

2. Methodologie: Memex en MemexRL

A. Memex: Geïndexeerde Ervaringsgeheugen (Indexed Experience Memory)

B. MemexRL: Versterkingsleer Framework

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Smart Learning to Find Dumb Contracts (Extended Version)

QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources

Optimization over Trained (and Sparse) Neural Networks: A Surrogate within a Surrogate

Optimizing Binary and Ternary Neural Network Inference on RRAM Crossbars using CIM-Explorer

Code Roulette: How Prompt Variability Affects LLM Code Generation