Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat stijfkoppige robot hebt die je wilt leren een nieuwe taak uitvoeren, zoals een wetenschappelijk experiment doen of iets kopen in een online winkel. Deze robot is al heel goed in het beantwoorden van vragen (dat is de "Large Language Model" of LLM), maar als hij in een nieuwe, onbekende wereld terechtkomt, blijft hij vaak hangen in wat hij al weet. Hij probeert dingen die logisch klinken, maar die in deze specifieke situatie niet werken. Hij leert niet snel van zijn fouten.

Dit artikel introduceert een nieuwe methode, genaamd EMPO2, om deze robot slimmer en avontuurlijker te maken. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Stijfkoppige" Robot

Stel je voor dat je de robot vraagt: "Zet het rode lampje aan." De robot kijkt om zich heen, ziet geen lampje, maar probeert het toch aan te zetten. Hij faalt. Omdat hij alleen kijkt naar wat hij al weet, denkt hij: "Oké, ik probeer het nog een keer," en faalt opnieuw. Hij heeft geen idee waarom het niet werkt of dat hij ergens anders moet zoeken. Hij blijft hangen in een cirkel van fouten.

2. De Oplossing: Een "Digitair Dagboek" (Het Geheugen)

EMPO2 geeft de robot een digitair dagboek (een extern geheugen).

Wat doet het? Als de robot een fout maakt, schrijft hij niet alleen op "Ik heb gefaald", maar hij schrijft ook een slimme tip op: "Ik probeerde het lampje aan te zetten in de gang, maar het was er niet. Ik moet eerst zoeken in de werkplaats."
Het effect: De volgende keer dat hij in de gang staat, leest hij zijn dagboek. Hij ziet de tip: "Ah, ik moet naar de werkplaats!" en hij probeert het daar. Hij leert van zijn eerdere mislukkingen zonder dat zijn hersenen (de software) direct herschreven hoeven te worden.

3. De Twee Manieren van Leren: "Oefenen" en "Integreren"

Het slimme aan EMPO2 is dat het twee manieren combineert om te leren, net zoals een student die zowel oefent met een studiegids als zonder:

Manier A: Oefenen met de Gids (On-Policy met geheugen)
De robot doet een opdracht terwijl hij naar zijn dagboek kijkt. Hij gebruikt de tips om slimme keuzes te maken. Dit helpt hem snel nieuwe dingen te ontdekken.
Manier B: De Gids Weglaten (Off-Policy zonder geheugen)
Dit is het magische deel. De robot doet een opdracht zonder naar het dagboek te kijken, maar hij kijkt wel naar wat hij eerder deed met het dagboek.
- De analogie: Stel je voor dat je een pianist bent die een moeilijk stuk heeft geoefend met een leraar (het dagboek). Nu speelt je het stuk alleen, zonder leraar. Je hersenen (de robot) zeggen: "Hé, die beweging die ik met de leraar deed, was goed. Ik ga die beweging nu in mijn eigen spieren opslaan, zodat ik het later ook zonder leraar kan."
- Zo wordt de kennis uit het dagboek langzaam een deel van de robot zelf. Uiteindelijk hoeft hij het dagboek niet meer te lezen; hij is het zelf geworden.

4. Waarom is dit zo goed?

In de proeven (op een virtuele wetenschapswereld en een online winkel) deed deze robot het veel beter dan andere methoden:

Sneller leren: Hij vond de oplossing veel sneller omdat hij niet steeds dezelfde fouten herhaalde.
Beter aanpassen: Als je hem een heel nieuwe taak gaf (bijvoorbeeld van "elektriciteit" naar "chemie"), kon hij zich snel aanpassen door even in zijn dagboek te kijken, zelfs als hij die specifieke taak nog nooit had gedaan.
Onafhankelijkheid: Na veel oefenen kon hij de taken zelfs doen zonder dagboek, omdat hij de tips intern had opgeslagen.

Samenvattend

EMPO2 is als een robot die een slimme coach heeft (het geheugen) die hem helpt nieuwe wegen te vinden. Maar in plaats van voor altijd afhankelijk te blijven van die coach, leert de robot van de coach om zijn eigen intuïtie te ontwikkelen.

Het is alsof je een leerling hebt die eerst met een boekje leert rijden, en door dat boekje te gebruiken, uiteindelijk zo goed wordt dat hij het boekje niet meer nodig heeft en zelfstandig door elke straat kan rijden. Dit maakt de robot niet alleen slimmer, maar ook veel flexibeler in onbekende situaties.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote Taalmodellen (LLMs) die worden ingezet als agenten voor complexe taken, kampen met een fundamenteel probleem: exploratie. Hoewel LLMs rijk zijn aan voorgeprogrammeerde kennis, falen ze vaak in omgevingen die het ontdekken van nieuwe staten vereisen, in plaats van alleen het benutten van bekende patronen.

Beperking van bestaande methoden: Traditionele Reinforcement Learning (RL) methoden voor LLMs (zoals GRPO) vertrouwen vaak te veel op het benutten van bestaande kennis en hebben moeite om systematisch te exploreren buiten de trainingsdistributie.
Beperking van geheugen-methoden: Bestaande benaderingen die externe geheugenmodules gebruiken (zoals Reflexion) kunnen prestaties verbeteren zonder parameter-updates, maar deze methoden bereiken snel een verzadigingspunt. Omdat de modelparameters statisch blijven, kan het model zijn intrinsieke kennis niet permanent uitbreiden of generaliseren naar volledig nieuwe scenario's zonder het externe geheugen.

Het kernprobleem is dus hoe men een agent kan trainen die zowel effectief exploreren (via geheugen) als generaliseren (via parametrische updates) kan, zonder afhankelijk te blijven van externe hulpmiddelen tijdens het inferentiestadium.

Methodologie: EMPO2

De auteurs stellen EMPO2 (Exploratory Memory-Augmented On- and Off-Policy Optimization) voor, een hybride RL-framework dat parametrische updates (het trainen van het LLM) combineert met niet-parametrische updates (een extern geheugen). Het framework werkt in twee fasen:

1. Rollout-fase (Generatie van trajecten)

Tijdens het interactieproces met de omgeving kiest de agent willekeurig tussen twee modi:

Prompting zonder geheugen: De agent genereert acties puur op basis van de huidige staat en de taak ( $\pi_\theta(s, u)$ ).
Geheugen-gestütste prompting: De agent haalt relevante "tips" op uit een extern geheugenbuffer $M$ $M$ (gebaseerd op eerdere mislukkingen of successen) en gebruikt deze als context voor de prompt ( $\pi_\theta(s, u, \text{tips})$ $π_{θ} (s, u, tips)$ ).
- Tip-generatie: De agent genereert zelf reflectieve tips na elke episode, die worden opgeslagen in het geheugen.

2. Update-fase (Optimalisatie)

Trajecten die zijn gegenereerd met geheugen-gestütste prompting worden gebruikt voor twee soorten updates, willekeurig geselecteerd:

On-Policy Update: De agent wordt geoptimaliseerd met behoud van de tips in de prompt. Dit helpt bij het stabiliseren van het leren met geheugen.
Off-Policy Update (Kerninnovatie): Hierbij worden de gegenereerde trajecten (die met tips zijn gemaakt) gebruikt om het basismodel te trainen zonder de tips in de prompt.
- Mechanisme: De agent leert van de "leraar" (de agent met tips) om het gedrag na te bootsen, maar de "leerling" (de basisagent) moet dit gedrag reproduceren zonder de tips. Dit fungeert als kennisdistillatie: de voordelen van het gebruik van tips worden "geïnternaliseerd" in de modelparameters.
- Stabilisatie: Om instabiliteit bij off-policy training te voorkomen (vaak veroorzaakt door lage waarschijnlijkheidstokens), wordt een masking-mechanisme toegepast dat de advantage-term onderdrukt voor tokens met een te lage waarschijnlijkheid.

Intrinsieke Beloning

Om exploratie verder te stimuleren, introduceert EMPO2 een intrinsieke beloning gebaseerd op de nieuwheid van een staat. Als een staat significant verschilt van eerder bezochte staten (gemeten via cosinesimilariteit), krijgt de agent een extra beloning. Dit moedigt de agent aan om nieuwe gebieden te verkennen, zelfs zonder externe beloning.

Belangrijkste Bijdragen

Hybride Optimalisatie Framework: EMPO2 is de eerste methode die on-policy en off-policy learning combineert met een dynamisch, zelfgegenereerd geheugen om zowel exploratie als generalisatie te maximaliseren.
Internalisatie van Kennis: Door off-policy updates te gebruiken, leert het model de voordelen van het gebruik van geheugen (tips) permanent in zijn parameters te verwerken. Dit betekent dat de agent na het trainen geen extern geheugen meer nodig heeft om goed te presteren.
Stabiele Off-Policy Training: De auteurs introduceren een masking-mechanisme en een specifieke loss-functie om de instabiliteit die vaak gepaard gaat met off-policy RL bij LLMs te mitigeren.
Autonome Exploratie: In plaats van afhankelijk te zijn van menselijke heuristieken of gesimuleerde wereldmodellen, genereert de agent zijn eigen leerervaringen en tips.

Resultaten

De prestaties van EMPO2 zijn getest op twee populaire benchmarks: ScienceWorld (wetenschappelijke experimenten) en WebShop (online winkelen).

Verbetering ten opzichte van GRPO:
- Op ScienceWorld: +128,6% verbetering ten opzichte van de sterke GRPO-baseline.
- Op WebShop: +11,3% verbetering ten opzichte van GRPO.
Generalisatie (Out-of-Distribution):
- In tests met nieuwe taken (OOD) waarbij het model geen gewichtsupdates onderging, maar wel gebruikmaakte van het aangeleerde geheugen, toonde EMPO2 superieure aanpassingsvermogen. Het kon zich snel aanpassen aan nieuwe omgevingen met slechts een paar pogingen.
- In tegenstelling tot GRPO, dat vaak vastloopt in suboptimale oplossingen, blijft EMPO2 verbeteren en lost het complexe taken op die vereisen dat de agent nieuwe objecten of locaties zoekt.
Ablatie-studies:
- De studie bevestigt dat zowel de on-policy als de off-policy componenten essentieel zijn. Het verwijderen van een van beide leidt tot suboptimale prestaties.
- Intrinsieke beloningen blijken noodzakelijk om te voorkomen dat het beleid in homogene gedragingen vastloopt.

Betekenis en Toekomstperspectief

EMPO2 markeert een belangrijke stap in de ontwikkeling van robuuste LLM-agenten. Het bewijst dat het combineren van kortetermijn-exploratie (via extern geheugen) met langetermijn-leren (via parametrische updates) leidt tot agenten die niet alleen beter presteren in bekende omgevingen, maar ook beter in staat zijn om zich aan te passen aan onbekende scenario's.

De methode lost het probleem op van "kortetermijn aanpassing" bij bestaande geheugen-methoden door de kennis permanent in het model te verankeren. Dit maakt EMPO2 een veelbelovende richting voor het bouwen van algemene, adaptieve AI-agenten die kunnen leren door trial-and-error zonder constante menselijke tussenkomst of externe databases. Toekomstig werk richt zich op het uitbreiden van dit framework naar andere domeinen zoals wiskunde, coderen en multimodale taken.