RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

Each language version is independently generated for its own context, not a direct translation.

RETROAGENT: De Agent die niet alleen werkt, maar ook groeit

Stel je voor dat je een robot hebt die een heel moeilijk puzzelspel moet spelen. De meeste robots die we vandaag de dag gebruiken, werken als volgt: ze proberen een puzzel op te lossen. Als het lukt, krijgen ze een beloning (een "goed gedaan!"). Als het mislukt, krijgen ze niets.

Het probleem is dat deze robots vaak steken blijven hangen. Ze vinden misschien een manier om de puzzel op te lossen, maar het is niet de beste manier. Of ze proberen iets en als het mislukt, vergeten ze het direct. Ze leren niet echt van hun fouten; ze slaan het gewoon op in hun "hersenen" (de parameters van het model), maar dat is alsof je een recept in je hoofd probeert te onthouden zonder het ooit op te schrijven.

RETROAGENT is een nieuwe, slimme aanpak die deze robots verandert van "puzzelaars" in "evolutionaire denkers". Ze leren niet alleen door te doen, maar door terug te kijken (retrospectie).

Hier is hoe het werkt, in drie simpele stappen:

1. De Twee Soorten "Interne Feedback" (De Twee Oren)

Wanneer de robot een poging doet (een "episode"), kijkt hij achteraf niet alleen naar het eindresultaat (win of verlies), maar analyseert hij zijn hele reis. Hij genereert twee soorten feedback:

A. De "Tellen-En-Meten" Feedback (Numeriek):
- Analogie: Stel je voor dat je een berg beklimt. De oude robots kregen alleen een beloning als ze de top bereikten. RETROAGENT krijgt ook een beloning als hij dichterbij de top komt dan bij zijn vorige poging.
- In het kort: Zelfs als je de taak niet helemaal voltooit, maar je hebt wel een stap verder gezet dan gisteren, krijgt de robot een kleine "goede jongen"-beloning. Dit moedigt aan om te blijven proberen en te verkennen, in plaats van snel op te geven.
B. De "Schrijf-Het-Vast" Feedback (Taal):
- Analogie: Stel je voor dat je een dagboek hebt. Na elke poging schrijft de robot een korte samenvatting op: "Vandaag ben ik vastgelopen omdat ik de verkeerde deur koos. De volgende keer moet ik eerst naar links kijken."
- In het kort: De robot distilleert zijn ervaringen tot een leerstuk (een lesje) en slaat dit op in een herinneringsbuffer. Dit is geen wazig gevoel in zijn hoofd, maar een duidelijk, leesbaar advies dat hij later kan opzoeken.

2. De Slimme Zoekmachine (SimUtil-UCB)

Nu heeft de robot een dagboek vol met lessen. Maar hoe weet hij welke les hij moet lezen als hij een nieuwe, vergelijkbare puzzel tegenkomt?

Analogie: Stel je voor dat je in een enorme bibliotheek staat. Een simpele zoekmachine zoekt alleen op woorden die lijken op je vraag (bijv. "puzzel"). Maar RETROAGENT gebruikt een slimme bibliothecaris (de SimUtil-UCB strategie).
Deze bibliothecaris kijkt naar drie dingen:
1. Relevantie: Is deze les wel nuttig voor deze specifieke puzzel?
2. Nuttigheid: Heeft deze les in het verleden al eens geholpen om een puzzel op te lossen?
3. Verkenning: Hebben we deze les al vaak gebruikt? Misschien moeten we eens kijken naar een minder bekende les die we nog niet hebben geprobeerd, want die zou ook kunnen werken.

Dit zorgt ervoor dat de robot niet steeds dezelfde oude fouten maakt, maar ook niet vastloopt in een hoekje van de bibliotheek.

3. De Twee Manieren om te Leren

Het paper beschrijft twee varianten van RETROAGENT:

De "In-Context" Variant: De robot leest zijn eigen dagboek voor tijdens het denken. Het is alsof hij tijdens het spelen hardop zegt: "Wacht, vorige keer deed ik dit en het werkte niet, dus doe ik het anders."
De "RL-Trained" Variant: De robot traint zijn eigen "reflectie-vermogen". Hij leert niet alleen wat hij moet doen, maar ook hoe hij goed moet nadenken over zijn fouten. Zijn reflectie en zijn actie worden samen getraind, zodat hij steeds beter wordt in het analyseren van zijn eigen gedrag.

Wat zijn de resultaten?

De onderzoekers hebben dit getest op vier moeilijke taken:

ALFWorld: Een virtueel huis waar je moet doen alsof je huishoudelijke taken doet (zoals een schone sok in de wasmand leggen).
WebShop: Een virtuele webshop waar je moet zoeken naar een heel specifiek product met veel filters.
Sokoban: Een logische puzzel waarbij je dozen moet duwen zonder ze vast te zetten.
MineSweeper: Het klassieke mijnenveldspel.

De uitkomst:
RETROAGENT deed het veel beter dan de beste bestaande methoden.

Op de webshop-taak verbeterde hij de prestaties met bijna 15%.
Op Sokoban (de puzzel) was de verbetering zelfs 27%.

Het belangrijkste is dat de robot niet alleen beter werd in de puzzels die hij al kende, maar ook beter kon omgaan met nieuwe, onbekende situaties. Hij kon zich aanpassen, net als een mens die van zijn fouten leert in plaats van ze te herhalen.

Samenvattend in één zin:

RETROAGENT is een robot die niet alleen werkt tot hij het goed doet, maar die na elke poging even stopt, zijn dagboek bijwerkt, zijn beste lessen selecteert en die gebruikt om de volgende keer slimmer te zijn. Hij evolueert van een simpele uitvoerder naar een wijs denker.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Huidige agenten op basis van Large Language Models (LLM's) die worden getraind met Versterkend Leren (RL), vertonen twee kritieke beperkingen wanneer ze worden ingezet voor complexe, interactieve taken:

Bias naar exploitatie: Agenten convergeren vaak te snel naar suboptimale strategieën omdat ze onvoldoende exploratie vertonen. Zodra een geldige oplossing wordt gevonden, stopt het trainingsproces vaak, waardoor er geen ruimte is voor continue adaptatie.
Implicit kennis: De kennis die tijdens het leren wordt opgedaan, blijft impliciet verankerd in de modelparameters. Dit betekent dat eerdere ervaringen, zelfs als ze highly relevant zijn voor de huidige context, niet expliciet kunnen worden opgehaald om de besluitvorming te sturen. Dit leidt tot inefficiënt leren en broos generalisatievermogen.

Bestaande oplossingen adresseren deze problemen vaak geïsoleerd: ofwel door exploratie te stimuleren, ofwel door expliciete geheugenbuffers toe te voegen. Er ontbreekt echter een raamwerk dat beide aspecten combineert om agenten niet alleen te laten "oplossen", maar ook te laten "evolueren".

Methodologie: RETROAGENT

RETROAGENT is een online RL-framework dat een hindsight zelfreflectie-mechanisme introduceert. Na elke episode analyseert de agent zijn eigen traject om dubbele intrinsieke feedback te genereren, die dient als signaal voor continue adaptatie.

1. Dubbele Intrinsieke Feedback

Het systeem genereert twee soorten feedback die de standaard RL-doelstelling aanvullen:

Intrinsieke Numerieke Feedback (Capaciteitsevolutie):
- De agent schat de voortgang van subtaken ten opzichte van eerdere pogingen (bijv. het vinden van een item in een winkel, zelfs als de aankoop mislukt).
- Dit resulteert in een scalair beloningssignaal ( $R_{int}$ ) dat veelbelovende exploratie belooft, zelfs als de uiteindelijke taak nog niet geslaagd is. Dit voorkomt vroegtijdige convergentie.
- De beloning wordt berekend als de rectified gain van de potentie-score boven een historisch gemiddelde succespercentage.
Intrinsieke Taalfeedback (Gedistilleerde lessen):
- De agent distilleert waardevolle lessen uit succesvolle en mislukte trajecten naar een expliciete tekstuele "memory buffer".
- Deze lessen worden opgehaald tijdens latere taken om contextuele richtlijnen te bieden die puur parameter-update niet kunnen bieden.

2. SimUtil-UCB Retrieval Strategie

Om de opgeslagen lessen effectief te benutten, introduceert RETROAGENT een nieuwe ophaalstrategie: Similarity & Utility-Aware Upper Confidence Bound (SimUtil-UCB). Deze strategie balanceert drie criteria:

Semantische relevantie: De les moet thematisch overeenkomen met de huidige taak (gemeten via cosine similarity).
Reflectie-utility: Lessen die in het verleden hebben bijgedragen aan succes krijgen een hogere score.
Exploratie-dekking: Gebruik van de UCB-formule om ook minder opgehaalde, maar potentieel waardevolle lessen te exploreren, waardoor de agent niet vastloopt in een smal subset van herhaalde lessen.

3. Implementatievarianten

Het paper presenteert twee varianten van RETROAGENT:

In-Context Variant: Gebruikt prompt-engineering (pairwise induction) om de reflectie te genereren zonder de reflectie-capaciteit zelf te trainen.
RL-Trained Variant: De reflectie-capaciteit wordt gezamenlijk geoptimaliseerd met het besluitvormingsbeleid. De agent leert niet alleen wat te doen, maar ook hoe zichzelf correct te evalueren via een extra reflectie-objectief ( $J_{Reflection}$ ).

Het framework is geïmplementeerd met GRPO (Group Relative Policy Optimization) voor de besluitvorming en REINFORCE voor de reflectie-optimalisatie.

Belangrijkste Resultaten

De auteurs hebben RETROAGENT getest op vier uitdagende agent-taken (ALFWorld, WebShop, Sokoban, MineSweeper) met twee model families (Qwen-2.5-7B en Llama-3.1-8B).

State-of-the-Art (SOTA) Prestaties: RETROAGENT overtreft bestaande methoden significant.
- Op ALFWorld: +18,3% verbetering t.o.v. GRPO.
- Op WebShop: +15,4% verbetering.
- Op Sokoban: +27,1% verbetering.
- Op MineSweeper: +8,9% verbetering.
Superioriteit van Dubbele Feedback: Het combineren van numerieke en taalfeedback werkt beter dan het gebruik van slechts één type feedback. Numerieke feedback stimuleert exploratie, terwijl taalfeedback de exploitatie van ervaring stroomlijnt.
Test-time Adaptatie: RETROAGENT toont sterke aanpassing tijdens het testen. In out-of-distribution scenario's (bijv. onbekende kamers in ALFWorld) bereikt de agent binnen 3 pogingen bijna 100% succes, wat aanzienlijk beter is dan Meta-RL baselines zoals LAMER.
Generalisatie: De methode generaliseert goed naar moeilijkere taken (bijv. meer mijnen in Minesweeper) dan training alleen, wat wijst op robuust leren van principes in plaats van memorisatie.

Bijdragen en Significantie

De belangrijkste bijdragen van dit werk zijn:

Paradigmaverschuiving: Het verschuift de focus van "leren om een probleem op te lossen" naar "continue adaptatie en evolutie" door middel van zelfreflectie.
Dual Intrinsic Feedback: Het introduceert een uniek mechanisme dat zowel kwantitatieve (numerieke) als kwalitatieve (taal) intrinsieke signalen combineert om zowel exploratie als exploitatie te sturen.
Efficiënt Leren: Door lessen expliciet op te slaan en slim op te halen (via SimUtil-UCB), reduceert de agent de noodzaak om elke fout opnieuw te maken, wat leidt tot snellere convergentie en betere generalisatie.
Scalabiliteit: Het framework werkt effectief over verschillende modelgroottes en -architecturen en is compatibel met bestaande RL-algoritmen.

Conclusie:
RETROAGENT demonstreert dat het integreren van een hindsight zelfreflectie-mechanisme met dubbele intrinsieke feedback een krachtige route is om LLM-agenten te transformeren van statische probleemoplossers naar dynamische, adaptieve systemen die continu leren van hun eigen ervaringen. Dit opent nieuwe perspectieven voor het bouwen van robuuste AI-agenten in complexe, real-world omgevingen.