RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

RetroAgent is een online versterkingsleerframework dat LLM-agenten in staat stelt om complexe interactieve taken niet alleen op te lossen, maar ook te evolueren door middel van een retrospectieve zelfreflectie-mechanisme dat intrinsieke numerieke en taalfeedback genereert om suboptimale strategieën te overwinnen en generalisatie te verbeteren.

Xiaoying Zhang, Zichen Liu, Yipeng Zhang, Xia Hu, Wenqi Shao

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

RETROAGENT: De Agent die niet alleen werkt, maar ook groeit

Stel je voor dat je een robot hebt die een heel moeilijk puzzelspel moet spelen. De meeste robots die we vandaag de dag gebruiken, werken als volgt: ze proberen een puzzel op te lossen. Als het lukt, krijgen ze een beloning (een "goed gedaan!"). Als het mislukt, krijgen ze niets.

Het probleem is dat deze robots vaak steken blijven hangen. Ze vinden misschien een manier om de puzzel op te lossen, maar het is niet de beste manier. Of ze proberen iets en als het mislukt, vergeten ze het direct. Ze leren niet echt van hun fouten; ze slaan het gewoon op in hun "hersenen" (de parameters van het model), maar dat is alsof je een recept in je hoofd probeert te onthouden zonder het ooit op te schrijven.

RETROAGENT is een nieuwe, slimme aanpak die deze robots verandert van "puzzelaars" in "evolutionaire denkers". Ze leren niet alleen door te doen, maar door terug te kijken (retrospectie).

Hier is hoe het werkt, in drie simpele stappen:

1. De Twee Soorten "Interne Feedback" (De Twee Oren)

Wanneer de robot een poging doet (een "episode"), kijkt hij achteraf niet alleen naar het eindresultaat (win of verlies), maar analyseert hij zijn hele reis. Hij genereert twee soorten feedback:

  • A. De "Tellen-En-Meten" Feedback (Numeriek):

    • Analogie: Stel je voor dat je een berg beklimt. De oude robots kregen alleen een beloning als ze de top bereikten. RETROAGENT krijgt ook een beloning als hij dichterbij de top komt dan bij zijn vorige poging.
    • In het kort: Zelfs als je de taak niet helemaal voltooit, maar je hebt wel een stap verder gezet dan gisteren, krijgt de robot een kleine "goede jongen"-beloning. Dit moedigt aan om te blijven proberen en te verkennen, in plaats van snel op te geven.
  • B. De "Schrijf-Het-Vast" Feedback (Taal):

    • Analogie: Stel je voor dat je een dagboek hebt. Na elke poging schrijft de robot een korte samenvatting op: "Vandaag ben ik vastgelopen omdat ik de verkeerde deur koos. De volgende keer moet ik eerst naar links kijken."
    • In het kort: De robot distilleert zijn ervaringen tot een leerstuk (een lesje) en slaat dit op in een herinneringsbuffer. Dit is geen wazig gevoel in zijn hoofd, maar een duidelijk, leesbaar advies dat hij later kan opzoeken.

2. De Slimme Zoekmachine (SimUtil-UCB)

Nu heeft de robot een dagboek vol met lessen. Maar hoe weet hij welke les hij moet lezen als hij een nieuwe, vergelijkbare puzzel tegenkomt?

  • Analogie: Stel je voor dat je in een enorme bibliotheek staat. Een simpele zoekmachine zoekt alleen op woorden die lijken op je vraag (bijv. "puzzel"). Maar RETROAGENT gebruikt een slimme bibliothecaris (de SimUtil-UCB strategie).
  • Deze bibliothecaris kijkt naar drie dingen:
    1. Relevantie: Is deze les wel nuttig voor deze specifieke puzzel?
    2. Nuttigheid: Heeft deze les in het verleden al eens geholpen om een puzzel op te lossen?
    3. Verkenning: Hebben we deze les al vaak gebruikt? Misschien moeten we eens kijken naar een minder bekende les die we nog niet hebben geprobeerd, want die zou ook kunnen werken.

Dit zorgt ervoor dat de robot niet steeds dezelfde oude fouten maakt, maar ook niet vastloopt in een hoekje van de bibliotheek.

3. De Twee Manieren om te Leren

Het paper beschrijft twee varianten van RETROAGENT:

  1. De "In-Context" Variant: De robot leest zijn eigen dagboek voor tijdens het denken. Het is alsof hij tijdens het spelen hardop zegt: "Wacht, vorige keer deed ik dit en het werkte niet, dus doe ik het anders."
  2. De "RL-Trained" Variant: De robot traint zijn eigen "reflectie-vermogen". Hij leert niet alleen wat hij moet doen, maar ook hoe hij goed moet nadenken over zijn fouten. Zijn reflectie en zijn actie worden samen getraind, zodat hij steeds beter wordt in het analyseren van zijn eigen gedrag.

Wat zijn de resultaten?

De onderzoekers hebben dit getest op vier moeilijke taken:

  • ALFWorld: Een virtueel huis waar je moet doen alsof je huishoudelijke taken doet (zoals een schone sok in de wasmand leggen).
  • WebShop: Een virtuele webshop waar je moet zoeken naar een heel specifiek product met veel filters.
  • Sokoban: Een logische puzzel waarbij je dozen moet duwen zonder ze vast te zetten.
  • MineSweeper: Het klassieke mijnenveldspel.

De uitkomst:
RETROAGENT deed het veel beter dan de beste bestaande methoden.

  • Op de webshop-taak verbeterde hij de prestaties met bijna 15%.
  • Op Sokoban (de puzzel) was de verbetering zelfs 27%.

Het belangrijkste is dat de robot niet alleen beter werd in de puzzels die hij al kende, maar ook beter kon omgaan met nieuwe, onbekende situaties. Hij kon zich aanpassen, net als een mens die van zijn fouten leert in plaats van ze te herhalen.

Samenvattend in één zin:

RETROAGENT is een robot die niet alleen werkt tot hij het goed doet, maar die na elke poging even stopt, zijn dagboek bijwerkt, zijn beste lessen selecteert en die gebruikt om de volgende keer slimmer te zijn. Hij evolueert van een simpele uitvoerder naar een wijs denker.