Experiential Reflective Learning for Self-Improving LLM Agents

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een nieuwe stad inreist en een taxi neemt. De chauffeur is slim, maar hij kent de stad nog niet. Elke keer als hij een verkeerde afslag neemt of vastzit in de file, zegt hij: "Oh, dat was stom," en probeert hij het de volgende keer opnieuw, maar zonder zijn eerdere fouten te onthouden. Hij begint elke rit alsof hij net geboren is.

Dat is precies het probleem met de slimme computerprogramma's (LLM-agenten) die we vandaag de dag hebben. Ze kunnen complexe taken uitvoeren, maar ze leren niet echt van hun ervaringen.

Deze paper introduceert een nieuwe manier om die agenten slimmer te maken, genaamd ERL (Experiential Reflective Learning). Laten we het uitleggen met een paar simpele vergelijkingen.

1. Het Probleem: De Vergeten Chef-kok

Stel je een chef-kok voor die elke dag een nieuwe klant bedient.

De oude manier: De klant zegt: "Ik wil een pasta met zeevruchten." De chef probeert het. Als hij de garnalen verbrandt, zegt hij: "Oeps, foutje." De volgende klant komt en vraagt om exact dezelfde pasta. De chef begint weer bij nul. Hij heeft niet onthouden dat hij de pan te heet had staan. Hij moet elke keer opnieuw uitvinden hoe hij het goed doet.
Het gevolg: Hij maakt steeds dezelfde fouten, en het duurt eeuwen voordat hij echt goed wordt.

2. De Oplossing: Het "Gouden Boekje" (ERL)

De auteurs van deze paper zeggen: "Wacht even, laten we die chef een Gouden Boekje geven."

Dit boekje is het hart van hun nieuwe systeem. Hier is hoe het werkt, stap voor stap:

Stap 1: Reflecteren (Het schrijven in het boekje)

Na elke maaltijd (of elke taak die de computer doet), kijkt de chef niet alleen naar of het eten lekker was (succes) of verbrand (mislukking). Hij schrijft een korte, krachtige les op in zijn boekje.

Niet: "Ik heb de garnalen verbrand."
Wel: "Als je garnalen bakt, zet de pan op laag vuur en wacht tot het water kookt voordat je ze toevoegt."

Dit noemen ze heuristieken. Het zijn geen lange verhalen over wat er gebeurd is, maar korte, bruikbare regels die je kunt onthouden.

Stap 2: Zoeken (Het raadplegen van het boekje)

Als er een nieuwe klant komt, kijkt de chef niet naar zijn hele leven van ervaringen. Hij zoekt in zijn boekje naar regels die nu relevant zijn.

Als de klant een visbestelling doet, zoekt hij naar regels over vis.
Hij pakt niet alle regels uit het boekje (dat zou te veel zijn), maar alleen de top 20 die het meest nuttig zijn voor deze specifieke opdracht.

Stap 3: Toepassen (De nieuwe maaltijd)

Nu de chef zijn regels heeft gelezen, begint hij te koken. Hij denkt: "Ah, ik moet de pan eerst opwarmen, zoals in mijn boekje staat." Hierdoor maakt hij minder fouten en is de maaltijd sneller klaar.

Waarom is dit zo slim?

De paper laat zien dat dit werkt beter dan andere methoden:

Korte regels vs. Lange verhalen:
Veel andere systemen proberen de hele "verhaallijn" van een eerdere fout te onthouden. Dat is als een boekje vol met lange, saaie verhalen over eerdere maaltijden. Dat is te veel tekst om te lezen.
- ERL pakt alleen de kern eruit. Het is als een receptkaartje: kort, krachtig en direct toepasbaar.
Leren van fouten én successen:
Het systeem leert van alles.
- Fouten zijn goud waard voor zoekopdrachten (bijvoorbeeld: "Kijk uit voor deze valkuil").
- Successen zijn goud waard voor uitvoering (bijvoorbeeld: "Doe het zo, want dat werkt snel").
  De paper laat zien dat je beide nodig hebt, afhankelijk van wat je probeert te doen.
De "Zoekmachine" is cruciaal:
Het is niet genoeg om een boekje te hebben; je moet ook goed kunnen zoeken. Als je in een boekje met 1000 regels zoekt, wil je niet de verkeerde regels lezen. Het systeem gebruikt een slimme "zoeker" (een AI) om alleen de regels te halen die echt relevant zijn voor de huidige taak.

Wat betekent dit voor de toekomst?

In de praktijk betekent dit dat computerprogramma's die taken voor ons doen (zoals het plannen van vergaderingen, het zoeken naar informatie of het regelen van reizen) steeds beter worden naarmate ze meer ervaring opdoen. Ze worden niet "zwaarder" of langzamer, maar ze worden slimmer door hun eigen ervaringen te vertalen in slimme tips.

Samenvattend:
Stel je voor dat elke computer een persoonlijke coach heeft die na elke opdracht zegt: "Goed gedaan, maar onthoud voor de volgende keer: doe X, niet Y." En bij de volgende opdracht kijkt de computer eerst even naar die coach voordat hij begint. Dat is ERL: leren van ervaring, samenvatten in slimme regels, en die regels slim gebruiken.

Each language version is independently generated for its own context, not a direct translation.

Titel: Experiential Reflective Learning (ERL) voor Zelfverbeterende LLM-Agenten

Auteurs: Marc-Antoine Allard, Arnaud Teinturier, Victor Xing, Gautier Viaud (Illuin Technology)
Publicatie: ICLR 2026 MemAgents Workshop

1. Het Probleem

Hoewel grote taalmodellen (LLM's) autonome agenten hebben mogelijk gemaakt die complexe redeneringen en meerstapsproblemen kunnen oplossen, kampen deze systemen met twee fundamentele beperkingen:

Gebrek aan adaptatie: Agenten worstelen om zich aan te passen aan gespecialiseerde omgevingen met onbekende tools en domeinspecifieke conventies.
Geen gebruik van ervaring: Agenten benaderen elke nieuwe taak "vanaf nul", zonder hun eerdere interacties of opgedane ervaringen te benutten.

Bestaande oplossingen zoals fine-tuning zijn te resource-intensief en ondersteunen geen continue learning, vooral niet voor gesloten modellen. Andere experientiële leermethodes (zoals ExpeL en AutoGuide) hebben hun eigen tekortkomingen:

Ze vereisen vaak meerdere pogingen (rollouts) per taak om contrastieve paren te maken, wat in de praktijk vaak niet haalbaar is.
Ze voegen alle geleerde inzichten toe aan elke prompt, wat leidt tot schaalproblemen en irrelevante informatie.
Ze aggregeren kennis vaak te grof, waardoor gedetailleerde trajectinformatie verloren gaat.

2. Methodologie: Experiential Reflective Learning (ERL)

ERL is een framework voor parameter-vrije zelfverbetering dat bestaat uit twee fasen: Heuristische Generatie en Retrieval-Augmented Execution.

A. Heuristische Generatie (Experience Accumulation)

In plaats van ruwe trajecten op te slaan, reflecteert de agent na elke taak (met een binair succes/mislukking signaal) op zijn ervaring om gestructureerde heuristieken te genereren.

Input: Taakbeschrijving, uitvoeringstraject (redenering, tool-calls, output) en het resultaat.
Output: Een gestructureerde heuristiek met:
1. Analyse: Identificatie van wat leidde tot succes of falen.
2. Geleerde Richtlijn: Een actiegerichte regel met expliciete trigger-voorwaarden en aanbevolen acties (bijv. "Wanneer e-mails sturen naar agenda-deelnemers, los eerst namen op naar e-mailadressen via de Contacten-tool").
Deze heuristieken worden opgeslagen in een persistente pool.

B. Retrieval-Augmented Execution (Test Time)

Voor een nieuwe taak wordt de agent niet overladen met alle ervaringen, maar krijgt hij gerichte adviezen:

Retrieval: Een LLM analyseert de nieuwe taak, breekt deze op in sub-taken en scoort de opgeslagen heuristieken op relevantie.
Selectie: De top- $k$ heuristieken worden geselecteerd op basis van taakgelijkenis, diversiteit van ervaringen en de informatiewaarde van de richtlijnen.
Injectie: Deze top-heuristieken worden in de systeem-prompt van de agent geïnjecteerd om de uitvoering te sturen.

3. Belangrijkste Bijdragen

Van Trajecten naar Heuristieken: ERL distilleert ruwe trajecten naar abstracte, overdraagbare heuristieken. Dit is efficiënter dan few-shot prompting met ruwe trajecten, omdat het de agent leert op strategisch niveau in plaats van alleen patronen te kopiëren.
Selectieve Retrieval: Het paper benadrukt dat het selecteren van de juiste heuristieken (via een LLM) cruciaal is. Het toevoegen van willekeurige of te veel heuristieken degradeert de prestaties.
Eenmalige Pogingen: In tegenstelling tot methodes die meerdere rollouts vereisen om te leren, werkt ERL efficiënt met single-attempt trajecten, wat beter aansluit bij real-world deploy scenarios.
Dynamische Pool: Het framework bouwt een pool van reusable strategieën op die groeit naarmate de agent meer ervaring opdoet, zonder de onderliggende modelparameters te wijzigen.

4. Resultaten

De experimenten zijn uitgevoerd op het Gaia2-benchmark (Search en Execution splits) en het $\tau^2$ -Bench.

Prestaties op Gaia2:
- ERL bereikte een algehele succesrate van 56,1%.
- Dit is een verbetering van +7,8% ten opzichte van de ReAct-baseline (48,3%) en +5,2% ten opzichte van de beste eerdere methode (ExpeL, 50,9%).
- De verbeteringen waren consistent voor zowel Search (+7,1%) als Execution (+8,3%).
Betrouwbaarheid:
- ERL toonde aanzienlijke verbeteringen in pass@3 (succes op alle 3 runs), wat aangeeft dat de agent betrouwbaarder wordt in het voltooien van taken, niet alleen dat hij soms toevallig slaagt.
Ablatie-studies:
- Heuristieken vs. Trajecten: Het gebruik van ruwe trajecten als few-shot voorbeelden presteerde slechter dan de baseline (-1,9%), terwijl heuristieken de prestaties sterk verhoogden.
- Retrieval Kwaliteit: LLM-gebaseerde selectie van heuristieken (56,1%) presteerde beter dan embedding-based retrieval (53,3%) en willekeurige selectie.
- Falen vs. Succes: Heuristieken afgeleid van mislukkingen bleken bijzonder effectief voor Search-taken (door inefficiënte strategieën te elimineren), terwijl succes-heuristieken beter werkten voor Execution-taken (door bewezen acties te versterken).
Kosten: Hoewel de token-kosten met ongeveer 40% stegen door de injectie van heuristieken, bleef het een haalbare overhead voor de behaalde prestatiewinst.

5. Betekenis en Conclusie

Dit paper demonstreert dat reflectie op enkele pogingen om overdraagbare heuristieken te extraheren, een krachtige methode is voor de zelfverbetering van LLM-agenten.

Schaalbaarheid: Het framework lost het probleem op van "context-overload" door alleen de meest relevante, gestructureerde kennis te injecteren.
Praktische Toepasbaarheid: Het werkt zonder fine-tuning en is dus toepasbaar op gesloten modellen, wat het zeer relevant maakt voor industriële toepassingen.
Toekomstperspectief: De auteurs wijzen op uitdagingen zoals het oplossen van conflicterende richtlijnen in de pool en het schalen van de poolgrootte, maar concluderen dat ERL een significante stap is naar agenten die continu leren van hun omgeving.

Kortom, ERL bewijst dat het distilleren van ervaring naar abstracte regels, in combinatie met slimme retrieval, agenten aanzienlijk robuuster en effectiever maakt dan het simpelweg herhalen van eerdere trajecten.