Internalizing Agency from Reflective Experience

Each language version is independently generated for its own context, not a direct translation.

De Titel van het Avontuur: Hoe een AI Leren van zijn Eigen Fouten

Stel je voor dat je een jonge, slimme robot leert om een complex raadsel op te lossen, zoals het bouwen van een huis of het vinden van de juiste producten in een gigantische supermarkt.

Het Oude Probleem: De "Gokker" Strategie
Vroeger leerden we deze robots op een simpele manier: "Probeer het maar een keer. Als het lukt, krijg je een sterretje. Als het mislukt, krijg je niets."
Dit is als een gokker die alleen let op of hij wint of verliest. Als de robot een keer een goed antwoord vindt, krijgt hij een sterretje en denkt hij: "Aha! Dit is de juiste weg!" Hij herhaalt die ene weg dan maar eindeloos.

Het probleem? Als die ene weg niet werkt (bijvoorbeeld omdat de supermarkt gesloten is of de code een fout bevat), weet de robot niet waar hij precies de verkeerde afslag nam. Hij probeert het gewoon opnieuw, hopend dat het toeval hem deze keer een sterretje geeft. Dit heet in de paper "Distribution Sharpening": de robot wordt heel goed in het herhalen van wat hij al kent, maar hij wordt niet slimmer in het oplossen van nieuwe problemen. Hij blijft steken in zijn eigen comfortzone.

De Nieuwe Oplossing: LEAFE (De "Reflecterende Reis")
De auteurs van dit paper hebben een nieuwe methode bedacht, genaamd LEAFE. Dit is als het geven van een slimme dagboekles aan de robot.

In plaats van alleen te kijken of hij wint of verliest, laten we de robot tijdens het oefenen stilstaan en nadenken.

De Reflectie (Het Dagboek):
Stel, de robot loopt vast in een doolhof. In plaats van direct weer van voren af aan te beginnen, zegt de robot tegen zichzelf: "Wacht even, ik ben hier vastgelopen. Waarom? Ah, ik nam linksaf bij de rode deur, maar dat was een valstrik. De juiste weg was rechts."
Dit noemen ze Reflective Experience. De robot schrijft zijn fout op en bedenkt een oplossing.
Terugdraaien (De "Tijdmachine"):
Vervolgens laat de methode de robot teruggaan naar het punt waar hij de fout maakte (de "rollback"). Hij gaat terug naar de rode deur, maar deze keer neemt hij, gebaseerd op zijn nieuwe inzicht, de juiste weg naar rechts. Hij bouwt een nieuwe, betere route.
Leren van de Lering (De "Spierherinnering"):
Dit is het magische deel. De robot doet dit niet alleen één keer. Hij verzamelt al deze verhalen van "fout maken -> terugdraaien -> verbeteren". Vervolgens leert hij dit uit zijn hoofd.
Hij traint zijn hersenen (de model-weights) zodat hij de volgende keer zonder hulp van zijn dagboek, direct de juiste weg kiest. Hij heeft de vaardigheid om fouten te herstellen, in zijn eigen DNA verwerkt.

Waarom is dit zo geweldig? (De Analogie van de Sporter)

De Oude Methode (GRPO): Is als een atleet die alleen traint door wedstrijden te winnen. Als hij verliest, weet hij niet wat hij verkeerd deed. Hij wordt alleen sneller in het herhalen van zijn winnende beweging, maar kan niet improviseren als de situatie verandert.
De LEAFE Methode: Is als een atleet die elke training analyseert. "Ik viel omdat ik mijn linkervoet te ver zette. Volgende keer zet ik hem anders." Hij draait de training terug, probeert het opnieuw, en slaat de verbetering op in zijn spiergeheugen.

Het Resultaat: Meer Succes met Minder Gokken
In de paper zien ze dat robots die met LEAFE zijn getraind, veel beter zijn in het oplossen van moeilijke, lange taken (zoals programmeren of navigeren).

Ze maken minder fouten in één keer (Pass@1).
Maar het belangrijkste: als je ze 100 of 1000 keer laat proberen, vinden ze veel vaker de oplossing dan de oude robots. Ze hebben een breder "spektrum" aan oplossingen in hun hoofd.

Kort samengevat:
LEAFE leert een AI niet alleen wat het moet doen om te winnen, maar vooral hoe het moet denken als het faalt. Het verandert de AI van een gokker die hoopt op geluk, in een slimme denker die zijn eigen fouten herkent, terugdraait en ze corrigeert. Hierdoor wordt hij veel robuuster en slimmer in de echte wereld.

Each language version is independently generated for its own context, not a direct translation.

Titel: Internalizing Agency from Reflective Experience (LEAFE)

Auteurs: Rui Ge, Yichao Fu, Yu-Yang Qian, Junda Su, Yiming Zhao, Peng Zhao, Hao Zhang.

1. Het Probleem

Grote Taalmodellen (LLMs) worden steeds vaker ingezet als autonome agenten die moeten plannen, handelen en herstellen van fouten in complexe omgevingen met lange tijdshorizonten. Huidige post-training methoden, zoals Reinforcement Learning met verifieerbare beloningen (RLVR, bijvoorbeeld GRPO), focussen voornamelijk op het optimaliseren van het uiteindelijke succes (een enkele scalair beloningssignaal aan het einde van een traject).

Dit leidt tot twee belangrijke tekortkomingen:

Verscherping van de verdeling (Distribution Sharpening): De policy leert om een smal scala aan reeds succesvolle gedragingen te reproduceren, maar faalt om de vaardigheid te ontwikkelen om op basis van feedback nieuwe oplossingspaden te verkennen.
Onderschatting van feedback: Rijke, gestructureerde feedback uit de omgeving (zoals compilerfouten, ongeldige acties of state-transities) wordt gereduceerd tot een enkel "succes/mislukking"-signaal. Hierdoor leert het model niet waar het misging of hoe het moet herstellen, maar alleen dat een traject uiteindelijk werkte.
Afhankelijkheid van testtijd-computatie: Om fouten te herstellen, moeten practitioners vaak zware methoden gebruiken tijdens het inferentieproces (zoals meerdere pogingen, voting of boom-zoekalgoritmen), wat de latentie en complexiteit verhoogt.

Het doel is om agency (de capaciteit om te herstellen en bij te sturen op basis van feedback) te internaliseren in het model zelf, in plaats van te vertrouwen op externe zoekstrategieën.

2. Methodologie: LEAFE Framework

Het auteurs stellen LEAFE (Learning Feedback-Grounded Agency from Reflective Experience) voor, een tweefasen-raamwerk dat agenten leert om herstelvaardigheden te internaliseren door reflectieve ervaringen te distilleren.

Fase 1: Boom-gebaseerde Ervaringsgeneratie met Rollback (Tree-Based Experience Generation with Rollback)

In deze fase wordt de agent blootgesteld aan mislukkingen en geleerd om deze te corrigeren via een proces van reflectie en terugkeer.

Periodieke Reflectie: Tijdens het verkennen (rollout) analyseert de agent zijn eigen traject. Bij een mislukking of periodiek (elke $K$ stappen) identificeert de agent een suboptimaal beslispunt ( $\tau$ ).
Samenvatting van Ervaring: De agent genereert een natuurlijke taal-ervaringssamenvatting ( $e$ ) die diagnoseert wat er misging en een actievere suggestie doet.
Rollback en Branching: Het systeem keert terug naar het tijdstip $\tau$ , herstelt de staat van de omgeving en de geschiedenis, en start een nieuwe tak (branch) in de boom. De agent voert nu een gecorrigeerde actie ( $a'_\tau$ ) uit, geleid door de samenvatting $e$ .
Resultaat: Er ontstaan trajecten met het patroon: Fout $\rightarrow$ Rollback $\rightarrow$ Gecorrigeerde Actie $\rightarrow$ Succes. Dit creëert een dataset van "tegenfeitelijke" (counterfactual) correcties.

Fase 2: Distillatie van Ervaring naar Policy (Experience Distillation)

In deze fase worden de geleerde correcties permanent in de modelgewichten verankerd, zodat de agent ze later kan toepassen zonder expliciete feedback of rollback tijdens de inferentie.

Twee soorten trainingsdata:
1. Behavior Rehearsal ( $L_{reh}$ ): Succesvolle trajecten (inclusief die met branching) worden gebruikt om de basisvaardigheden van de agent te behouden en catastrale vergetelheid te voorkomen.
2. Experience-to-Policy Distillation ( $L_{cf}$ ): Dit is de kerninnovatie. Het model wordt getraind om de gecorrigeerde actie ( $a'_\tau$ ) te voorspellen op basis van de originele geschiedenis ( $h_\tau$ ), zonder de expliciete ervaringssamenvatting ( $e$ ) als input.
Doel: Het model leert de interne logica van het herstelproces. Het internaliseert de vaardigheid om een fout te detecteren en de juiste actie te kiezen, zelfs zonder externe hulp.

3. Belangrijkste Bijdragen

Gestructureerde Verkenning via Feedback-naar-Ervaring: In plaats van blind te herhalen, gebruikt LEAFE reflectieve rollback om scalar signalen om te zetten in gerichte, ervaring-gestuurde takken in de zoekruimte.
Rijkere Supervisie dan Scalar Beloningen: De methode biedt beslissingsniveau-supervisie (waar ging het fout en hoe corrigeer je het?), in plaats van alleen een eindsignaal voor het hele traject.
Internalisatie van Herstel: Door te fine-tunen op post-rollback acties, wordt feedback-gebaseerd herstel een intrinsieke eigenschap van het model. Dit verhoogt de Pass@k (het vermogen om een oplossing te vinden binnen $k$ pogingen) aanzienlijk zonder extra testtijd-computatie.

4. Resultaten

De auteurs hebben LEAFE getest op diverse benchmarks, waaronder CodeContests, WebShop, ALFWorld, ScienceWorld en Sokoban, met modellen zoals Qwen2.5 en Llama-3.

Verbetering in Pass@k: LEAFE presteert consistent beter dan baselines (Base, GRPO, EarlyExp, ACE), vooral bij hoge waarden van $k$ $k$ (bijv. Pass@128).
- Op CodeContests werd een verbetering van tot 14% op Pass@128 behaald ten opzichte van het basismodel.
- Terwijl GRPO vaak stagneert bij hoge $k$ (door distribution sharpening), blijft LEAFE stijgen, wat aangeeft dat het de dekkingsgraad van het model vergroot.
Sample Efficiency: Het model bereikt dezelfde succespercentages met minder steekproeven dan concurrenten.
Out-of-Distribution (OOD) Generalisatie: Op MBPP (een dataset die niet gebruikt is voor training) behoudt LEAFE zijn prestaties beter dan GRPO, wat suggereert dat het fundamentele reflectieve vaardigheden leert in plaats van dataset-specifieke shortcuts.
Ablatie Studies: Het tonen aan dat de combinatie van herhaling (rehearsal) en tegenfeitelijke distillatie (counterfactual distillation) cruciaal is voor het verbeteren van de verkenningscapaciteit zonder de basisprestaties te verliezen.

5. Betekenis en Conclusie

Dit paper biedt een fundamenteel inzicht in het trainen van agenten voor lange-termijn interactie:

Verschuiving van Exploitatie naar Exploratie: Traditionele RLVR-methoden optimaliseren voor het herhalen van wat al werkt. LEAFE traint het model om actief te herstellen van fouten, wat essentieel is voor complexe taken.
Efficiëntie: Door herstelvaardigheden te internaliseren, vermindert LEAFE de noodzaak voor zware testtijd-zoekalgoritmen (zoals Tree of Thoughts of uitgebreide retry-mechanismen), wat de deploy-kosten verlaagt.
Toekomstperspectief: LEAFE positioneert zich als een praktische aanpak voor het ontwikkelen van agenten die continu verbeteren door interactie en feedback, wat een stap voorwaarts is naar robuustere en zelfstandige AI-systemen.

Kortom, LEAFE bewijst dat het internaliseren van "reflectieve ervaring" (het leren van fouten en hoe ze te herstellen) effectiever is voor het vergroten van de capaciteit van een agent dan het simpelweg belonen van het uiteindelijke succes.

Internalizing Agency from Reflective Experience

Titel: Internalizing Agency from Reflective Experience (LEAFE)

1. Het Probleem

2. Methodologie: LEAFE Framework

Fase 1: Boom-gebaseerde Ervaringsgeneratie met Rollback (Tree-Based Experience Generation with Rollback)

Fase 2: Distillatie van Ervaring naar Policy (Experience Distillation)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents