Internalizing Agency from Reflective Experience

Dit paper introduceert LEAFE, een kader dat grote taalmodellen in staat stelt om door reflectie op omgevingsfeedback en het distilleren van correcties uit verkende fouten, hun eigen herstelvermogen te internaliseren en zo hun prestaties op lange termijn te verbeteren.

Rui Ge, Yichao Fu, Yuyang Qian, Junda Su, Yiming Zhao, Peng Zhao, Hao Zhang

Gepubliceerd 2026-03-18
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De Titel van het Avontuur: Hoe een AI Leren van zijn Eigen Fouten

Stel je voor dat je een jonge, slimme robot leert om een complex raadsel op te lossen, zoals het bouwen van een huis of het vinden van de juiste producten in een gigantische supermarkt.

Het Oude Probleem: De "Gokker" Strategie
Vroeger leerden we deze robots op een simpele manier: "Probeer het maar een keer. Als het lukt, krijg je een sterretje. Als het mislukt, krijg je niets."
Dit is als een gokker die alleen let op of hij wint of verliest. Als de robot een keer een goed antwoord vindt, krijgt hij een sterretje en denkt hij: "Aha! Dit is de juiste weg!" Hij herhaalt die ene weg dan maar eindeloos.

Het probleem? Als die ene weg niet werkt (bijvoorbeeld omdat de supermarkt gesloten is of de code een fout bevat), weet de robot niet waar hij precies de verkeerde afslag nam. Hij probeert het gewoon opnieuw, hopend dat het toeval hem deze keer een sterretje geeft. Dit heet in de paper "Distribution Sharpening": de robot wordt heel goed in het herhalen van wat hij al kent, maar hij wordt niet slimmer in het oplossen van nieuwe problemen. Hij blijft steken in zijn eigen comfortzone.

De Nieuwe Oplossing: LEAFE (De "Reflecterende Reis")
De auteurs van dit paper hebben een nieuwe methode bedacht, genaamd LEAFE. Dit is als het geven van een slimme dagboekles aan de robot.

In plaats van alleen te kijken of hij wint of verliest, laten we de robot tijdens het oefenen stilstaan en nadenken.

  1. De Reflectie (Het Dagboek):
    Stel, de robot loopt vast in een doolhof. In plaats van direct weer van voren af aan te beginnen, zegt de robot tegen zichzelf: "Wacht even, ik ben hier vastgelopen. Waarom? Ah, ik nam linksaf bij de rode deur, maar dat was een valstrik. De juiste weg was rechts."
    Dit noemen ze Reflective Experience. De robot schrijft zijn fout op en bedenkt een oplossing.

  2. Terugdraaien (De "Tijdmachine"):
    Vervolgens laat de methode de robot teruggaan naar het punt waar hij de fout maakte (de "rollback"). Hij gaat terug naar de rode deur, maar deze keer neemt hij, gebaseerd op zijn nieuwe inzicht, de juiste weg naar rechts. Hij bouwt een nieuwe, betere route.

  3. Leren van de Lering (De "Spierherinnering"):
    Dit is het magische deel. De robot doet dit niet alleen één keer. Hij verzamelt al deze verhalen van "fout maken -> terugdraaien -> verbeteren". Vervolgens leert hij dit uit zijn hoofd.
    Hij traint zijn hersenen (de model-weights) zodat hij de volgende keer zonder hulp van zijn dagboek, direct de juiste weg kiest. Hij heeft de vaardigheid om fouten te herstellen, in zijn eigen DNA verwerkt.

Waarom is dit zo geweldig? (De Analogie van de Sporter)

  • De Oude Methode (GRPO): Is als een atleet die alleen traint door wedstrijden te winnen. Als hij verliest, weet hij niet wat hij verkeerd deed. Hij wordt alleen sneller in het herhalen van zijn winnende beweging, maar kan niet improviseren als de situatie verandert.
  • De LEAFE Methode: Is als een atleet die elke training analyseert. "Ik viel omdat ik mijn linkervoet te ver zette. Volgende keer zet ik hem anders." Hij draait de training terug, probeert het opnieuw, en slaat de verbetering op in zijn spiergeheugen.

Het Resultaat: Meer Succes met Minder Gokken
In de paper zien ze dat robots die met LEAFE zijn getraind, veel beter zijn in het oplossen van moeilijke, lange taken (zoals programmeren of navigeren).

  • Ze maken minder fouten in één keer (Pass@1).
  • Maar het belangrijkste: als je ze 100 of 1000 keer laat proberen, vinden ze veel vaker de oplossing dan de oude robots. Ze hebben een breder "spektrum" aan oplossingen in hun hoofd.

Kort samengevat:
LEAFE leert een AI niet alleen wat het moet doen om te winnen, maar vooral hoe het moet denken als het faalt. Het verandert de AI van een gokker die hoopt op geluk, in een slimme denker die zijn eigen fouten herkent, terugdraait en ze corrigeert. Hierdoor wordt hij veel robuuster en slimmer in de echte wereld.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →