Trajectory-Informed Memory Generation for Self-Improving Agent Systems

Deze paper introduceert een nieuw kader dat agenttrajecties analyseert om gestructureerde, contextuele leermomenten te genereren en op te halen, waardoor zelfverbeterende LLM-agenten hun prestaties aanzienlijk verbeteren door fouten te vermijden en succesvolle strategieën toe te passen.

Gaodan Fang, Vatche Isahagian, K. R. Jayaram, Ritesh Kumar, Vinod Muthusamy, Punleuk Oum, Gegi Thomas

Gepubliceerd Thu, 12 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar vergeetachtige assistent hebt. Deze assistent kan geweldige dingen doen: boodschappen doen, e-mails schrijven, en complexe taken uitvoeren. Maar er is één groot probleem: hij heeft geen geheugen.

Elke keer als je hem iets vraagt, begint hij vanaf nul. Als hij gisteren een fout maakte bij het bestellen van een pizza (bijvoorbeeld: hij probeerde te betalen voordat hij de ingrediënten had geselecteerd), vergeet hij die fout vandaag. Hij maakt dezelfde fout opnieuw. Als hij gisteren een slimme truc bedacht om snel een lijst te maken, gebruikt hij die truc vandaag niet, maar probeert hij het weer op de lange, moeilijke manier.

Dit artikel van IBM Research introduceert een oplossing voor dit probleem. Het noemen het "Trajectory-Informed Memory Generation". Dat klinkt ingewikkeld, maar het is eigenlijk heel simpel. Laten we het uitleggen met een paar creatieve analogieën.

1. De "Reisverslag"-Analogie (De Trajecten)

Stel je voor dat elke keer dat je assistent een taak uitvoert, hij een reisverslag schrijft. Dit verslag bevat niet alleen wat hij heeft gedaan (de acties), maar ook waarom hij het deed (zijn gedachten), waar hij vastliep, en hoe hij zich weer redde.

De meeste systemen slaan deze verslagen op als een enorme stapel papier in een kelder. Ze kijken er nooit naar.
Dit nieuwe systeem pakt die stapel papier, leest het, en schrijft er korte, bruikbare tips uit op. Het is alsof je uit een dik reisverslag de beste tips haalt voor de volgende reis: "Vergeet niet je paspoort te checken voordat je naar het vliegveld gaat" of "Gebruik de snelweg in plaats van de kleine weg als je haast hebt."

2. Drie Soorten Tips (De "Leermomenten")

Het systeem is slim genoeg om drie verschillende soorten tips te maken, afhankelijk van hoe de reis (de taak) is verlopen:

  • De "Strategie-tip" (Voor de succesvolle reizen):
    Stel, je assistent heeft een boodschappenlijst perfect gemaakt. Hij keek eerst of de koelkast leeg was, en deed dan pas de boodschappen in de mand.

    • De tip: "Check altijd eerst of de koelkast leeg is voordat je boodschappen doet."
    • Analogie: Het is als een ervaren kok die zegt: "Zorg dat je alle ingrediënten klaar hebt voordat je begint met bakken, dan verbrandt je niets."
  • De "Herstel-tip" (Voor de reizen met een ommekeer):
    Stel, je assistent probeerde te betalen, maar de betaling faalde omdat hij geen creditcard had. Hij merkte het op, voegde de kaart toe, en probeerde het opnieuw. Hij slaagde uiteindelijk!

    • De tip: "Als de betaling faalt, check dan eerst of je een betaalmethode hebt ingesteld voordat je het opnieuw probeert."
    • Analogie: Het is als een fietser die in een kuil valt, opstaat, de kuil omzeilt, en dan verder rijdt. De tip is: "Kijk uit voor kuilen en omzeil ze."
  • De "Optimalisatie-tip" (Voor de traag succesvolle reizen):
    Stel, je assistent heeft de boodschappen wel gedaan, maar hij haalde ze één voor één uit de winkel, terwijl hij ze allemaal tegelijk had kunnen pakken. Het lukte, maar het duurde te lang.

    • De tip: "Gebruik de 'alles tegelijk'-knop in plaats van één voor één te klikken."
    • Analogie: Het is als iemand die een emmer water draagt in kleine slokjes, terwijl hij een emmer had kunnen dragen. De tip is: "Gebruik de emmer, niet de slokjes."

3. De "Slimme Boekhouder" (Het Geheugen Systeem)

Hoe zorgt dit systeem ervoor dat de assistent de juiste tip op het juiste moment vindt?

Stel je een enorme bibliotheek voor met miljoenen boeken. Als je assistent een nieuwe taak krijgt (bijvoorbeeld: "Boek een vlucht naar Parijs"), zou hij niet alle boeken willen lezen. Hij wil alleen de tips over "vluchten" en "boeken".

Dit systeem werkt als een ultra-snelle, slimme boekhouder:

  1. Het begrijpt de context: Het ziet dat je nu aan het "reizen" bent.
  2. Het filtert: Het negeert tips over "koken" of "wasmachines".
  3. Het zoekt de beste match: Het zoekt niet alleen naar woorden die lijken op "vlucht", maar begrijpt ook dat "reserveren" hetzelfde betekent als "boeken".
  4. Het geeft de tip mee: Voordat de assistent begint met denken, krijgt hij een klein kaartje met de beste tips uit zijn verleden, speciaal voor deze taak.

4. Waarom is dit zo belangrijk? (De Resultaten)

De onderzoekers hebben dit getest op een reeks moeilijke taken (genoemd "AppWorld").

  • Zonder geheugen: De assistent maakte veel fouten, vooral bij moeilijke taken. Hij herhaalde oude fouten en dacht dat hij slim was terwijl hij traag werkte.
  • Met dit geheugen: De assistent werd veel beter. Bij de moeilijkste taken steeg het succespercentage met 149%!

Het is alsof je een stagiair hebt die elke dag opnieuw begint, versus een stagiair die een dagboek bijhoudt van zijn fouten en successen. De tweede stagiair wordt elke dag slimmer.

Samenvatting in één zin

Dit systeem geeft AI-agenten een geheugen dat niet alleen onthoudt wat er gebeurd is, maar wat ze ervan hebben geleerd, zodat ze de volgende keer niet dezelfde fouten maken en sneller, slimmer en efficiënter werken.

Het is de overgang van een robot die "vergeetachtig" is, naar een robot die "ervaring opdoet" en zich continu verbetert, net als een mens.