Reinforcement Learning for Self-Improving Agent with Skill Library

Dit artikel introduceert SAGE, een versterkingsleerframework dat agents via een geautomatiseerde vaardigheidsbibliotheek en sequentiële rollouts in staat stelt om zichzelf te verbeteren, wat resulteert in aanzienlijk betere prestaties, minder interactiestappen en een lagere token-gebruik in vergelijking met bestaande methoden.

Jiongxiao Wang, Qiaojing Yan, Yawei Wang, Yijun Tian, Soumya Smruti Mishra, Zhichao Xu, Megha Gandhi, Panpan Xu, Lin Lee Cheong

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar nogal onervaren assistent hebt. Deze assistent (een AI-agent) is geweldig in het lezen van instructies en het uitvoeren van complexe taken, zoals het boeken van een vlucht of het regelen van een bankoverschrijving. Maar er is een groot probleem: elke keer als deze assistent een nieuwe taak krijgt, begint hij vanaf nul. Hij vergeet wat hij eerder heeft geleerd en moet alles opnieuw uitvinden. Het is alsof je elke dag opnieuw moet leren hoe je een fiets moet rijden, zelfs als je gisteren al een perfecte rit hebt gemaakt.

De onderzoekers van dit paper (van AWS en de Universiteit van Wisconsin) wilden deze assistent leren om niet alleen taken te doen, maar ook om slimme trucs te onthouden. Ze noemen dit een "vaardigheidsbibliotheek" (skill library).

Hier is hoe hun oplossing, genaamd SAGE, werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Vergetelheid"

Vroeger probeerden mensen AI-agenten te helpen door ze lange lijsten met instructies te geven (prompting). Maar dat werkt niet goed genoeg. Het is alsof je iemand een recept geeft, maar vergeet te zeggen: "Oh, en onthoud dat je de pan eerst moet verwarmen." De AI moet het telkens opnieuw raden.

2. De Oplossing: Een Digitale Werkbank met Gereedschappen

De onderzoekers hebben een systeem bedacht waarbij de AI zijn eigen gereedschapskist bouwt.

  • De Vaardigheid: Als de AI een taak succesvol afrondt (bijvoorbeeld: "Vind de goedkoopste pizza in Amsterdam"), maakt hij niet alleen de taak af, maar schrijft hij ook een eigen mini-programma (een "vaardigheid") op.
  • De Bibliotheek: Deze mini-programma's worden opgeslagen in een bibliotheek.
  • De Toekomst: Als de AI later weer een soortgelijke taak krijgt (bijvoorbeeld: "Vind de goedkoopste pasta in Amsterdam"), hoeft hij niet meer alles opnieuw te bedenken. Hij pakt zijn "pizza-truc" uit de bibliotheek, past hem even aan, en is klaar.

3. De Magie: Hoe leer je de AI dit? (SAGE)

Het moeilijkste deel is: hoe leer je een computer om zomaar slimme trucjes te bedenken en op te slaan? Gewoon zeggen "onthoud dit" werkt niet. Daarom gebruiken ze een methode die lijkt op trainen voor een olympische sport, maar dan met een slimme twist.

Ze noemen hun methode SAGE (Skill Augmented GRPO for self-Evolution). Hier is de analogie:

A. De "Opeenvolgende Oefeningen" (Sequential Rollout)

Stel je voor dat je een atleet traint. Je geeft hem niet één enkele sprint, maar een hele reeks van drie vergelijkbare races achter elkaar.

  1. Race 1: De atleet rent en bedenkt een nieuwe starttechniek.
  2. Race 2: De atleet gebruikt die starttechniek die hij in Race 1 bedacht heeft.
  3. Race 3: Hij gebruikt de techniek weer, maar nu nog sneller.

In het systeem van SAGE doet de AI dit ook. Hij krijgt een keten van vergelijkbare taken. Als hij in de eerste taak een goede "truc" bedenkt, wordt die truc direct beschikbaar gesteld voor de tweede en derde taak. Als de truc in de latere taken helpt om sneller te finishen, krijgt de AI een beloning voor het bedenken van die truc in de eerste taak. Zo leert hij: "Ah, het bedenken van een truc is nuttig!"

B. De "Slimme Beloning" (Skill-integrated Reward)

Normaal gesproken krijgt een AI alleen een beloning als hij de taak helemaal goed heeft gedaan. SAGE is slimmer. Het geeft een bonus als:

  1. De AI een goede, bruikbare truc bedenkt.
  2. De AI die truc later ook daadwerkelijk gebruikt.

Het is alsof een trainer niet alleen kijkt of de atleet de finish haalt, maar ook beloont als de atleet een nieuwe, efficiënte loopstijl bedenkt en die vervolgens toepast.

4. Wat was het resultaat?

Toen ze dit systeem testten op een complexe omgeving (AppWorld, waar AI moet werken met apps zoals Spotify, Gmail en Amazon), gebeurde er iets wonderlijks:

  • Sneller: De AI had 59% minder "woorden" nodig om zijn werk te doen. Hij was niet meer aan het praten en denken, maar gebruikte zijn gereedschappen.
  • Efficiënter: Hij deed 26% minder stappen. In plaats van 16 klikken en commando's, deed hij het in 12 stappen door slimme trucjes te gebruiken.
  • Slimmer: De AI slaagde in 8,9% meer scenario's dan eerdere methoden.

Conclusie

Kortom: SAGE is een manier om een AI-agent niet alleen te laten doen, maar ook te laten leren. Het is alsof je een leerling niet alleen laat werken, maar hem ook een dagboek geeft waarin hij zijn eigen slimme oplossingen opschrijft. De volgende keer dat hij een probleem tegenkomt, kijkt hij in zijn dagboek, pakt hij zijn eigen oplossing en is hij veel sneller en slimmer dan ooit tevoren.

Dit maakt AI-agenten niet alleen slimmer, maar ook goedkoper en sneller in gebruik, omdat ze minder "rekenkracht" nodig hebben om hetzelfde werk te doen.