SCALAR: Learning and Composing Skills through LLM Guided Symbolic Planning and Deep RL Grounding

Het paper introduceert SCALAR, een bidirectioneel raamwerk dat LLM-planning koppelt aan Deep RL via een geleerde vaardigheidsbibliotheek, waarbij RL-uitkomsten worden gebruikt om de LLM-specificaties iteratief te verfijnen, wat resulteert in aanzienlijk betere prestaties in complexe omgevingen zoals Craftax.

Renos Zabounidis, Yue Wu, Simon Stepputtis, Woojun Kim, Yuanzhi Li, Tom Mitchell, Katia Sycara

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar nogal onervaren assistent hebt. Deze assistent (de LLM of Large Language Model) is een meester in het lezen van handleidingen en het bedenken van complexe plannen. Hij kan je vertellen wat je moet doen om een diamant te vinden in een grot: "Eerst een houten pickax maken, dan een oven bouwen, dan ijzer smeden..."

Het probleem is dat deze assistent nooit zelf heeft geprobeerd te graven. Hij weet de theorie, maar hij heeft geen "spieren". Als je hem vraagt om de pickax daadwerkelijk te maken, faalt hij omdat hij niet weet hoe hij de hamer moet vasthouden of hoeveel hout hij precies nodig heeft.

Aan de andere kant heb je een RL-agent (Reinforcement Learning). Dit is een robot die alles leert door te proberen en te falen. Hij is heel goed in het bewegen van zijn armen en het vinden van de juiste beweging, maar hij is volledig blind voor het grote plaatje. Hij weet niet waarom hij een pickax moet maken, en hij raakt snel vastgelopen in een doolhof van proben en fouten.

SCALAR is de oplossing: een samenwerking tussen de slimme denker en de handige uitvoerder. Hier is hoe het werkt, vertaald in alledaags taal:

1. De Architect en de Bouwer

In plaats van dat de assistent (LLM) het hele plan in één keer probeert uit te voeren, werkt hij samen met de bouwer (RL).

  • De Assistent (LLM) zegt: "Laten we een vaardigheid maken die 'Hout Ophalen' heet. Je hebt een bijl nodig en je moet naar de bomen gaan."
  • De Bouwer (RL) probeert dit. Hij loopt naar de bomen, zwaait met zijn armen en pakt het hout.

2. De Feedback-Loop (Het "Proefje")

Hier komt het slimme deel. De assistent dacht misschien dat je 5 stukken hout nodig had, maar de bouwer merkt dat hij er maar 3 nodig heeft om de taak te voltooien.

  • In oude systemen zou de assistent zijn plan nooit corrigeren.
  • Bij SCALAR kijkt de assistent naar de resultaten van de bouwer. Hij ziet: "Oh, ik dacht 5, maar de robot deed het met 3. Ik pas mijn instructie aan!"
  • Dit noemen ze Trajectorie-analyse. Het is alsof je een kok bent die een recept schrijft, de kok het kookt, en dan terugkijkt: "Oh, ik had te veel zout gezet, ik schrijf het recept aan."

3. De "Checkpoint" (Het Opslaan van de Stand)

Stel je voor dat je een heel lange reis maakt om een diamant te vinden. Je moet eerst door een bos, dan een rivier oversteken, dan een berg beklimmen.

  • Zonder SCALAR zou de robot elke keer opnieuw moeten beginnen bij de start, het bos doorlopen, de rivier oversteken, en pas dan de berg beklimmen. Dat is enorm veel tijdverspilling.
  • SCALAR gebruikt een truc genaamd Frontier Checkpointing. Zodra de robot veilig de bergtop heeft bereikt (de "frontier"), slaat hij de exacte staat van de wereld op.
  • De volgende keer dat hij moet oefenen om de diamant te vinden, start hij niet bij de start, maar springt hij direct naar de bergtop. Hij hoeft de lange weg niet opnieuw te lopen. Dit bespaart enorme hoeveelheden tijd en energie.

4. De Resultaten: Van "Nooit" naar "Succes"

De auteurs hebben dit getest in een spel genaamd Craftax (een soort Minecraft-achtige wereld).

  • De oude methoden: De slimme assistent kon het plan wel bedenken, maar de robot faalde bij het uitvoeren. Ze haalden zelden diamanten en kwamen nooit in de diepe mijnen (de "Gnomish Mines").
  • Met SCALAR: Door de assistent en de robot te laten samenwerken en voortdurend de instructies te verbeteren, haalde het systeem 88% van de diamanten.
  • Het meest indrukwekkende: Ze haalden het doel om de diepe Gnomische mijnen te bereiken in 9% van de gevallen. De beste oude methoden haalden dit 0% (ze faalden volledig).

Samenvattend

SCALAR is als het geven van een leraar aan een sporter.

  1. De leraar (LLM) bedenkt de trainingsschema's en de theorie.
  2. De sporter (RL) traint en doet de zware arbeid.
  3. De leraar kijkt naar de prestaties van de sporter, ziet waar de sporter vastloopt, en past het schema aan.
  4. Ze gebruiken een "tijdsparkeermeter" (checkpoint) om niet elke dag opnieuw te hoeven beginnen met de warming-up.

Hierdoor wordt het mogelijk voor AI om niet alleen te praten over complexe taken, maar ze ook daadwerkelijk te doen in moeilijke, onvoorspelbare werelden.