ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren een complexe taak uitvoeren, zoals het bouwen van een huis of het vinden van een schat in een groot, donker bos. Het grootste probleem bij het trainen van deze robots (in de wereld van kunstmatige intelligentie) is: hoe geef je de robot precies te weten wat hij goed doet?

In de traditionele wereld van "Reinforcement Learning" (versterkend leren) is dit als een ouder dat een kind probeert te leren fietsen, maar alleen "goed gedaan!" roept als het kind eindelijk de finish haalt na urenlang vallen. Tussen die valpartijen en de finish krijgt het kind geen feedback. Het kind raakt gefrustreerd, leert niets en stopt.

Dit papier introduceert een slimme nieuwe methode genaamd ARM-FM. Laten we dit uitleggen met een paar creatieve vergelijkingen.

1. Het Probleem: De Stille Schreeuw

Normaal gesproken krijgen robots alleen een beloning (een puntje) als ze het hele doel bereiken. Maar als de taak moeilijk is (bijvoorbeeld: eerst een sleutel vinden, dan een deur openen, dan een doos pakken), kan het zijn dat de robot duizenden keren faalt voordat hij die ene keer succes heeft. Zonder tussentijdse feedback is het voor de robot als een speler in een videospel die pas een punt krijgt als hij de eindbaas verslaat, maar die de hele tijd door muren loopt zonder te weten welke kant hij op moet.

2. De Oplossing: De "Automatische Wegbeschrijver" (ARM-FM)

De auteurs van dit papier hebben een systeem bedacht dat twee dingen combineert:

Een Foundation Model (FM): Dit is een super-intelligente AI (zoals de grote taalmodellen die je misschien kent) die heel goed is in begrijpen wat mensen zeggen en plannen maken.
Een "Reward Machine" (Beloningsmachine): Dit is een soort digitale landkaart met stap-voor-stap instructies.

Hoe werkt het? Stel je dit voor:

Stel je voor dat je een robot wilt leren om een schat te vinden in een grot.

De oude manier: Je zegt: "Ga naar de grot. Als je de schat vindt, krijg je 100 punten." De robot loopt urenlang rond, stoot tegen muren, en krijgt nooit een punt. Hij leert niets.
De ARM-FM manier:
1. Jij zegt tegen de slimme AI (het Foundation Model): "De robot moet eerst een sleutel vinden, dan een zware deur openen, en daarna de schat pakken."
2. De AI denkt na en zegt: "Ah, ik zie het! Laten we de reis opdelen in kleine stukjes."
3. De AI bouwt automatisch een Landkaart (de Reward Machine) voor de robot. Deze kaart ziet eruit als een stroomschema:
  - Stap 1: Zoek de sleutel. (Krijg 1 punt als je hem vindt).
  - Stap 2: Ga naar de deur. (Krijg 1 punt als je er bent).
  - Stap 3: Open de deur. (Krijg 2 punten als hij open is).
  - Stap 4: Pak de schat. (Krijg 100 punten!).

De AI vertaalt jouw natuurlijke taal ("zoek de sleutel") direct naar een strakke, wiskundige lijst met regels die de robot kan begrijpen.

3. De Magische "Taal-Bril"

Het allercoolste aan dit systeem is hoe de robot de wereld ziet.
Normaal kijkt een robot alleen naar de pixels op het scherm (een muur, een sleutel). Maar met ARM-FM krijgt de robot een paar "Taal-Brillen".

Wanneer de robot op de kaart staat bij "Stap 1: Zoek de sleutel", ziet hij niet alleen de muur, maar leest hij ook een tekst in zijn hoofd: "Ik ben nu op zoek naar een sleutel."
Wanneer hij de sleutel vindt en de kaart springt naar "Stap 2: Ga naar de deur", verandert de tekst in zijn hoofd naar: "Ik moet nu naar de deur."

Waarom is dit zo krachtig?
Stel je voor dat je een robot hebt getraind om een rode sleutel te vinden. Later geef je hem de taak om een blauwe sleutel te vinden.

Zonder deze methode moet de robot opnieuw leren wat een sleutel is.
Met deze methode ziet de robot de tekst "Zoek een sleutel" en denkt hij: "Ah, ik heb dit al eerder gedaan! Ik weet hoe ik een sleutel vind, of het nu rood of blauw is."

De robot gebruikt zijn eerdere ervaringen om nieuwe, vergelijkbare taken direct op te lossen, zonder opnieuw te hoeven oefenen. Dit noemen ze zero-shot generalization (direct kunnen doen zonder training).

4. Wat hebben ze bewezen?

De auteurs hebben dit getest in verschillende moeilijke werelden:

MiniGrid: Een simpele 2D-wereld waar robots muren en deuren moeten doorbreken. Normale robots faalden hier volledig; de ARM-FM robots slaagden erin.
Craftium (Minecraft): Een complexe 3D-wereld. De robot moest hout, steen en ijzer verzamelen om een diamant te vinden. Normale robots wisten niet waar ze moesten beginnen. De ARM-FM robot deed het alsof het een spelletje was dat hij al kende, omdat de AI de taak had opgesplitst in logische stappen.
Robotarmen: Zelfs voor fysieke robots die voorwerpen moeten vastpakken en verplaatsen, werkte het. De AI schreef de regels voor de robotarm, zodat deze niet meer "blind" probeerde.

Samenvatting in één zin

ARM-FM is als het geven van een slimme, stap-voor-stap reisgids aan een robot, geschreven door een super-intelligente AI die precies begrijpt wat de mens bedoelt, zodat de robot nooit meer verdwaalt in het donker, maar altijd weet welke kleine stap hij nu moet zetten.

Het maakt robots slimmer, sneller en beter in het begrijpen van complexe taken, gewoon door hun "taal" en "planning" automatisch te vertalen naar een heldere beloningsstructuur.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

Versterkend Leren (RL) is extreem gevoelig voor de specificatie van de beloningsfunctie (reward function). Een slecht ontworpen beloning leidt tot problemen zoals:

Sparre beloningen (Sparse Rewards): Agents krijgen geen leerinformatie totdat ze het einddoel bereiken, wat leren onmogelijk maakt in complexe omgevingen.
Reward Hacking: Agents exploiteren gaten in de beloningsfunctie om een hoge score te halen zonder het werkelijke doel te bereiken.
Moeilijkheid van handmatig ontwerp: Het handmatig ontwerpen van dichte, gestructureerde beloningen voor complexe, lange-termijn taken vereist vaak expertkennis en is tijdrovend.

Hoewel Foundation Models (FMs) zoals Large Language Models (LLMs) uitstekend zijn in het interpreteren van natuurlijke taal en taken te ontleden, ontbreekt er een brug om deze abstracte begrip om te zetten in concrete, gestructureerde beloningssignalen die RL-agents nodig hebben. Bestaande methoden die FMs gebruiken, genereren vaak alleen hoog-level plannen die niet goed "geground" zijn in de lage-level controle van de agent.

2. Methodologie: ARM-FM

De auteurs introduceren ARM-FM (Automated Reward Machines via Foundation Models), een raamwerk dat de kloof overbrugt tussen semantisch redeneren van FMs en de controle van RL-agents. De kern van de methode bestaat uit drie stappen:

A. Generatie van Language-Aligned Reward Machines (LARMs)

In plaats van een monolithische beloningsfunctie, gebruikt ARM-FM Reward Machines (RMs). Een RM is een eindige automaat die taken decomposeert in een reeks sub-doelen (toestanden) met bijbehorende overgangen.

Input: Een natuurlijke taal beschrijving van de taak en een visuele observatie van de omgeving.
Proces: Een Foundation Model (bijv. GPT-4o) genereert automatisch de volledige RM-specificatie. Dit omvat:
1. De structuur van de automaat (toestanden en overgangen).
2. Uitvoerbare Python-code voor labeling functions (die omgevingstoestanden vertalen naar RM-events).
3. Natuurlijke taal instructies voor elke RM-toestand.
Self-Improvement Loop: Het systeem gebruikt een generator en een criticus (beide FMs) in een iteratieve cyclus om de RM te verfijnen, waarbij optionele menselijke feedback kan worden gebruikt voor validatie.

B. Taal-gealigneerde Embeddings

Elke toestand $u$ in de gegenereerde RM krijgt een natuurlijke taal instructie $l_u$ (bijv. "Pak de blauwe sleutel op"). Deze instructie wordt omgezet in een vector-embeddings $z_u = \phi(l_u)$ via een taalmodel.

Dit creëert een semantisch onderbouwde vaardigheidsruimte. Taakbeschrijvingen die semantisch vergelijkbaar zijn (bijv. "pak rode sleutel" vs. "pak blauwe sleutel") liggen dicht bij elkaar in de embedding-ruimte.

C. RL Training met Gecombineerde Signalen

De RL-agent wordt getraind in een geaugmenteerde MDP ( $M'$ ) die de productruimte is van de omgevingstoestanden en de RM-toestanden.

Policy Conditioning: Het beleid $\pi$ konditioneert niet alleen op de omgeving $s_t$ , maar ook op de embedding van de huidige RM-toestand $z_{u_t}$ . Dit stelt de agent in staat om kennis over te dragen tussen vergelijkbare sub-taken.
Beloning: De totale beloning is de som van de oorspronkelijke (vaak sparsere) beloning en de dichte, gestructureerde beloning van de RM ( $R_{total} = R_{env} + R_{RM}$ ).

3. Belangrijkste Bijdragen

Automatische Generatie van LARMs: Een nieuw raamwerk dat volledige taakspecificaties (RM-structuur, label-functies en instructies) genereert vanuit natuurlijke taal, zonder menselijke experts of gedemonstreerde voorbeelden.
Semantische Vaardigheidsruimte: De introductie van taal-embeddings voor RM-toestanden, wat kennisdeling en transfer mogelijk maakt tussen gerelateerde sub-taken, zelfs in verschillende taken.
Empirische Validatie: Uitgebreide experimenten die aantonen dat het systeem complexe, lange-termijn taken oplost in diverse domeinen die voor standaard RL-methoden onbereikbaar zijn.

4. Resultaten

De auteurs testen ARM-FM in vier verschillende omgevingen:

MiniGrid & BabyAI (2D Grid Worlds): De methode lost complexe, sparsere beloningstaken op (zoals UnlockToUnlock en KeyCorridor) waar baselines (DQN, ICM, ReAct) volledig falen. De agent leert efficiënt door de dichte, gestructureerde beloningen.
Craftium (3D Minecraft-achtige wereld): In een procedurally generated 3D omgeving moet de agent diamant mijnen door eerst hout, steen en ijzer te verzamelen. Een standaard PPO-agent maakt geen enkele vooruitgang, terwijl de ARM-FM-agent de volledige taak succesvol voltooit.
Meta-World (Robotica): Voor continue controle taken (robotische manipulatie) levert het systeem dichte beloningen die handmatig ontworpen lage-level signalen vervangen, wat leidt tot hogere succespercentages.
XLand-MiniGrid (Generalisatie):
- Multi-task Learning: Een enkele agent getraind op meerdere taken behoudt hoge prestaties, terwijl baselines falen naarmate het aantal taken groeit.
- Zero-Shot Generalisatie: De agent kan een volledig nieuwe, ongezamenlijke taak oplossen zonder extra training, zolang de sub-taken semantisch bekend zijn (bijv. een nieuwe combinatie van "sleutel pakken" en "deur openen"). Dit wordt mogelijk gemaakt door de semantische nabijheid van de embeddings.

5. Betekenis en Conclusie

ARM-FM vertegenwoordigt een paradigmaverschuiving in RL door Foundation Models te integreren als een automatische architect voor beloningsontwerp.

Interpreteerbaarheid: De gegenereerde RMs zijn menselijk leesbaar en kunnen worden geverifieerd of aangepast door mensen.
Compositionaliteit: Door taken te decomponeren in sub-doelen met semantische embeddings, kunnen agents vaardigheden hergebruiken en generaliseren naar nieuwe situaties.
Toekomstperspectief: Het werk toont aan dat het mogelijk is om hoog-level menselijke intentie direct om te zetten in effectieve, leerbare signalen voor agents, wat de weg vrijmaakt voor robuustere en generaliseerbaardere AI-systemen in complexe, real-world scenario's.

De studie bevestigt dat de combinatie van gestructureerde automata (RMs) en de redeneercapaciteiten van Foundation Models een krachtige oplossing biedt voor het langdurige probleem van reward engineering in versterkend leren.