ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning

Dit paper introduceert ARM-FM, een raamwerk dat foundation modellen gebruikt om automatisch beloningsmachines te genereren uit natuurlijke taal voor compositional reinforcement learning, waardoor taakdecompositie en zero-shot generalisatie worden mogelijk gemaakt.

Roger Creus Castanyer, Faisal Mohamed, Pablo Samuel Castro, Cyrus Neary, Glen Berseth

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren een complexe taak uitvoeren, zoals het bouwen van een huis of het vinden van een schat in een groot, donker bos. Het grootste probleem bij het trainen van deze robots (in de wereld van kunstmatige intelligentie) is: hoe geef je de robot precies te weten wat hij goed doet?

In de traditionele wereld van "Reinforcement Learning" (versterkend leren) is dit als een ouder dat een kind probeert te leren fietsen, maar alleen "goed gedaan!" roept als het kind eindelijk de finish haalt na urenlang vallen. Tussen die valpartijen en de finish krijgt het kind geen feedback. Het kind raakt gefrustreerd, leert niets en stopt.

Dit papier introduceert een slimme nieuwe methode genaamd ARM-FM. Laten we dit uitleggen met een paar creatieve vergelijkingen.

1. Het Probleem: De Stille Schreeuw

Normaal gesproken krijgen robots alleen een beloning (een puntje) als ze het hele doel bereiken. Maar als de taak moeilijk is (bijvoorbeeld: eerst een sleutel vinden, dan een deur openen, dan een doos pakken), kan het zijn dat de robot duizenden keren faalt voordat hij die ene keer succes heeft. Zonder tussentijdse feedback is het voor de robot als een speler in een videospel die pas een punt krijgt als hij de eindbaas verslaat, maar die de hele tijd door muren loopt zonder te weten welke kant hij op moet.

2. De Oplossing: De "Automatische Wegbeschrijver" (ARM-FM)

De auteurs van dit papier hebben een systeem bedacht dat twee dingen combineert:

  1. Een Foundation Model (FM): Dit is een super-intelligente AI (zoals de grote taalmodellen die je misschien kent) die heel goed is in begrijpen wat mensen zeggen en plannen maken.
  2. Een "Reward Machine" (Beloningsmachine): Dit is een soort digitale landkaart met stap-voor-stap instructies.

Hoe werkt het? Stel je dit voor:

Stel je voor dat je een robot wilt leren om een schat te vinden in een grot.

  • De oude manier: Je zegt: "Ga naar de grot. Als je de schat vindt, krijg je 100 punten." De robot loopt urenlang rond, stoot tegen muren, en krijgt nooit een punt. Hij leert niets.
  • De ARM-FM manier:
    1. Jij zegt tegen de slimme AI (het Foundation Model): "De robot moet eerst een sleutel vinden, dan een zware deur openen, en daarna de schat pakken."
    2. De AI denkt na en zegt: "Ah, ik zie het! Laten we de reis opdelen in kleine stukjes."
    3. De AI bouwt automatisch een Landkaart (de Reward Machine) voor de robot. Deze kaart ziet eruit als een stroomschema:
      • Stap 1: Zoek de sleutel. (Krijg 1 punt als je hem vindt).
      • Stap 2: Ga naar de deur. (Krijg 1 punt als je er bent).
      • Stap 3: Open de deur. (Krijg 2 punten als hij open is).
      • Stap 4: Pak de schat. (Krijg 100 punten!).

De AI vertaalt jouw natuurlijke taal ("zoek de sleutel") direct naar een strakke, wiskundige lijst met regels die de robot kan begrijpen.

3. De Magische "Taal-Bril"

Het allercoolste aan dit systeem is hoe de robot de wereld ziet.
Normaal kijkt een robot alleen naar de pixels op het scherm (een muur, een sleutel). Maar met ARM-FM krijgt de robot een paar "Taal-Brillen".

Wanneer de robot op de kaart staat bij "Stap 1: Zoek de sleutel", ziet hij niet alleen de muur, maar leest hij ook een tekst in zijn hoofd: "Ik ben nu op zoek naar een sleutel."
Wanneer hij de sleutel vindt en de kaart springt naar "Stap 2: Ga naar de deur", verandert de tekst in zijn hoofd naar: "Ik moet nu naar de deur."

Waarom is dit zo krachtig?
Stel je voor dat je een robot hebt getraind om een rode sleutel te vinden. Later geef je hem de taak om een blauwe sleutel te vinden.

  • Zonder deze methode moet de robot opnieuw leren wat een sleutel is.
  • Met deze methode ziet de robot de tekst "Zoek een sleutel" en denkt hij: "Ah, ik heb dit al eerder gedaan! Ik weet hoe ik een sleutel vind, of het nu rood of blauw is."

De robot gebruikt zijn eerdere ervaringen om nieuwe, vergelijkbare taken direct op te lossen, zonder opnieuw te hoeven oefenen. Dit noemen ze zero-shot generalization (direct kunnen doen zonder training).

4. Wat hebben ze bewezen?

De auteurs hebben dit getest in verschillende moeilijke werelden:

  • MiniGrid: Een simpele 2D-wereld waar robots muren en deuren moeten doorbreken. Normale robots faalden hier volledig; de ARM-FM robots slaagden erin.
  • Craftium (Minecraft): Een complexe 3D-wereld. De robot moest hout, steen en ijzer verzamelen om een diamant te vinden. Normale robots wisten niet waar ze moesten beginnen. De ARM-FM robot deed het alsof het een spelletje was dat hij al kende, omdat de AI de taak had opgesplitst in logische stappen.
  • Robotarmen: Zelfs voor fysieke robots die voorwerpen moeten vastpakken en verplaatsen, werkte het. De AI schreef de regels voor de robotarm, zodat deze niet meer "blind" probeerde.

Samenvatting in één zin

ARM-FM is als het geven van een slimme, stap-voor-stap reisgids aan een robot, geschreven door een super-intelligente AI die precies begrijpt wat de mens bedoelt, zodat de robot nooit meer verdwaalt in het donker, maar altijd weet welke kleine stap hij nu moet zetten.

Het maakt robots slimmer, sneller en beter in het begrijpen van complexe taken, gewoon door hun "taal" en "planning" automatisch te vertalen naar een heldere beloningsstructuur.