ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning

Die Arbeit stellt ARM-FM vor, ein Framework, das Foundation Models nutzt, um automatische Reward Machines aus natürlichen Sprachbeschreibungen zu generieren und so eine compositional Reinforcement Learning mit Zero-Shot-Verallgemeinerung ermöglicht.

Roger Creus Castanyer, Faisal Mohamed, Pablo Samuel Castro, Cyrus Neary, Glen Berseth

Veröffentlicht 2026-03-10
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

🤖 Das Problem: Der verlorene Schatzjäger

Stell dir vor, du möchtest einem Roboter beibringen, einen komplexen Schatz zu finden. Aber du darfst ihm keine detaillierte Landkarte geben. Du darfst ihm nur sagen: "Wenn du den Schatz findest, bekommst du einen Keks."

Das ist das Problem beim maschinellen Lernen (Reinforcement Learning):

  • Der Roboter ist blind: Er weiß nicht, ob er sich auf dem richtigen Weg befindet, solange er den Schatz nicht findet.
  • Der Keks kommt zu spät: Wenn der Schatz erst nach 1000 Schritten gefunden wird, vergisst der Roboter, was er davor getan hat. Er lernt nichts.
  • Falsche Abkürzungen: Manchmal findet der Roboter einen Weg, der ihm viele Kekse gibt, aber nicht zum Schatz führt (z. B. er dreht sich im Kreis, um schnell Punkte zu sammeln). Das nennt man "Reward Hacking" (Belohnungshackerei).

Bisher mussten Menschen diese Roboter mühsam programmieren: "Wenn du eine Tür siehst, gib ihm 1 Punkt. Wenn du einen Schlüssel hast, gib ihm 2 Punkte." Das ist extrem schwer und fehleranfällig.

💡 Die Lösung: ARM-FM (Der KI-Architekt)

Die Forscher haben eine neue Methode namens ARM-FM entwickelt. Die Idee ist genial einfach: Wir nutzen eine super-intelligente KI (ein "Foundation Model", wie ein sehr fortschrittliches Chatbot), um dem Roboter die Landkarte zu zeichnen.

Stell dir vor, du hast einen genialen Architekten (die KI), der sich ausmalen kann, wie man ein Haus baut. Du sagst ihm nur: "Ich möchte ein Haus mit drei Zimmern und einem Dach."
Der Architekt (ARM-FM) macht dann drei Dinge:

  1. Er entwirft den Bauplan (Die "Reward Machine"):
    Statt nur "Keks am Ende" zu sagen, baut der Architekt eine Art Stempelkarte für den Roboter.

    • Schritt 1: Schlüssel finden -> Stempel! (Kleiner Keks).
    • Schritt 2: Tür öffnen -> Stempel! (Mittlerer Keks).
    • Schritt 3: Zimmer betreten -> Stempel! (Großer Keks).
    • Schritt 4: Schatz finden -> JACKPOT!

    Diese Stempelkarte nennt man im Paper Reward Machine. Sie zerlegt die riesige Aufgabe in kleine, machbare Etappen.

  2. Er schreibt die Anleitung auf Deutsch (Natürliche Sprache):
    Der Architekt schreibt nicht nur trockenen Code, sondern beschreiben jeden Schritt in normaler Sprache: "Geh jetzt zum blauen Schlüssel." oder "Öffne die rote Tür."

  3. Er erstellt eine "Gedanken-Brille" (Language Embeddings):
    Das ist der coolste Teil. Der Architekt gibt dem Roboter eine Art Gedanken-Brille. Wenn der Roboter den Schritt "Geh zum blauen Schlüssel" liest, bekommt er durch die Brille ein Gefühl dafür, was das bedeutet.

    • Wenn er später "Geh zum roten Schlüssel" sieht, erkennt die Brille sofort: "Aha! Das ist fast das Gleiche wie beim blauen Schlüssel!"
    • Der Roboter kann also gelernte Fähigkeiten übertragen. Er muss nicht alles von vorne lernen, wenn sich nur die Farbe ändert.

🛠️ Wie funktioniert das in der Praxis?

Das System läuft wie ein Coaching-Team:

  1. Der Trainer (Die KI): Du gibst der KI einen Auftrag auf Deutsch: "Finde den Diamanten im Minecraft-ähnlichen Spiel."
  2. Der Entwurf: Die KI erstellt automatisch die Stempelkarte (Reward Machine) und den Code, der prüft, ob der Roboter einen Schritt gemacht hat.
  3. Der Test (Selbstverbesserung): Die KI prüft sich selbst: "Habe ich einen Schritt vergessen? Was passiert, wenn der Roboter den Schlüssel fallen lässt?" Sie verbessert ihren Plan, bis er perfekt ist. (Manchmal schaut ein Mensch kurz drüber, aber oft reicht die KI allein).
  4. Das Training: Der Roboter spielt nun. Er bekommt bei jedem kleinen Erfolg (Stempel) eine Belohnung. Er lernt schnell, weil er weiß, wo er gerade steht.

🌍 Was haben sie herausgefunden?

Die Forscher haben das System in verschiedenen Welten getestet:

  • Labyrinth-Spiele (MiniGrid): Hier scheitern normale Roboter oft, weil sie sich verirren. Mit ARM-FM finden sie den Weg sofort, weil sie die Stempelkarte nutzen.
  • 3D-Welten (Craftium/Minecraft): Hier muss man erst Holz, dann Stein, dann Eisen sammeln, um einen Diamanten zu finden. Ein normaler Roboter würde verzweifeln. Der ARM-FM-Roboter baut sich automatisch den Plan und schafft es.
  • Roboter-Arme (Meta-World): Ein Roboterarm soll einen Gegenstand greifen und ablegen. Statt den Arm mühsam zu programmieren, sagt die KI dem Roboter einfach, was er tun soll, und er lernt es schnell.

🚀 Das große Wunder: Null-Shot Generalisierung

Das Beste an ARM-FM ist, dass der Roboter nicht für jede neue Aufgabe neu trainiert werden muss.

Stell dir vor, der Roboter hat gelernt, wie man einen blauen Schlüssel benutzt.
Jetzt kommt eine neue Aufgabe: "Benutze den roten Schlüssel."
Da der Roboter durch seine "Gedanken-Brille" versteht, dass "roter Schlüssel" und "blauer Schlüssel" semantisch ähnlich sind (beide sind Schlüssel, beide öffnen Türen), kann er die neue Aufgabe sofort lösen, ohne jemals einen roten Schlüssel gesehen zu haben. Er verallgemeinert sein Wissen.

📝 Zusammenfassung in einem Satz

ARM-FM ist wie ein genialer KI-Architekt, der aus einer einfachen Sprachanweisung automatisch eine detaillierte Schritt-für-Schritt-Anleitung (mit Belohnungen für Teilerfolge) für einen Roboter erstellt, damit dieser komplexe Aufgaben nicht nur löst, sondern auch versteht und sein Wissen auf neue Situationen übertragen kann.

Es ist der Brückenschlag zwischen dem, was Menschen sagen (Sprache), und dem, was Roboter tun (Handeln).