Reinforcement Learning with Symbolic Reward Machines

Die Autoren stellen Symbolic Reward Machines (SRMs) sowie die Lernalgorithmen QSRM und LSRM vor, um die Einschränkungen manueller Labeling-Funktionen bei Reward Machines zu überwinden, indem sie Umgebungsbeobachtungen direkt über symbolische Formeln verarbeiten und dabei die Leistung bestehender Methoden erreichen, ohne die Standardumgebungsdefinitionen zu verletzen.

Thomas Krug, Daniel Neider

Veröffentlicht 2026-03-04
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der Agent mit dem Amnesie-Problem

Stell dir vor, du trainierst einen Roboter, damit er ein Haus aufräumt.

  • Der klassische Ansatz (Reinforcement Learning): Der Roboter bekommt nur zwei Dinge: Er sieht den Raum (z. B. "Da liegt ein Buch") und er bekommt einen Punkt (Belohnung) oder einen Schlag (Strafe).
  • Das Problem: Wenn der Roboter heute einen Punkt dafür bekommt, dass er das Buch aufhebt, weiß er morgen vielleicht nicht mehr, warum er das getan hat. Er hat kein Gedächtnis für die Vergangenheit.
  • Die echte Herausforderung: Viele Aufgaben sind wie eine Rezeptkette. Erst muss man das Holz sammeln, dann darf man es in den Ofen legen, und danach bekommt man den großen Preis. Wenn der Roboter das Holz noch nicht gesammelt hat, aber schon in den Ofen greift, passiert nichts. Klassische Lernmethoden scheitern oft daran, weil sie nur auf den letzten Moment schauen und nicht verstehen, dass die Reihenfolge wichtig ist.

Die alte Lösung: Der "Etikettierer" (Reward Machines)

Bisher gab es eine Lösung namens "Reward Machines" (Belohnungsmaschinen).

  • Wie es funktionierte: Man musste dem Roboter einen menschlichen Assistenten (einen "Etikettierer") zur Seite stellen. Dieser Assistent schaut sich an, was der Roboter tut, und ruft laut: "Aha! Du hast jetzt Holz gesammelt!" oder "Super, du bist im Ofen!".
  • Das Problem: Das ist extrem mühsam. Für jeden neuen Raum und jede neue Aufgabe muss ein Experte diesen Assistenten programmieren. Es ist, als müsste man für jedes neue Spiel, das man spielt, erst einen neuen Schiedsrichter einstellen, der die Regeln kennt. Das funktioniert in der echten Welt kaum, weil man nicht für jede Situation einen Experten hat.

Die neue Lösung: Symbolische Belohnungsmaschinen (SRMs)

Die Autoren dieses Papers haben eine clevere Idee entwickelt: Symbolische Belohnungsmaschinen (SRMs).

Stell dir das wie einen intelligenten Navigator vor, der direkt in den Kopf des Roboters eingebaut ist.

  1. Kein Assistent nötig: Der Roboter muss nicht mehr auf jemanden warten, der ihm sagt, was passiert. Er schaut sich einfach die Umgebung selbst an.
  2. Logische Regeln statt Etiketten: Statt auf ein Wort wie "Holz gesammelt" zu warten, nutzt der Roboter mathematische Regeln (wie ein Sicherheitsgurt-System im Auto).
    • Beispiel: Der Roboter denkt: "Wenn meine Position X größer als 5 und kleiner als 10 ist UND meine Geschwindigkeit Y positiv ist, dann bin ich im 'Holz-Sammel-Modus'."
    • Diese Regeln sind wie Wächter (im Englischen "Guards"), die entscheiden, ob der Roboter in den nächsten Schritt übergeht.
  3. Der Vorteil: Der Roboter kann jetzt komplexe Aufgaben lernen, ohne dass jemand ihm vorher sagen muss, wie er die Umgebung beschreiben soll. Er lernt die Regeln direkt aus den Daten.

Die zwei Lern-Methoden

Die Autoren haben zwei Arten entwickelt, wie der Roboter diese Regeln lernt:

1. QSRM (Der Schüler mit dem Lehrbuch)

  • Hier gibt der Mensch dem Roboter die Regeln (die SRM) vor.
  • Der Roboter lernt dann, wie er die Aufgabe am besten löst.
  • Vorteil: Er lernt viel schneller als ohne Regeln.
  • Unterschied zur alten Methode: Er braucht keinen menschlichen Assistenten, der ihm die Regeln in Form von Wörtern sagt. Er versteht die Regeln direkt als Formeln.

2. LSRM (Der autodidaktische Genie)

  • Das ist der wahre Clou. Hier gibt der Mensch gar keine Regeln vor.
  • Der Roboter fängt an zu lernen, macht Fehler, und wenn er merkt: "Moment, ich habe hier einen Punkt bekommen, aber meine innere Logik sagte mir, ich sollte keinen bekommen!", dann passt er seine eigenen Regeln an.
  • Er baut sich sein eigenes "Regelbuch" (die SRM) während des Trainings.
  • Das Ergebnis: Am Ende hat der Roboter nicht nur gelernt, wie man die Aufgabe löst, sondern er kann dem Menschen auch erklären: "Schau mal, ich habe gelernt, dass ich erst hierhin muss, dann dorthin, um den großen Preis zu bekommen." Das ist wie ein Roboter, der am Ende des Kurses ein Lehrbuch schreibt, das genau beschreibt, wie die Aufgabe funktioniert.

Warum ist das wichtig?

  • Einfacher: Man muss keine komplizierten "Etikettierer" programmieren. Man kann Standard-Umgebungen (wie die, die man aus Videospielen kennt) direkt verwenden.
  • Verständlicher: Da die Regeln in Formeln geschrieben sind (z. B. "x muss größer als 5 sein"), kann ein Mensch sie lesen und verstehen. Der Roboter wird nicht zu einer "Blackbox".
  • Effektiver: In Tests haben diese neuen Methoden genauso gut oder besser funktioniert als die alten, komplizierten Methoden, aber sie waren viel flexibler.

Zusammenfassung in einer Metapher

  • Alte Methode: Du trainierst einen Hund, indem du ihm sagst: "Wenn du den Ball siehst, sag 'Ball!'". Du musst ihm jedes Mal sagen, was er sieht.
  • Neue Methode (SRM): Du gibst dem Hund eine Brille, durch die er selbst erkennt: "Wenn der Ball rot ist und sich bewegt, dann ist es Zeit zu jagen." Der Hund lernt die Regeln selbst und kann dir am Ende sogar sagen: "Ich habe gelernt, dass ich erst warten muss, bis der Ball rollt."

Die Autoren haben also eine Methode erfunden, mit der KI-Agenten komplexe, zeitabhängige Aufgaben lernen können, ohne dass Menschen ihnen ständig die Regeln in die Hand drücken müssen. Sie machen die KI schlauer und verständlicher.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →