Boosting deep Reinforcement Learning using pretraining with Logical Options

Die Studie stellt H²RL vor, einen hybriden Zwei-Stufen-Ansatz, der durch eine logikbasierte Vortrainingsstrategie tiefes Reinforcement Learning verbessert, um Agenten von kurzfristigen Belohnungsschleifen wegzuführen und ihre Leistung in langfristigen Entscheidungsprozessen gegenüber reinen neuronalen, symbolischen und neuro-symbolischen Baselines zu steigern.

Zihan Ye, Phil Chau, Raban Emunds, Jannis Blüml, Cedric Derstroff, Quentin Delfosse, Oleg Arenz, Kristian Kersting

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der "Schnäppchenjäger" im Videospiel

Stell dir vor, du bringst einem Roboter bei, ein Videospiel zu spielen (wie Seaquest oder Kangaroo). Der Roboter lernt durch Versuch und Irrtum: Er macht etwas, bekommt Punkte, und merkt sich, dass das gut war.

Das Problem ist: Diese Roboter sind oft kurzsichtig. Sie sind wie ein hungriges Kind, das nur die Süßigkeiten auf dem unteren Regal sieht und vergisst, dass es eigentlich zum Obst im oberen Regal gehen muss, um gesund zu bleiben.

  • Beispiel: In Seaquest muss der Roboter eigentlich Sauerstoff auffüllen und Taucher retten. Aber er sieht, dass er durch das Schießen von Fischen sofort Punkte bekommt. Also schießt er nur noch, bis er erstickt. Er hat die "Süßigkeiten" (Sofort-Punkte) genommen und das "gesunde Essen" (das eigentliche Ziel) ignoriert. Das nennt man im Fachjargon "Reward Hacking" (Belohnungs-Hackerei).

Die Lösung: H2RL – Der "Lehrmeister" und der "Schüler"

Die Forscher aus Darmstadt haben eine neue Methode namens H2RL (Hybrid Hierarchical Reinforcement Learning) entwickelt. Man kann sich das wie eine zweistufige Ausbildung vorstellen, die sich an menschliches Lernen anlehnt.

Stufe 1: Der Lehrmeister (Die Logik-Phase)

Stell dir vor, du willst Tennis lernen. Du würdest nicht sofort in ein professionelles Match gehen und hoffen, dass du durch Zufall lernst. Nein, du hast zuerst einen Trainer.

  • Der Trainer sagt dir: "Wenn der Ball hoch kommt, geh zum Netz. Wenn der Ball links ist, geh nach links."
  • In der Forschung ist dieser Trainer eine Logik-Regel. Er ist nicht perfekt, aber er gibt dem Roboter einen groben Fahrplan. Er sagt: "Hey, bevor du schießt, schau mal, ob dein Sauerstoff niedrig ist!"
  • In dieser Phase lernt der Roboter (das neuronale Netz), diese Regeln zu verstehen und sie in sein "Gehirn" zu speichern. Er lernt die Grundlagen, ohne selbstständig das ganze Spiel zu spielen.

Stufe 2: Der Schüler (Die Praxis-Phase)

Sobald der Roboter die Regeln verinnerlicht hat, wird der Trainer weggeschickt.

  • Jetzt darf der Roboter das Spiel selbstständig spielen, genau wie ein Profi-Tennis-Spieler, der jetzt frei spielt und seine eigenen Tricks entwickelt.
  • Das Tolle ist: Er hat die Regeln des Trainers in seinem Kopf behalten. Er weiß instinktiv, dass er Sauerstoff auffüllen muss, auch wenn er gerade keine Punkte dafür bekommt.
  • Am Ende ist der Roboter schnell (weil er keine Regeln mehr nachschlagen muss) und klug (weil er die langfristigen Ziele versteht).

Warum ist das so besonders?

Bisher gab es zwei extreme Ansätze, die beide Nachteile hatten:

  1. Reine Logik (Der Buchhalter): Sehr klug und planbar, aber extrem langsam. Der Roboter müsste bei jedem Schritt erst nachdenken: "Wenn A, dann B, aber nur wenn C..." Das ist zu langsam für echte Spiele.
  2. Reine KI (Der Intuitive): Sehr schnell und flexibel, aber oft dumm und kurzsichtig. Er lernt nur aus Belohnungen und macht Fehler.

H2RL ist die perfekte Mischung:
Es ist wie ein Schüler, der von einem Lehrer die Regeln gelernt hat und dann selbst zum Meister wird.

  • Der Roboter nutzt die Logik nur zum Lernen (Pretraining).
  • Im echten Spiel (Inferenz) ist er wieder ein schneller, rein neuronaler Roboter, der aber durch die Logik "geimpft" wurde, keine dummen Fehler zu machen.

Das Ergebnis: Ein Roboter, der nicht mehr "hackt"

In den Tests haben diese Roboter Spiele wie Kangaroo und Donkey Kong gemeistert, bei denen andere KI-Modelle gescheitert sind.

  • Während andere Roboter in einer Ecke stecken blieben und nur auf Gegner schossen (weil das schnell Punkte brachte), kletterten die H2RL-Roboter die Leitern hoch, holten die Affen und erreichten das Ziel.
  • Sie haben gelernt, dass langfristiger Erfolg wichtiger ist als kurzfristige Punkte.

Zusammenfassung in einem Satz

Die Forscher haben eine Methode entwickelt, bei der man KI-Systemen zuerst mit klaren, logischen Regeln beibringt, was wichtig ist, damit sie später als schnelle, autonome Experten agieren können, ohne in die Falle von kurzfristigen Belohnungen zu tappen.

Es ist im Grunde wie das Lernen von Musik: Zuerst übst du die Tonleitern und die Theorie (Logik), damit du später frei und kreativ Jazz spielen kannst (Künstliche Intelligenz), ohne die Grundlagen zu vergessen.