Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

Die Arbeit stellt EMPO2^2 vor, ein hybrides Reinforcement-Learning-Framework, das durch die Kombination von On- und Off-Policy-Optimierung sowie einem Gedächtnismechanismus die Explorationsfähigkeit von LLM-Agenten signifikant verbessert und so zu überlegener Leistung und Anpassungsfähigkeit in neuen Umgebungen führt.

Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber etwas sturen Freund, der ein riesiges Wissen in seinem Kopf hat (das ist unser KI-Modell). Wenn du ihn in eine neue, unbekannte Stadt schickst, um etwas Bestimmtes zu finden (z. B. einen roten Lichtschalter zu finden), nutzt er sofort alles, was er aus Büchern weiß.

Das Problem: In der echten Welt (oder in Computerspielen wie ScienceWorld) funktionieren die Regeln oft nicht so, wie in den Büchern. Dein Freund versucht, den Schalter zu drücken, aber er ist gar nicht da. Er bleibt stecken, wiederholt denselben Fehler und lernt nichts dazu. Er ist zu sehr damit beschäftigt, sein altes Wissen anzuwenden, anstatt die Umgebung wirklich zu erkunden.

Die Forscher aus diesem Papier haben eine Lösung namens EMPO2 entwickelt. Hier ist eine einfache Erklärung, wie das funktioniert, mit ein paar kreativen Vergleichen:

1. Das Problem: Der "sture" Experte

Stell dir vor, du spielst ein Videospiel. Dein Charakter ist ein Experte, der alles über Physik weiß. Aber im Spiel musst du erst herausfinden, wo die Batterie liegt, bevor du sie anschließen kannst.

  • Der alte Weg (GRPO): Der Charakter versucht immer wieder, die Batterie anzuschließen, obwohl er sie nicht findet. Er lernt nur langsam durch Zufall, wenn er mal einen anderen Weg probiert. Das dauert ewig.
  • Das neue Problem: Wenn er scheitert, vergisst er sofort, warum er gescheitert ist, und macht beim nächsten Versuch genau denselben Fehler.

2. Die Lösung: EMPO2 – Der "Notizbuch"-Agent

EMPO2 gibt dem Agenten zwei superkräftige Werkzeuge: ein Gedächtnis (ein Notizbuch) und eine doppelte Lernstrategie.

Werkzeug A: Das Notizbuch (Das "Gedächtnis")

Stell dir vor, dein Freund hat ein Notizbuch bei sich. Jedes Mal, wenn er scheitert (z. B. "Ich habe den Schalter nicht gefunden"), schreibt er sich einen Tipp auf: "Hey, ich war im Flur, aber der Schalter war nicht da. Ich muss ins Labor gehen!"

  • Der Clou: Er nutzt dieses Notizbuch nicht nur, um sich zu erinnern, sondern er nutzt die Tipps, um beim nächsten Versuch besser zu suchen. Er liest: "Aha, ich war schon im Flur, also gehe ich jetzt ins Labor."
  • Der Trick: Diese Tipps werden nicht von einem anderen Menschen geschrieben, sondern vom Agenten selbst generiert. Er lernt also, sich selbst zu belehren.

Werkzeug B: Die zwei Lern-Modi (On-Policy & Off-Policy)

Hier wird es clever. Der Agent lernt auf zwei verschiedene Arten gleichzeitig, wie ein Schüler, der sowohl aus dem Unterricht als auch aus Hausaufgaben lernt:

  1. Der "Mit-Notizbuch"-Modus (On-Policy):
    Der Agent spielt das Spiel und liest dabei sein Notizbuch. Er nutzt die Tipps, um bessere Entscheidungen zu treffen. Das hilft ihm, schnell neue Wege zu finden (Exploration).
  2. Der "Ohne-Notizbuch"-Modus (Off-Policy):
    Das ist der geniale Teil. Der Agent spielt eine Runde mit Tipps, aber wenn er danach lernt, tut er so, als hätte er keine Tipps gehabt.
    • Die Analogie: Stell dir vor, ein Koch (der Agent) kocht ein Gericht mit einer geheimen Zutat (dem Tipp), die ihm der Chef gegeben hat. Das Gericht schmeckt toll. Jetzt will der Koch lernen, wie man es selbst kocht, ohne dass der Chef ihm die Zutat gibt. Er schaut sich an: "Okay, ich habe mit der Zutat gekocht und es war gut. Ich muss also herausfinden, wie ich das ohne die Zutat genauso gut hinbekomme."
    • Das Ergebnis: Der Agent "verinnerlicht" die Tipps. Er lernt, dass der Weg ins Labor der richtige ist, und merkt sich das in seinem Gehirn (den neuronalen Gewichten), statt nur auf das Notizbuch zu schauen.

3. Das Ergebnis: Ein besserer Entdecker

In den Tests (wie im Spiel ScienceWorld oder beim Online-Shopping in WebShop) hat sich gezeigt:

  • Schnelleres Lernen: EMPO2 findet Lösungen viel schneller als andere Methoden. Es ist wie ein Detektiv, der sich Notizen macht und daraus lernt, statt immer wieder in dieselbe Sackgasse zu laufen.
  • Anpassungsfähigkeit: Wenn man den Agenten in eine völlig neue Umgebung schickt (z. B. von "Biolabor" zu "Elektrik"), kann er sich sofort anpassen. Er nutzt sein Notizbuch, um die ersten paar Versuche zu überstehen, und lernt dann so schnell, dass er das Notizbuch bald gar nicht mehr braucht.
  • Robustheit: Selbst wenn das Notizbuch weg ist (z. B. wenn der Agent im echten Leben ohne externe Hilfe agieren muss), ist er immer noch viel schlauer als vorher, weil er die Tipps in sein eigenes Gehirn integriert hat.

Zusammenfassung in einem Satz

EMPO2 ist wie ein Schüler, der nicht nur aus Fehlern lernt, sondern sich selbst Notizen macht, diese Notizen nutzt, um bessere Versuche zu machen, und dann das Gelernte so fest in seinem Kopf verankert, dass er am Ende auch ohne Notizen ein Meister seines Fachs ist.

Es ist der Schlüssel, um KI-Agenten nicht nur "klug" zu machen, sondern sie zu neugierigen Entdeckern zu verwandeln, die sich in unbekannten Welten zurechtfinden können.