Experiential Reflective Learning for Self-Improving LLM Agents

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr intelligenten, aber etwas vergesslichen Assistenten. Er kann komplexe Aufgaben lösen, wie etwa eine Reise planen, E-Mails schreiben oder Daten analysieren. Aber er hat ein großes Problem: Er lernt nicht aus seinen Fehlern.

Wenn er heute eine Aufgabe falsch macht und morgen eine fast identische bekommt, macht er denselben Fehler erneut. Er beginnt jedes Mal bei Null, als wäre er gerade erst geboren worden. Das ist, als würdest du jeden Tag aufs Neue versuchen, Fahrradfahren zu lernen, obwohl du gestern schon gestürzt bist und wüsstest, wo du hinfallen könntest.

Die Forscher von Illuin Technology haben eine Lösung dafür entwickelt, die sie ERL (Experiential Reflective Learning) nennen. Hier ist, wie das funktioniert, einfach erklärt:

1. Das Problem: Der vergessliche Assistent

Bisherige KI-Agenten arbeiten wie ein Student, der für jede Prüfung neu lernt, ohne jemals seine alten Klausuren oder Fehler zu überprüfen. Sie sind gut im Moment, aber sie werden nicht besser, je mehr sie tun.

2. Die Lösung: ERL – Der "Lernende Tagebuch"-Ansatz

Stell dir ERL wie einen persönlichen Coach vor, der dem Assistenten hilft, ein Tagebuch der Weisheit zu führen.

Schritt 1: Die Erfahrung sammeln (Das Tagebuch schreiben)
Jedes Mal, wenn der Assistent eine Aufgabe erledigt (egal ob erfolgreich oder gescheitert), schaut er sich das Ergebnis an. Statt nur den Text der Aufgabe zu speichern, fragt er sich: "Was habe ich gelernt?"
- Beispiel: Wenn er eine E-Mail an die falsche Adresse geschickt hat, schreibt er nicht den ganzen E-Mail-Verlauf auf. Er schreibt eine kurze Regel auf: "Achtung: Bevor man E-Mails an Kalender-Einträge sendet, muss man erst die Namen in echte E-Mail-Adressen umwandeln!"
  Diese kurzen, klugen Regeln nennt das Papier Heuristiken. Sie sind wie Fertig-Rezepte für den Alltag, statt ganze Kochbücher zu lesen.
Schritt 2: Das Tagebuch durchsuchen (Der Coach greift zu)
Wenn der Assistent eine neue Aufgabe bekommt, ruft er nicht sein ganzes riesiges Tagebuch hervor (das wäre zu viel Text für den Kopf). Stattdessen fragt er seinen Coach: "Welche Regeln aus meinem Tagebuch helfen mir gerade jetzt?"
Der Coach sucht die passendsten 20 Regeln heraus und gibt sie dem Assistenten als "Spickzettel" mit auf den Weg.
Schritt 3: Die Aufgabe lösen (Mit dem Spickzettel)
Der Assistent führt die Aufgabe aus, aber diesmal denkt er an seine Spickzettel-Regeln. Er weiß, was er vermeiden muss und was er tun sollte. Das Ergebnis ist, dass er viel seltener scheitert.

3. Warum ist das so genial? (Die Analogie)

Stell dir vor, du musst einen Labyrinth-Lauf machen.

Ohne ERL: Du rennst jedes Mal blind hinein. Wenn du gegen eine Wand rennst, drehst du um und rennst wieder blind los.
Mit ERL: Jedes Mal, wenn du gegen eine Wand rennst, malst du dir einen kleinen Pfeil auf die Wand: "Hier nicht lang!". Wenn du morgen wieder in ein ähnliches Labyrinth kommst, schaust du auf deine Pfeile. Du musst nicht mehr blind rennen, du weißt, wo die Fallen sind.

Das Papier zeigt, dass diese "Pfeile" (die Heuristiken) viel besser funktionieren als das bloße Vorlesen alter Geschichten (die kompletten Aufgabenverläufe). Eine kurze Regel ist wie ein komprimierter Flash-Speicher für Intelligenz.

4. Was haben sie herausgefunden?

Die Forscher haben das System an einem Test namens "Gaia2" ausprobiert, wo der Assistent komplexe Aufgaben auf einem Smartphone simulieren musste.

Das Ergebnis: Der Assistent mit dem Tagebuch (ERL) war 7,8 % erfolgreicher als der Assistent ohne Tagebuch.
Wichtigste Erkenntnis: Es kommt nicht darauf an, wie viele Regeln man hat, sondern darauf, die richtigen zur richtigen Zeit zu finden. Ein zufälliges Durcheinander von Regeln hilft nicht; man braucht einen klugen Sucher (den Coach), der die passenden Regeln auswählt.
Fehler sind nützlich: Interessanterweise halfen Regeln, die aus Fehlern gelernt wurden, besonders gut bei Suchaufgaben (z. B. "Was tun, wenn ich das falsche Tool verwende?"). Regeln aus Erfolgen halfen eher bei der Ausführung von Aufgaben.

Fazit

ERL ist wie ein Selbstverbesserungs-System für KI. Es erlaubt dem Computer, aus seinen eigenen Erfahrungen zu lernen, ohne dass man ihn neu programmieren muss. Es verwandelt rohe, chaotische Erfahrungen in klare, anwendbare Weisheiten, die dem Agenten helfen, in der echten Welt sicherer und schlauer zu werden.

Kurz gesagt: Es macht aus einem vergesslichen Roboter einen lernenden Experten.

Each language version is independently generated for its own context, not a direct translation.

Titel: Experiential Reflective Learning (ERL) für selbstverbessernde LLM-Agenten

Veröffentlichung: ICLR 2026 MemAgents Workshop (Illuin Technology)

1. Problemstellung

Große Sprachmodelle (LLMs) haben zwar autonome Agenten ermöglicht, die komplexe Mehrschritt-Aufgaben lösen können, doch diese Systeme leiden unter zwei wesentlichen Mängeln:

Fehlende Anpassungsfähigkeit: Sie können sich schlecht an spezialisierte Umgebungen mit unbekannten Tools oder domänenspezifischen Konventionen anpassen.
Fehlendes Erfahrungslernen: Sie nutzen vergangene Interaktionen nicht effektiv. Jeder neue Auftrag wird „von vorne" bearbeitet, ohne das gesammelte Wissen aus vorherigen Versuchen (Erfolg oder Misserfolg) zu nutzen.

Bestehende Ansätze wie ExpeL oder AutoGuide haben Schwächen:

Sie benötigen oft mehrere Durchläufe pro Aufgabe (Rollouts), was in der Praxis oft unmöglich ist.
Sie fügen alle gesammelten Erkenntnisse in jeden Prompt ein, was zu Ineffizienz und „Context-Clutter" führt, da die Relevanz für die aktuelle Aufgabe nicht geprüft wird.
Das Fine-Tuning ist ressourcenintensiv und für geschlossene Modelle nicht möglich.

2. Methodik: Experiential Reflective Learning (ERL)

ERL ist ein parametrisches, selbstverbesserndes Framework, das auf Erfahrungsgedächtnis und Heuristik-Extraktion basiert. Es besteht aus zwei Hauptphasen:

A. Heuristik-Generierung (Lernphase)

Der Agent führt Aufgaben in einer Umgebung aus und erhält ein binäres Feedback (Erfolg/Misserfolg).
Nach jeder Aufgabe reflektiert ein LLM über den gesamten Verlauf (Trajektorie) und das Ergebnis.
Ziel: Extraktion einer strukturierten Heuristik statt roher Trajektorien.
Eine Heuristik enthält:
1. Analyse: Identifikation der Ursache für Erfolg oder Misserfolg (z. B. falsche Tool-Eingabe).
2. Lernende Richtlinie (Guideline): Eine handlungsorientierte Regel mit expliziten Trigger-Bedingungen und empfohlenen Aktionen (z. B. „Bevor E-Mails gesendet werden, müssen Namen über das Kontakt-Tool in E-Mail-Adressen aufgelöst werden").
Diese Heuristiken werden in einem persistenten Pool gespeichert.

B. Retrieval-Augmented Execution (Testphase)

Bei einer neuen Aufgabe durchsucht der Agent den Heuristik-Pool.
Ein LLM bewertet die gespeicherten Heuristiken basierend auf:
- Ähnlichkeit zur aktuellen Aufgabenbeschreibung.
- Vielfalt der Erfahrungen (Abdeckung verschiedener Szenarien).
- Informationsgehalt der Richtlinie.
Die Top- $k$ (im Paper $k=20$ ) relevantesten Heuristiken werden in den System-Prompt des Agenten injiziert, um die Ausführung zu steuern.
Vorteil: Der Agent erhält kontextspezifische Ratschläge, ohne mit dem gesamten Gedächtnis überflutet zu werden.

3. Schlüsselbeiträge und Innovationen

Einzelversuch-Lernen: ERL benötigt keine wiederholten Rollouts pro Aufgabe, um Kontrastpaare zu bilden. Es lernt effektiv aus einem einzigen Versuch (Single-Attempt).
Abstraktion vs. Rohdaten: Statt rohe Trajektorien als Few-Shot-Beispiele zu verwenden, werden diese in kompakte, übertragbare Heuristiken destilliert. Dies erhöht die Kontexteffizienz und Generalisierbarkeit.
Selektives Retrieval: Das Paper zeigt, dass die Qualität der Auswahl (durch ein LLM) wichtiger ist als die reine Menge der eingefügten Heuristiken.
Unterscheidung nach Ergebnis: Es wird analysiert, ob Heuristiken aus Fehlern oder Erfolgen besser sind. Das Ergebnis ist aufgabenspezifisch: Fehler-Heuristiken helfen besonders bei Suchaufgaben (negatives Lernen), Erfolgs-Heuristiken bei Ausführungsaufgaben (Bestätigung von Mustern).

4. Ergebnisse

Die Evaluation erfolgte auf dem Gaia2-Benchmark (simulierte mobile Umgebung mit 12 Apps und 101 Tools), spezifisch auf den Splits „Search" und „Execution".

Gesamtleistung: ERL erreichte eine Erfolgsrate von 56,1 %.
- Steigerung von +7,8 % gegenüber dem ReAct-Baseline (48,3 %).
- Steigerung von +5,2 % gegenüber dem besten vorherigen Verfahren (ExpeL bei 50,9 %).
Zuverlässigkeit (Reliability):
- Die Metrik pass@3 (Erfolg in mindestens 3 von 3 Läufen) verbesserte sich signifikant (+8,3 % bei Execution, +10,6 % bei Search).
- Dies zeigt, dass ERL die Konsistenz des Agenten erhöht, nicht nur die Fähigkeit, neue Aufgaben zu lösen.
Vergleich mit Few-Shot: Das reine Anhängen roher Trajektorien als Few-Shot-Beispiele verschlechterte die Leistung sogar (-1,9 %), was die Überlegenheit der distillierten Heuristiken beweist.
Retrieval-Methode: Ein LLM-basiertes Retrieval ( $k=20$ ) übertraf sowohl zufällige Auswahl als auch Embedding-basiertes Retrieval (Qwen3-Embedding).
Ablation: Die Nutzung von Heuristiken aus Fehlern allein führte zu den besten Ergebnissen im „Search"-Bereich, während eine Mischung aus Erfolg und Misserfolg für den allgemeinen Einsatz am robustesten war.

5. Bedeutung und Fazit

Das Paper demonstriert, dass Reflexion über einzelne Erfahrungsversuche ausreicht, um Agenten effektiv zu verbessern, ohne Fine-Tuning oder massive Rechenressourcen.

Praktische Relevanz: ERL ist besonders für geschlossene Modelle geeignet, da es keine Gewichtsaktualisierung erfordert. Es ermöglicht eine kontinuierliche Anpassung an neue Tools und Datenbereiche (z. B. neue Kalender-Einträge oder Kontakte).
Zukünftige Richtungen: Die Autoren schlagen vor, Heuristik-Pools durch synthetische Aufgaben zu erweitern und Strategien zur Auflösung widersprüchlicher Richtlinien zu entwickeln.
Erweiterung: Zusätzliche Tests auf dem $\tau^2$ -Bench (Dual-Control-Umgebung) bestätigten die Ergebnisse in Single-Control-Szenarien, zeigten jedoch Grenzen bei der Koordination mit menschlichen Nutzern auf, was als zukünftige Forschungsrichtung identifiziert wurde.

Zusammenfassend bietet ERL einen effizienten Weg, um LLM-Agenten durch strukturiertes Lernen aus Erfahrung robuster und anpassungsfähiger zu machen, indem es rohe Daten in handlungsleitendes Wissen transformiert.