Internalizing Agency from Reflective Experience

Each language version is independently generated for its own context, not a direct translation.

🌟 Die Idee: Vom "Glücksritter" zum "Lernenden Meister"

Stell dir vor, du hast einen sehr klugen Roboter, der Aufgaben lösen soll – zum Beispiel einen komplexen Code schreiben oder in einem Videospiel einen Schatz finden.

Bisher haben wir diese Roboter oft so trainiert, wie man ein Kind für eine Prüfung lernt: Nur das Endergebnis zählt.

Der alte Weg (wie GRPO): Der Roboter versucht eine Aufgabe 100 Mal. Wenn er am Ende erfolgreich ist, bekommt er einen "Goldstern". Wenn er scheitert, bekommt er nichts.
Das Problem: Der Roboter lernt nur, die einen Wege zu wiederholen, die zufällig funktioniert haben. Er wird ein "Glücksritter", der immer wieder denselben Pfad beschreitet. Wenn er aber auf eine neue, unbekannte Hürde stößt, weiß er nicht, wie er sich retten soll. Er hat nicht gelernt, warum er gescheitert ist, sondern nur, dass er "nicht gewonnen" hat.

LEAFE (Learning Feedback-Grounded Agency from Reflective Experience) ist wie ein neuer, smarterer Lehrer. Er sagt dem Roboter: "Stopp! Du bist gerade in die falsche Richtung gelaufen. Lass uns zurückgehen, schauen, was schiefgelaufen ist, und einen neuen Weg versuchen."

🎮 Die Analogie: Das Videospiel mit "Rückwärts-Schritt"

Stell dir vor, du spielst ein schwieriges Videospiel (wie Sokoban oder ein Programmier-Puzzle).

Der alte Weg (Outcome-Driven):
Du spielst das Level 100 Mal. Jedes Mal, wenn du stirbst, startest du das Level komplett neu. Wenn du endlich gewinnst, freust du dich. Aber beim nächsten Mal, wenn du wieder an derselben Stelle steckst, weißt du immer noch nicht, warum du gestorben bist. Du versuchst einfach blind weiter, bis du vielleicht wieder Glück hast. Das ist ineffizient und teuer.
Der LEAFE-Weg (Reflective Experience):
Du spielst das Level. Plötzlich stürzt du ab.
- Schritt 1: Die Pause (Reflection): Der Roboter sagt: "Moment mal. Ich bin gerade in eine Falle gelaufen, weil ich zu früh nach links gegangen bin."
- Schritt 2: Der Rückwärtsschritt (Rollback): Statt das Spiel komplett neu zu starten, springt der Roboter genau an den Punkt zurück, bevor er den Fehler gemacht hat.
- Schritt 3: Der neue Versuch: Der Roboter denkt: "Okay, ich weiß jetzt, dass Links falsch war. Ich gehe stattdessen nach Rechts." Und Bingo – er schafft es!

Der Clou: LEAFE speichert diese Erfahrung nicht nur als "Notiz", sondern baut sie direkt in das Gehirn des Roboters ein.

🧠 Wie funktioniert das? (Die zwei Phasen)

Das Papier beschreibt einen zweistufigen Prozess, den man sich wie das Training eines Sportlers vorstellen kann:

Phase 1: Das Training mit Rückspul-Taste (Exploration & Rollback)

Während des Trainings darf der Roboter Fehler machen. Aber sobald er merkt, dass er auf dem falschen Weg ist, wird er zurückgesetzt (Rückspulen).

Er analysiert den Fehler: "Warum bin ich hier steckengeblieben?"
Er probiert eine andere Lösung aus.
Er sammelt so eine Sammlung von "Was schiefging und wie man es reparierte". Das ist wie ein Tagebuch der Fehler und Lösungen.

Phase 2: Das Einbrennen ins Gehirn (Distillation)

Jetzt kommt der magische Teil. Der Roboter lernt aus diesem Tagebuch, aber ohne dass er im echten Leben (wenn er später eingesetzt wird) erst wieder zurückspulen muss.

Der Roboter schaut sich die korrigierten Lösungen an und sagt: "Aha! Wenn ich in Situation X stecke, muss ich automatisch Aktion Y machen, ohne erst lange nachzudenken."
Er internalisiert (verinnerlicht) diese Fähigkeit. Er wird nicht nur besser darin, das eine Mal zu gewinnen, sondern er lernt, sich aus fast jeder misslichen Lage selbst zu retten.

🚀 Warum ist das so wichtig?

Stell dir vor, du musst eine Reise planen.

Der alte Roboter ist wie jemand, der nur die eine Route kennt, die er einmal erfolgreich gefahren ist. Wenn eine Straße gesperrt ist, bleibt er stehen.
Der LEAFE-Roboter ist wie ein erfahrener Navigator. Er hat gelernt, wie man bei Staus, Baustellen oder Unfällen umleitet.

Das Ergebnis:

Der Roboter wird nicht nur öfter beim ersten Versuch erfolgreich (Pass@1).
Viel wichtiger: Er wird viel besser darin, komplexe Probleme zu lösen, wenn man ihm viele Versuche erlaubt (Pass@128). Er deckt einfach mehr Möglichkeiten ab und findet Lösungen, wo andere aufgeben.

💡 Zusammenfassung in einem Satz

LEAFE ist wie ein Lehrer, der einem Schüler nicht nur sagt "Das war falsch", sondern ihn zurückversetzt, ihm zeigt, wie man den Fehler korrigiert, und ihn dann so lange üben lässt, bis er diese Korrektur automatisch und intuitiv beherrscht – ohne dass er im echten Leben erst wieder zurückspulen muss.

Das macht KI-Agenten robuster, flexibler und fähiger, in der echten Welt mit ihren vielen Fehlern und Hindernissen zurechtzukommen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Sprachmodelle (LLMs) werden zunehmend als autonome Agenten eingesetzt, die in komplexen Umgebungen planen, handeln und sich von Fehlern erholen müssen. Der aktuelle Stand der Technik für das Nachtrainieren (Post-Training) von Agenten basiert häufig auf ergebnisorientiertem Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), wie z. B. GRPO (Group Relative Policy Optimization).

Die zentralen Schwächen dieser Ansätze sind:

Verlust von Feedback-Informationen: RLVR reduziert den gesamten Interaktionsverlauf (inkl. detaillierter Fehlermeldungen, Compiler-Fehler oder falscher Zustandsübergänge) auf ein einziges skalares Erfolgssignal am Ende (Success/Fail).
Verteilungsverengung (Distribution Sharpening): Da nur erfolgreiche Trajektorien belohnt werden, konzentriert sich die Politik auf eine kleine Menge bereits erfolgreicher Verhaltensweisen. Dies verbessert zwar die Erfolgsrate bei einem einzigen Versuch (Pass@1), führt aber zu stagnierenden oder sogar sinkenden Ergebnissen bei großen Stichprobenbudgets (Pass@k für großes k).
Mangelnde innere Erholungsfähigkeit: Die Agenten lernen nicht, wie sie Fehler während des Prozesses erkennen und korrigieren sollen. Stattdessen verlassen sie sich auf teure Testzeit-Berechnungen (z. B. wiederholtes Sampling, Tree-of-Thoughts-Suche), um aus Fehlern herauszukommen.

Das Paper identifiziert eine Lücke zwischen „Verteilungsverengung" und der Internalisierung von Agency: Die Fähigkeit des Modells, strukturiertes Feedback zu interpretieren, Reflexion zu betreiben und Entscheidungen gezielt zu revidieren, ohne externe Suchmechanismen zu benötigen.

2. Methodik: LEAFE Framework

Das vorgeschlagene Framework LEAFE (Learning Feedback-Grounded Agency from Reflective Experience) ist ein zweistufiger Ansatz, der das Modell befähigt, Feedback aus der Erfahrung zu internalisieren.

Stufe 1: Baum-basierte Erfahrungsgenerierung mit Rollback (Tree-Based Experience Generation with Rollback)

In dieser Phase wird das Modell dazu gebracht, aktiv Fehler zu analysieren und alternative Pfade zu erkunden:

Periodische Reflexion: Während der Exploration (Rollouts) überprüft das Agent-Modell regelmäßig seine Interaktionshistorie.
Rollback-Punkt (τ): Das Modell identifiziert einen suboptimalen Entscheidungspunkt in der Vergangenheit, an dem der Pfad schiefgelaufen ist.
Erfahrungs-Summarisierung (e): Das Modell generiert eine natürliche Sprachzusammenfassung des Problems („Diagnose") und eine handlungsorientierte Korrekturstrategie.
Verzweigung (Branching): Das System setzt den Zustand auf den Zeitpunkt τ zurück (Rollback) und führt den Pfad mit der neuen, durch die Erfahrung geleiteten Aktion ( $a'_\tau$ ) fort.
Ergebnis: Es entstehen Trajektorien mit der Struktur: Fehler → Rollback → Korrektur → Erfolg. Diese Daten bilden eine „Counterfactual Dataset" (D_cf), die zeigt, wie ein Fehler behoben werden kann.

Stufe 2: Erfahrung-Distillation (Experience Distillation)

In dieser Phase wird das Gelernte in die Modellgewichte integriert, sodass das Modell diese Fähigkeiten auch ohne explizite Reflexionsschritte im Testbetrieb anwenden kann.

Zwei Verlustfunktionen:
1. Verhaltens-Rehearsal ( $L_{reh}$ ): Das Modell lernt aus erfolgreichen Trajektorien (inkl. der korrigierten Pfade), um die grundlegende Aufgabenlösungsfähigkeit zu erhalten und Katastrophales Vergessen zu vermeiden.
2. Erfahrung-zu-Politik-Distillation ( $L_{cf}$ ): Dies ist der Kernbeitrag. Das Modell wird darauf trainiert, die korrigierte Aktion ( $a'_\tau$ ) vorherzusagen, basierend nur auf der ursprünglichen Historie ( $h_\tau$ ) und der Aufgabe ( $q$ ), ohne die explizite Erfahrungszusammenfassung ( $e$ ) als Eingabe.
Ziel: Das Modell internalisiert die Fähigkeit, Fehler selbstständig zu erkennen und zu korrigieren. Die „Korrekturlogik" wird Teil der internen Politik, nicht nur ein Kontext-Add-on.

3. Wichtige Beiträge

Strukturierte Exploration durch Feedback-zu-Erfahrung: LEAFE wandelt skalare Signale in erfahrungsgesteuerte Verzweigungen um (Rollback + Korrektur), was eine gezielte Exploration jenseits der dominanten Modi der Basis-Politik ermöglicht.
Reichhaltigere Supervision als skalare Belohnungen: Anstatt jedes Rollout als unabhängige Stichprobe zu behandeln, liefert LEAFE entscheidungsspezifische Supervision (Reflexion → Revision), die genau angibt, wo ein Fehler auftrat und wie er zu beheben ist.
Internalisierte Erholung verbessert Pass@k: Durch das Fine-Tuning auf post-Rollback-Aktionen wird die feedback-basierte Agency in die Modellgewichte integriert. Dies erweitert den Verhaltensraum und verbessert signifikant die Pass@k-Metriken (bis zu +14% bei Pass@128), ohne die Latenz durch Testzeit-Sampling zu erhöhen.

4. Ergebnisse

Die Evaluation erfolgte auf einer Vielzahl von Agenten-Benchmarks, darunter CodeContests, WebShop, ALFWorld, ScienceWorld und Sokoban, unter Verwendung von Qwen2.5- und Llama-3-Modellen.

Überlegenheit bei Pass@k: Während RLVR-Methoden (wie GRPO) oft Pass@1 verbessern, stagnieren sie bei großen Stichprobenbudgets (Pass@128). LEAFE zeigt konsistent höhere Pass@128-Werte (z. B. +14% auf CodeContests im Vergleich zur Basis).
Skalierbarkeit: Die Leistung von LEAFE skaliert besser mit der Anzahl der Samples (k) als Baselines, was auf eine echte Erweiterung der Fähigkeiten des Modells hindeutet, nicht nur auf eine Verengung der Verteilung.
Out-of-Distribution (OOD) Generalisierung: Auf dem MBPP-Datensatz (nach Training auf CodeContests) behielt LEAFE seine Leistung bei, während GRPO signifikante Einbußen zeigte. Dies deutet darauf hin, dass LEAFE fundamentale Reflexionsfähigkeiten lernt und nicht nur Datensatz-spezifische Abkürzungen auswendig lernt.
Effizienz: LEAFE erreicht mit weniger Samples die gleiche Erfolgsrate wie Baselines und dominiert die Skalierungskurve bei höheren Budgets.

5. Bedeutung und Fazit

Das Paper demonstriert, dass die reine Optimierung auf finale Erfolgssignale (RLVR) für langfristige Interaktionen unzureichend ist, da sie die wertvollen Informationen aus Fehlermeldungen und Zwischenschritten vernachlässigt.

LEAFE stellt einen Paradigmenwechsel dar:

Statt externe Suchalgorithmen (wie Tree of Thoughts) zur Fehlerbehebung zu nutzen, wird die Fähigkeit zur Selbstkorrektur in das Modell selbst trainiert.
Dies reduziert die Abhängigkeit von rechenintensiven Testzeit-Strategien und macht Agenten robuster in dynamischen Umgebungen.
Die Methode zeigt, dass die Internalisierung von „Reflexive Experience" (Reflexive Erfahrung) die effektive Kapazitätsgrenze von LLM-Agenten erweitert und sie besser in der Lage macht, mit Feedback umzugehen und sich anzupassen.

Zusammenfassend bietet LEAFE einen praktischen Weg, um Agenten zu entwickeln, die nicht nur „richtig antworten", sondern auch lernen, wie sie sich von Fehlern erholen und komplexe, langfristige Aufgaben erfolgreich abschließen können.