Reinforcement Learning for Self-Improving Agent with Skill Library

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber etwas sturen Assistenten, der dir helfen soll, komplexe Aufgaben zu erledigen – zum Beispiel, eine Reise zu planen, ein Programm zu schreiben oder Geld zu transferieren. Dieser Assistent ist eine Künstliche Intelligenz (KI), die auf einem großen Sprachmodell basiert.

Das Problem ist: Wenn du diesen Assistenten in eine völlig neue Umgebung schickst, ist er oft verloren. Er lernt zwar aus seinen Fehlern, aber er vergisst schnell, was er gelernt hat, oder er wiederholt immer wieder die gleichen Umwege, statt effizient zu arbeiten.

Diese Forscher haben eine Lösung entwickelt, die sie SAGE nennen. Hier ist die Erklärung, wie das funktioniert, ohne Fachchinesisch:

1. Das Problem: Der vergessliche Assistent

Stell dir vor, du lernst Fahrrad fahren. Wenn du heute eine Kurve meisterst, solltest du das morgen auch können. Aber diese KI-Assistenten sind wie jemand, der jeden Tag neu lernt, wie man ein Fahrrad schiebt, anstatt zu fahren. Sie haben kein Gedächtnis für ihre früheren Erfolge.

Frühere Versuche, ihnen ein "Gedächtnis" zu geben (eine Fertigkeiten-Bibliothek), funktionierten nur halb gut. Man musste dem KI-Assistenten ständig neue Anweisungen (Prompts) geben, was ihn verwirrt und unzuverlässig macht. Es war, als würdest du einem Koch ständig sagen: "Nimm jetzt das Messer, dann die Zwiebel", anstatt ihm einfach zu vertrauen, dass er weiß, wie man kocht.

2. Die Lösung: SAGE – Der lernende Meisterkoch

Die Forscher haben SAGE entwickelt. Das ist wie ein spezieller Trainingskurs für den KI-Assistenten, der ihm beibringt, nicht nur Aufgaben zu lösen, sondern eigene Werkzeuge zu bauen.

Hier ist die Analogie des Werkzeugkastens:

Normaler Assistent: Wenn er eine Aufgabe hat (z. B. "Kauf mir ein Geschenk"), sucht er jedes Mal im Internet, liest alle Anleitungen und klickt sich mühsam durch 50 Schritte.
SAGE-Assistent: Er lernt, dass "Geschenk kaufen" eigentlich aus drei Teilen besteht: "Suche", "Vergleiche" und "Bestelle". Er schreibt sich diese drei Schritte als eine eigene Funktion (ein kleines Programm) auf und legt sie in seinen Werkzeugkasten.
Das Ergebnis: Beim nächsten Mal, wenn er ein Geschenk kaufen soll, zieht er einfach das Werkzeug "Geschenk kaufen" aus dem Kasten und führt es in einem Rutsch aus. Das ist viel schneller und braucht weniger Energie.

3. Wie lernt SAGE das? (Die zwei genialen Tricks)

Um diesen Assistenten zu trainieren, nutzen die Forscher zwei clevere Methoden:

A. Die "Kette von Aufgaben" (Sequential Rollout)

Statt den Assistenten nur eine einzelne Aufgabe lösen zu lassen, geben sie ihm eine Kette von ähnlichen Aufgaben.

Beispiel: Stell dir vor, du trainierst einen Sportler. Du gibst ihm nicht nur einen Sprint, sondern drei Sprints hintereinander.
Der Trick: Beim ersten Sprint (Aufgabe 1) lernt der Assistent eine neue Technik und schreibt sie in sein Notizbuch (die Fertigkeiten-Bibliothek). Beim zweiten Sprint (Aufgabe 2) darf er dieses Notizbuch benutzen!
Der Lerneffekt: Wenn der Assistent beim zweiten Sprint erfolgreich ist, weil er das Notizbuch benutzt hat, bekommt er eine Belohnung. Das System lernt dann: "Aha! Das, was ich beim ersten Sprint geschrieben habe, war gut für den zweiten!" So verbindet es die Vergangenheit mit der Zukunft.

B. Die "Doppelte Belohnung" (Skill-integrated Reward)

Normalerweise bekommt ein KI-Assistent nur eine Belohnung, wenn die Aufgabe am Ende erfolgreich ist. Das ist wie bei einem Schüler, der erst eine Note bekommt, wenn das ganze Jahr vorbei ist.
SAGE gibt aber zwei Arten von Belohnungen:

Die Erfolgs-Belohnung: "Du hast die Aufgabe erledigt."
Die Lern-Belohnung: "Du hast eine gute neue Technik erfunden UND du hast sie beim nächsten Mal richtig benutzt."

Das motiviert den Assistenten, nicht nur schnell fertig zu werden, sondern auch kluge Werkzeuge zu bauen, die er später nutzen kann.

4. Das Ergebnis: Schneller, schlauer, effizienter

Als die Forscher SAGE auf einem echten Test (AppWorld, wo KIs mit Apps wie Amazon oder Spotify interagieren müssen) ausprobierten, war das Ergebnis beeindruckend:

Höhere Erfolgsrate: Der Assistent schaffte fast 9 % mehr Aufgaben erfolgreich als die alten Methoden.
Weniger Arbeit: Er brauchte 26 % weniger Schritte (Interaktionen), um fertig zu werden.
Weniger "Gerede": Er produzierte 59 % weniger Text (Tokens). Das bedeutet, er war nicht nur schneller, sondern auch kostengünstiger und effizienter.

Zusammenfassung in einem Satz

Statt einen KI-Assistenten zu zwingen, jede Aufgabe immer wieder von vorne zu erfinden, hat SAGE ihm beigebracht, sich seine eigenen Rezepte zu schreiben und diese in einem Werkzeugkasten zu speichern, damit er bei ähnlichen Aufgaben in Zukunft blitzschnell und fehlerfrei arbeiten kann.

Es ist der Unterschied zwischen einem Handwerker, der jedes Mal sein Werkzeug neu schmiedet, und einem Meister, der einen gut organisierten Werkzeugkasten hat und weiß, welches Werkzeug er wann braucht.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Reinforcement Learning for Self-Improving Agent with Skill Library" auf Deutsch:

Titel: Reinforcement Learning für selbstverbessernde Agenten mit einer Skill-Bibliothek

Autoren: Jiongxiao Wang et al. (University of Wisconsin–Madison & AWS Agentic AI)

1. Problemstellung

Große Sprachmodelle (LLMs) als Agenten haben beeindruckende Fähigkeiten in komplexem reasoning und Multi-Turn-Interaktionen gezeigt. Dennoch stoßen sie bei der kontinuierlichen Verbesserung und Anpassung in neuen Umgebungen nach dem Deployment an Grenzen.

Herausforderung: Herkömmliche Ansätze zur Selbstverbesserung nutzen oft Skill-Bibliotheken, die jedoch primär auf Prompting (manuell gestaltete Anweisungen) basieren. Dies führt zu inkonsistenten Ergebnissen und ist stark von den Anweisungsfolgefähigkeiten des Basis-Modells abhängig.
Limitierung bestehender RL-Methoden: Reinforcement Learning (RL) verbessert zwar die Leistung, ist aber oft auf spezifische Trainingsszenarien beschränkt. Agenten können gesammelte Erfahrungen nicht effektiv in wiederverwendbare Fähigkeiten (Skills) überführen, die für zukünftige, ähnliche Aufgaben genutzt werden können.

2. Methodik: SAGE Framework

Die Autoren schlagen SAGE (Skill Augmented GRPO for self-Evolution) vor, ein neuartiges RL-Framework, das Skill-Bibliotheken systematisch in den Lernprozess integriert.

A. Skill-Library Agent

Statt Skills erst nach Abschluss einer Aufgabe zu definieren, verwendet der Agent ein einheitliches Format für Aufgabenlösung und Skill-Generierung:

Der Agent interagiert mit der Umgebung über API-Aufrufe.
Anstatt APIs direkt mehrfach aufzurufen, generiert der Agent programmatische Funktionen (Skills), speichert diese in einer Bibliothek und ruft sie bei Bedarf auf.
Dies ermöglicht die Komprimierung komplexer Aktionssequenzen in wiederverwendbare Operationen.

B. Sequential Rollout (Sequentielle Rollout)

Ein Kernbestandteil von SAGE ist die Ausbildung an einer Kette ähnlicher Aufgaben statt an einzelnen Beispielen:

Der Agent durchläuft eine Sequenz von Aufgaben (z. B. $q_1, q_2$ ) innerhalb desselben Szenarios.
Skills, die in der ersten Aufgabe ( $q_1$ ) generiert werden, werden in der Bibliothek gespeichert und stehen sofort für die zweite Aufgabe ( $q_2$ ) zur Verfügung.
Dies ermöglicht es dem RL-Algorithmus, Belohnungen aus der erfolgreichen Wiederverwendung von Skills in späteren Aufgaben zurück auf die Generierung dieser Skills in früheren Aufgaben zu propagieren.

C. Skill-integrated Reward (In Skill integrierte Belohnung)

Um die Generierung und Nutzung von Skills zu fördern, wird die Belohnungsfunktion erweitert:

Outcome-based Reward: Die klassische Belohnung für das erfolgreiche Abschließen einer Aufgabe.
Skill-Generierungs-Bonus: Zusätzliche Belohnung, wenn ein Skill in einer frühen Aufgabe erfolgreich generiert wird und in einer nachfolgenden Aufgabe genutzt wird.
Skill-Nutzungs-Bonus: Zusätzliche Belohnung für die effektive Anwendung bereits existierender Skills.
Dies stellt sicher, dass das Modell nicht nur die Aufgabe löst, sondern auch effiziente, wiederverwendbare Module entwickelt.

D. Trainingspipeline

Supervised Fine-Tuning (SFT): Da Open-Source-Modelle Schwierigkeiten haben, das neue Skill-Format durch reines Prompting zu lernen, wird zunächst ein SFT mit hochwertigen Trajektorien durchgeführt (generiert durch ein fortgeschrittenes Modell wie Claude 3.5 Sonnet).
RL mit SAGE: Auf Basis des SFT-Modells wird das GRPO (Group Relative Policy Optimization) mit den oben genannten Komponenten (Sequential Rollout und Skill-integrated Reward) angewendet.

3. Key Contributions (Hauptbeiträge)

SAGE Framework: Ein neues RL-Framework, das Skill-Bibliotheken nahtlos in den Trainingsprozess integriert, anstatt sie nur als Nachbearbeitung zu nutzen.
Sequential Rollout: Eine Methode, bei der Agenten an Ketten ähnlicher Aufgaben trainiert werden, um den Transfer von Skills innerhalb eines Szenarios zu ermöglichen.
Skill-integrated Reward: Eine innovative Belohnungsstruktur, die explizit die Qualität der Skill-Generierung und deren erfolgreiche Wiederverwendung belohnt.
Unified Format: Die Vereinheitlichung von Aufgabenlösung und Skill-Definition in einem einzigen Programmformat (Code-Generierung), was die Konsistenz im Vergleich zu Prompting-Ansätzen erhöht.

4. Ergebnisse

Die Methode wurde auf dem AppWorld-Datensatz evaluiert, bei dem Agenten komplexe Aufgaben durch API-Aufrufe und Programmlogik lösen müssen.

Leistung (Accuracy):
- SAGE erreicht auf dem Test-Normal-Datensatz eine Scenario Goal Completion (SGC) von 60,7 % (im Vergleich zu 51,8 % bei reinem GRPO ohne Skill-Bibliothek).
- Dies entspricht einer Steigerung von 8,9 % gegenüber dem besten RL-Baseline ohne Skill-Bibliothek.
- Die Task Goal Completion (TGC) liegt bei 72,0 %.
Effizienz:
- Der Ansatz benötigt 26 % weniger Interaktionsschritte (durchschnittlich 12,1 vs. 16,4).
- Die Anzahl der generierten Tokens sinkt um 59 % (durchschnittlich 1.475 vs. 3.613), was auf die effiziente Wiederverwendung von Skills zurückzuführen ist.
Vergleich: SAGE übertrifft sowohl prompt-basierte Ansätze als auch RL-Methoden ohne Skill-Bibliothek signifikant. Interessanterweise übertrifft das mit SAGE trainierte Open-Source-Modell (Qwen2.5-32B) sogar die Leistung des Expert-Modells (Claude), das die Trainingsdaten generiert hat.

5. Signifikanz und Fazit

Das Paper demonstriert, dass Reinforcement Learning in Kombination mit einer Skill-Bibliothek die Fähigkeit von Agenten zur kontinuierlichen Selbstverbesserung erheblich steigern kann.

Skalierbarkeit: Durch die Komprimierung von Aktionen in Skills können Agenten komplexe Aufgaben effizienter lösen.
Generalisierung: Die Fähigkeit, Skills über ähnliche Aufgaben hinweg zu übertragen, macht Agenten robuster in neuen Umgebungen.
Praktische Anwendung: Die Ergebnisse zeigen, dass Open-Source-Modelle durch gezieltes RL-Training mit Skill-Bibliotheken in der Lage sind, Expertenniveau zu erreichen und sogar zu übertreffen, was die Kosten für den Einsatz von proprietären Modellen senken könnte.

Zusammenfassend bietet SAGE einen vielversprechenden Weg, um LLM-Agenten von statischen Ausführenden zu dynamischen, lernfähigen Systemen weiterzuentwickeln, die ihr Wissen strukturiert speichern und wiederverwenden können.