From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie möchten einen sehr intelligenten digitalen Assistenten trainieren, der komplexe Aufgaben erledigen kann – zum Beispiel Flugtickets ändern, Bestellungen aufgeben oder Telefonpläne verwalten. Das Problem ist: Diese Assistenten müssen nicht nur Befehle ausführen, sondern auch mehrmals mit einem echten Menschen sprechen, auf dessen Antworten reagieren und dabei oft Werkzeuge (wie Datenbanken oder APIs) nutzen.

Das Training solcher Assistenten ist normalerweise wie das Lehren eines Kindes durch ständiges Vorlesen von Lehrbüchern, die von teuren Experten geschrieben wurden. Das ist langsam und teuer.

Diese Forschungsarbeit stellt eine völlig neue Methode vor, die man sich wie einen selbstlernenden Robotergarten vorstellen kann. Hier ist die Erklärung in einfachen Schritten:

1. Der selbstentwickelnde Daten-Gärtner (AReaL-SEA)

Statt dass Menschen stundenlang Szenarien für den Assistenten schreiben, bauen die Forscher einen multi-agentischen Garten (AReaL-SEA).

Der Gärtner (Meta-Planer): Dieser "Gärtner" plant, welche Art von Aufgaben der Assistent üben soll (z. B. "Ein Kunde will stornieren, ist aber wütend").
Die Arbeiter (Synthese-Agenten): Diese erstellen automatisch tausende von Übungsszenarien.
Die Prüfer (Verifikatoren): Das ist der Clou: Jeder erzeugte Testfall kommt mit einem automatischen Prüfschalter. Ein weiterer Roboter schaut sich an: "Hat der Assistent die Aufgabe wirklich gelöst? Oder hat er nur geblufft?"
Der Kreislauf des Lernens: Wenn ein Szenario schlecht war oder der Prüfer Fehler fand, lernt der "Gärtner" daraus. Er passt seine Pläne an, um das nächste Mal bessere Aufgaben zu erstellen. Es ist, als würde ein Koch, der eine Suppe kocht, sie probieren, feststellen, dass sie zu salzig ist, und beim nächsten Mal automatisch weniger Salz nehmen – ohne dass ein Mensch eingreifen muss.

2. Der Simulator für den "Menschen" (User Model)

Ein großes Problem beim Training ist: Der Assistent muss mit einem "Menschen" interagieren. Aber wer spielt den Menschen?
Normalerweise nutzen Forscher einfache Computerprogramme, die oft dumm sind oder sich seltsam verhalten (z. B. plötzlich die Sprache wechseln oder falsche Werkzeuge benutzen). Das verwirrt den Assistenten.

Die Lösung der Forscher:

Sie nehmen einen kleinen, schlauen Assistenten und trainieren ihn speziell darauf, ein glaubwürdiges menschliches Gegenüber zu spielen.
Die Analogie: Stellen Sie sich vor, Sie trainieren einen Schauspieler (den Assistenten). Wenn Ihr Trainingspartner (der "Mensch") starr wie eine Puppe ist, lernt der Schauspieler nichts. Aber wenn der Partner ein guter Schauspieler ist, der spontan reagiert, wird der Hauptdarsteller viel besser. Die Forscher haben also erst ihren "Mensch-Simulator" perfekt trainiert, bevor sie den eigentlichen Assistenten trainiert haben.

3. Das Belohnungssystem (Verifiable-Reward RL)

Jetzt kommt das eigentliche Training des Assistenten durch Bestrafung und Belohnung (Reinforcement Learning).

Das Problem: In einer echten Unterhaltung gibt es keine klare "Richtige Antwort". Wenn der Assistent einen Fehler macht, weil der "Mensch" (Simulator) ihn verwirrt hat, bekommt der Assistent fälschlicherweise eine Strafe. Das ist wie ein Schüler, der eine Matheaufgabe richtig löst, aber vom Lehrer bestraft wird, weil der Lehrer die Aufgabe falsch verstanden hat.
Die Lösung: Da jeder Testfall einen automatischen Prüfschalter hat (siehe Punkt 1), weiß das System am Ende genau: "Hat der Assistent das Ziel erreicht?" (z. B. "Ist das Ticket wirklich storniert?").
Die Methode: Das System nutzt eine Technik namens GRPO. Man stelle sich vor, der Assistent spielt eine Aufgabe 8-mal. Wenn er 7-mal scheitert und 1-mal Erfolg hat, lernt er aus dem Unterschied. Wichtig ist: Das System filtert heraus, wenn alle Versuche gleich schlecht oder gleich gut waren, denn dann gibt es nichts zu lernen. Es konzentriert sich nur auf die Fälle, in denen es eine echte Herausforderung gab.

Das Ergebnis

Am Ende haben die Forscher Modelle getestet, die auf echten Benchmarks (wie Flugbuchung oder Telekommunikation) besser oder genauso gut abschneiden wie die teuersten, geschlossenen Modelle von Firmen wie OpenAI oder Google.

Zusammenfassend:
Statt teure menschliche Trainer zu bezahlen, haben die Forscher ein selbstverbesserndes Labor gebaut. Dort erstellen Roboter ihre eigenen Übungsaufgaben, prüfen sie automatisch, spielen die Rolle des Kunden so gut wie möglich und trainieren den Assistenten so lange, bis er perfekt ist. Es ist der Weg vom "Lernen durch Auswendiglernen" zum "Lernen durch selbstständiges Üben und Feedback".

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents" auf Deutsch.

1. Problemstellung

Interaktive Agenten, die Werkzeuge (Tools/APIs) nutzen, müssen komplexe reale Aufgaben durch Mehr-Turn-Interaktionen mit Menschen und externen Umgebungen lösen. Dies erfordert nicht nur die Ausführung von Werkzeugen, sondern auch das Verfolgen von Dialogzuständen und das Befolgen komplexer Anweisungen.

Das Paper identifiziert zwei Hauptengpässe beim Nachtrainieren (Post-Training) solcher Agenten:

Skalierbarkeit von Daten: Hochwertige Trainingsdaten für mehrstufige Werkzeug-Nutzung sind schwer zu beschaffen. Menschliche Annotation ist teuer und zeitaufwendig. Automatische Synthese ist schwierig, da sie komplexe Domänenregeln einhalten muss und gleichzeitig einen simulierten Benutzer mit kohärenten Anweisungen und privaten Details erzeugen muss.
Instabilität beim Reinforcement Learning (RL): Da interaktive Aufgaben einen Benutzer erfordern, der die Konversation vorantreibt, muss das RL-Training einen Benutzersimulator integrieren. Dies führt zu nicht-deterministischen Dynamiken. Off-the-shelf Open-Weight-Modelle zeigen oft instabiles Verhalten beim Simulieren von Werkzeug-nutzenden Benutzern (z. B. ignorieren sie Anweisungen oder nutzen falsche Tools). Dies erzeugt verrauschte Trainingssignale und verschlechtert die Effizienz des RL-Trainings.

2. Methodik

Die Autoren schlagen einen einheitlichen Rahmen vor, der selbst-evolvierende synthetische Daten mit verifizierbarem Reward-RL kombiniert. Das System besteht aus zwei Hauptkomponenten:

A. AReaL-SEA: Selbst-evolvierender Daten-Synthese-Framework

AReaL-SEA ist eine hierarchische Multi-Agenten-Engine, die Trainingsdaten und Verifizierer autonom generiert.

Meta-Planning: Ein Meta-Planer-LLM generiert eine diversifizierte Menge von Synthese- und Evaluierungsplänen, die verschiedene Domänen, Komplexitätsstufen und Interaktionsstile abdecken.
Agenten-Pipeline:
- Aufgabensynthese: Ein Agent erstellt strukturierte Aufgaben (Benutzeranweisung, Spezifikation, erwartete Antwort).
- Aufgabenverifizierung: Ein separater Agent filtert Aufgaben basierend auf Qualitätskriterien.
- Trajektorien-Rollout: Simulierte Interaktionen zwischen einem Assistant-Agent und einem User-Simulator erzeugen vollständige Dialog-Trajektorien.
- Trajektorienverifizierung: Ein Verifizierer prüft den Erfolg der Trajektorie und weist Fehlerursachen zu (schlechte Aufgabe vs. schlechte Ausführung).
Selbst-Evolution (Reflection Loop): Fehlerfälle werden analysiert, um die Synthese- und Evaluierungspläne iterativ zu verbessern. Dies schließt den Kreislauf, sodass das System aus eigenen Fehlern lernt und die Datenqualität sowie die Zuverlässigkeit der Verifizierer (Checkers) stetig steigt.

B. Reinforcement Learning (RL) Rezept für Interaktive Agenten

Basierend auf den synthetischen Daten wird ein spezielles RL-Verfahren entwickelt:

Feinabstimmung des Benutzersimulators (User Model Fine-tuning): Ein kritischer Schritt ist das SFT (Supervised Fine-Tuning) des Benutzersimulators auf den von AReaL-SEA generierten Dialogen. Dies stellt sicher, dass der Simulator stabilen, instruktionsfolgenden Verhalten zeigt und keine verrauschten Signale für den Agenten erzeugt.
GRPO-basiertes Training: Es wird Group Relative Policy Optimization (GRPO) verwendet.
- Trajektorien-Level Advantage: Für jede Aufgabe werden mehrere Trajektorien gesampelt. Der Vorteil wird relativ zur Gruppe normalisiert.
- Dynamisches Filtern: Aufgaben, bei denen alle gesampelten Trajektorien gleich erfolgreich oder gleich fehlgeschlagen sind (kein Lernsignal), werden aus dem Batch gefiltert.
- Verifizierer-basierte Rewards: Der Reward ist binär und basiert auf der Ausführung eines prozeduralen Verifizierers, der den Endzustand der Trajektorie mit dem Ground-Truth-Vergleicht.

3. Wichtige Beiträge

AReaL-SEA: Ein System zur selbst-evolvierenden Synthese von verifizierbaren, komplexen und hochwertigen Trainingsinstanzen für mehrstufige Werkzeug-Nutzung, das menschliche Annotation weitgehend ersetzt.
Stabilisiertes RL-Rezept: Ein neuer Ansatz für interaktive Tool-Use-Agenten, der die Feinabstimmung des Benutzersimulators, Large-Batch-Training zur Minimierung von Varianz, dynamisches Sampling und verifizierer-basierte Outcome-Rewards kombiniert.
State-of-the-Art Ergebnisse: Umfassende Evaluation auf dem $\tau^2$ -Bench, die zeigt, dass vollständig open-weight Modelle (Qwen3-Familie) durch diesen Ansatz die Leistung proprietärer Frontier-Modelle (wie GPT-5, Claude, Gemini) erreichen oder übertreffen.

4. Ergebnisse

Die Evaluation erfolgte auf dem $\tau^2$ -Bench in drei Domänen: Airline (Flugbuchung), Retail (E-Commerce) und Telecom (Mobilfunkverwaltung).

Leistungsgewinne:
- Auf dem Telecom-Datensatz erreichte das feinabgestimmte Qwen3-235B-Modell mit RL eine Pass@1 Rate von 98,3 %, was den besten gemeldeten Werten entspricht und Frontier-Modelle (z. B. Gemini 3.0 Pro, GPT-5) übertrifft.
- Im Airline-Bereich erreichte das Modell 73,0 % Pass@1, was ebenfalls mit den besten proprietären Modellen mithält.
- Der Übergang von SFT zu RL brachte konsistente Verbesserungen (z. B. im Telecom-Bereich von 85,4 % auf 95,6 % Pass@1 für das 30B-Modell).
Mix-Training: Ein Modell, das auf gemischten Daten aller drei Domänen trainiert wurde, zeigte starke Generalisierungsfähigkeiten und erreichte eine durchschnittliche Pass@1 von 81,3 %, was über den Ergebnissen von Qwen3-Max-Thinking und GPT-5 lag.
Ablationsstudien:
- Die Qualität des Benutzersimulators ist entscheidend: Training mit einem nicht-feinabgestimmten Simulator führte zu einem Leistungsabfall (von 95,6 % auf 75,6 %), da Fehler des Benutzers fälschlicherweise dem Agenten als Misserfolg angerechnet wurden.
- Dynamisches Filtern und große Batch-Größen im RL-Training waren essenziell für stabile Lernsignale.
- Der selbst-evolvierende Datenprozess (mit Validierung und Evolution) war überlegen gegenüber rein manueller Prompt-Engineering oder statischer Synthese.

5. Bedeutung und Ausblick

Das Paper demonstriert einen skalierbaren Pfad zur Entwicklung leistungsfähiger, interaktiver Tool-Use-Agenten ohne teure menschliche Annotation.

Skalierbarkeit: Durch die Kombination aus selbst-evolvierenden Daten und verifizierbaren Rewards wird die Abhängigkeit von menschlichen Experten reduziert.
Reproduzierbarkeit: Die Nutzung von Open-Weight-Modellen (Qwen3) und die Offenlegung von Code/Daten ermöglichen die Reproduzierbarkeit und Weiterentwicklung durch die Community.
Sicherheit: Die Autoren betonen, dass die Nutzung von Verifizierern und die Beschränkung auf kontrollierte Benchmark-Umgebungen Risiken minimieren, warnen aber vor Missbrauchspotenzial bei der Automatisierung schädlicher Workflows.

Zusammenfassend zeigt die Arbeit, dass die Kombination aus hochqualitativer, synthetischer Datengenerierung und stabilisiertem Reinforcement Learning ein effektiver Mechanismus ist, um LLMs in komplexe, mehrstufige Agenten-Systeme zu verwandeln, die in realen Szenarien bestehen können.

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

1. Der selbstentwickelnde Daten-Gärtner (AReaL-SEA)

2. Der Simulator für den "Menschen" (User Model)

3. Das Belohnungssystem (Verifiable-Reward RL)

Das Ergebnis

1. Problemstellung

2. Methodik

A. AReaL-SEA: Selbst-evolvierender Daten-Synthese-Framework

B. Reinforcement Learning (RL) Rezept für Interaktive Agenten

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem