From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar nog wat onervaren assistent hebt die je helpt met complexe taken, zoals het boeken van vluchten, het regelen van een telefoonabonnement of het terugbetalen van een bestelling. Deze assistent moet niet alleen slim zijn, maar ook goed kunnen praten met jou (de klant) en werken met externe systemen (zoals databases of betaalplatforms).

Het probleem is: hoe leer je zo'n assistent dit allemaal zonder dat je duizenden mensen urenlang moet laten oefenen? Dat is duur en traag.

De auteurs van dit paper hebben een slimme oplossing bedacht die ze AReaL-SEA noemen. Laten we het uitleggen alsof we een kokkerelende keuken hebben.

1. De Probleemstelling: De "Oefenkeuken" is te duur

Normaal gesproken leer je een kok (de AI-assistent) door hem duizenden recepten te geven die door echte chefs (mensen) zijn geschreven. Maar voor complexe taken (zoals "boek een vlucht, maar de klant is boos en wil een vergoeding") zijn er geen receptenboeken. Je moet ze zelf bedenken.

Moeilijkheid 1: Het is heel lastig om genoeg goede "oefenopdrachten" te maken.
Moeilijkheid 2: Als je de assistent laat oefenen met een simpele computer die doet alsof hij een klant is, kan die computer soms gek doen. Dan denkt de assistent dat hij iets goed heeft gedaan, terwijl de "klant" eigenlijk een fout heeft gemaakt. De assistent leert dan de verkeerde dingen.

2. De Oplossing: De Zelf-verbeterende Keuken (AReaL-SEA)

In plaats van te wachten op mensen om recepten te schrijven, bouwen ze een robot-keuken die zichzelf verbetert.

De Chef-kok (De Data Agent): Deze robot bedenkt zelf nieuwe, moeilijke scenario's. "Wat als de klant zijn paspoort kwijt is en boos wordt?"
De Kwaliteitscontroleur (De Verifier): Deze robot kijkt niet alleen of het antwoord klopt, maar controleert ook of het recept (de opdracht) zelf goed is.
De Zelf-reflectie: Als de robot ziet dat een opdracht te makkelijk was of dat de controleur zich vergiste, past hij zijn eigen instructies aan. Het is alsof de chef-kok na een mislukte maaltijd zegt: "Volgende keer moet ik duidelijker zeggen dat de oven voorverwarmd moet worden."
Het Resultaat: Ze genereren zo een enorme hoeveelheid perfecte oefenmateriaal, volledig automatisch, zonder dat mensen elke zin hoeven te typen.

3. De Oefening: De "Geduldige Oefenpartner"

Nu hebben ze de recepten, maar ze moeten de assistent nog leren hoe hij ermee omgaat. Hiervoor gebruiken ze een speciale trainingstechniek (Reinforcement Learning).

Het Probleem met de Oefenpartner: Stel, je laat een kok oefenen met een acteur die doet alsof hij een klant is. Als die acteur plotseling de pan in de afvoer gooit (een fout doet), denkt de kok dat hij de pan verkeerd vasthield. De kok wordt dan verward en leert slecht.
De Oplossing: Ze trainen eerst die "acteur" (de computer die de klant nabootst) om zich perfect te gedragen. Pas als die acteur betrouwbaar is, laten ze de echte assistent oefenen.
De Beloning: De assistent krijgt een puntje (een beloning) als hij de taak écht succesvol afrondt, gebaseerd op een strikte check: "Is de vlucht geboekt? Is het geld correct verwerkt?" Geen gissen, maar harde feiten.

4. Het Eindresultaat: Van Leerling tot Meester

Ze hebben dit getest op drie moeilijke gebieden:

Luchtvaart (Vluchten annuleren, klachten regelen).
Telecommunicatie (Abonnementen wijzigen, facturen uitleggen).
Winkelen (Bestellingen volgen, producten zoeken).

Wat deden ze?
Ze namen een bestaande, slimme AI (Qwen) en gaven hem deze "zelf-gemaakte" training.

Wat was het resultaat?

De AI werd extreem goed in het regelen van deze complexe gesprekken.
In sommige gevallen (zoals bij telecom) deed de AI het zelfs beter dan de duurste, beroemdste AI's van grote bedrijven (zoals GPT-5 of Claude).
Ze deden dit allemaal zonder dat ze duizenden mensen betaalden om data te schrijven. De AI leerde zichzelf, met een beetje hulp van hun robot-keuken.

Samenvattend in één zin:

Ze hebben een systeem bedacht waarbij een AI zichzelf duizenden moeilijke oefenopdrachten bedenkt, die opdrachten laat controleren door andere AI's, en dan een "perfecte" oefenpartner gebruikt om de assistent te leren hoe hij echte, complexe klantgesprekken moet voeren, waardoor hij net zo goed wordt als de beste menselijke experts.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents", vertaald en samengevat in het Nederlands.

1. Het Probleem

Interactieve tool-gebruikende agenten moeten complexe real-world taken uitvoeren door te communiceren met zowel mensen als externe omgevingen via API-aanroepen. Dit vereist het bijhouden van dialogen, het uitvoeren van multi-stap tool-acties en het volgen van complexe instructies. Het post-training (na het trainen) van dergelijke agenten stuit op twee fundamentele knelpunten:

Schaalbaarheid van Data: Het genereren van hoogwaardige, meervoudige-turn (multi-turn) trainingsdata voor tool-gebruik is moeilijk. Menselijke annotatie is te duur en tijdrovend, terwijl geautomatiseerde synthese vaak faalt in het creëren van uitdagende taken die voldoen aan complexe domeinregels en realistische gebruikerssimulaties.
Onzekerheid in Versterkend Leren (RL): RL-training vereist een "gebruikerssimulator" om de conversatie te drijven. Bestaande open-weight modellen vertonen vaak onstabiel gedrag bij het simuleren van gebruikers die tools gebruiken (bijv. het negeren van instructies of het uitvoeren van foutieve tool-aanroepen). Dit introduceert ruis in de trainingsignalen, wat leidt tot een degradatie van de leerprestaties.

2. Methodologie

De auteurs stellen een unificerend framework voor dat twee hoofdcomponenten combineert: een zelf-evoluerend data-synthesesysteem en een versterkt leerframework met verifieerbare beloningen.

A. AReaL-SEA: Zelf-Evoluerende Data Synthese

Dit is een hiërarchisch multi-agent systeem dat trainingsdata en verifieerbare reward-signalen genereert zonder menselijke tussenkomst. Het proces bestaat uit vier fasen:

Meta-Planning: Een meta-planner genereert diverse synthese- en evaluatieplannen voor verschillende domeinen en taakcomplexiteiten.
Agent Pipeline:
- Taak Synthese: Een agent genereert gestructureerde taken (instructies, verwachte antwoorden) via tool-aanroepen.
- Taak Verificatie: Een verificatie-agent filtert taken op kwaliteit.
- Traject Rollout: Gesimuleerde interacties tussen een "assistent-agent" en een "gebruikers-agent" genereren volledige dialogen.
- Traject Verificatie: Een agent beoordeelt het volledige traject en genereert een uitvoerbare verificatiefunctie (checker) per instance. Deze functie dient als grond waarheid voor de beloning.
Reflectie en Zelf-Evolutie: Fouten worden geanalyseerd door een reflectie-agent. Deze past de synthese- en evaluatieplannen dynamisch aan op basis van de foutenpatronen (bijv. onduidelijke instructies of te strenge regels), waardoor het systeem zichzelf verbetert in iteraties.

B. Verifieerbaar-Beloning RL (Verifiable-Reward RL)

Op basis van de gegenereerde data wordt een RL-strategie ontwikkeld om de agent te trainen:

Fine-tuning van de Gebruikersmodel: Een kritieke stap is het eerst finetunen van de gebruikerssimulator via Supervised Fine-Tuning (SFT) op de gegenereerde data. Dit zorgt voor stabiel, instructievolgend gedrag van de "gebruiker", wat essentieel is om ruis in de RL-rollouts te elimineren.
GRPO (Group Relative Policy Optimization): De auteurs gebruiken GRPO met grote batchgroottes.
- Traject-niveau Voordeel: Voor elke taak worden meerdere trajecten gesampled. Het voordeel wordt berekend als het genormaliseerde verschil tussen de beloning van een traject en het gemiddelde van de groep.
- Dynamische Filtering: Taken waarbij alle gesamplede trajecten ofwel allemaal slagen of allemaal falen, worden verwijderd uit de training. Deze bieden geen leerbaar signaal (geen variatie in voordeel) en introduceren ruis.
Reward Mechanisme: De beloning is binair en gebaseerd op de uitvoerbare verificatiefuncties gegenereerd door AReaL-SEA. De eindtoestand van het traject wordt vergeleken met de grondwaarheid; alleen een volledige match levert een succesreward op.

3. Belangrijkste Bijdragen

AReaL-SEA: Een autonoom systeem dat complexe, verifieerbare multi-turn tool-use trainingsinstanties genereert en continu verbetert via een gesloten feedback-lus.
RL-Recipe voor Interactieve Agenten: Een nieuwe trainingstool die bestaat uit het finetunen van de gebruikerssimulator, het gebruik van grote batches, dynamische filtering en verifieerbare outcome-rewards.
State-of-the-Art Resultaten: Het framework bereikt prestaties die gelijkwaardig zijn aan of beter zijn dan gesloten, frontier-modellen (zoals GPT-5, Claude Sonnet, Gemini) op de $\tau^2$ -bench, puur met open-weight modellen (Qwen3).

4. Resultaten

De methode is geëvalueerd op de $\tau^2$ -bench, een benchmark voor tool-gebruikende agenten in drie domeinen: Airline (vliegtuigboeking), Retail (e-commerce) en Telecom (mobiele abonnementen).

Prestaties:
- Met de Qwen3-235B-A22B achtergrondmodel bereikte het systeem 73.0% pass@1 op Airline (vergelijkbaar met Gemini 3.0 Pro en beter dan GPT-5) en 98.3% pass@1 op Telecom (nieuw record, beter dan alle genoemde frontier-modellen).
- Op Retail bereikte het 75.0% pass@1, wat dichtbij de leidende modellen ligt.
Ablatie Studies:
- Data Kwaliteit: Het verwijderen van de verificatie-agenten of de zelf-evoluerende lus leidde tot significante prestatiedalingen, wat aantoont dat zowel kwaliteit als diversiteit cruciaal zijn.
- Gebruikersmodel: Het trainen met een niet-gefinetunede gebruikerssimulator resulteerde in een daling van 20% in prestaties (van 95.6% naar 75.6%), wat bevestigt dat stabiele gebruikerssimulatie essentieel is voor RL.
- Batch Grootte & Filtering: Grotere batchgroottes en het toepassen van dynamische filtering (het weghalen van niet-informatieve groepen) verbeterden de stabiliteit en het leerrendement aanzienlijk.
Mix Training: Een enkel model getraind op gecombineerde data van alle drie de domeinen presteerde beter dan gespecialiseerde modellen en overtrof frontier-modellen in het gemiddelde, wat wijst op sterke cross-domein generalisatie.

5. Betekenis en Impact

Dit werk biedt een schaalbaar pad voor het ontwikkelen van geavanceerde tool-gebruikende agenten zonder de afhankelijkheid van dure menselijke annotatie.

Kostenreductie: Het vervangt menselijke data-aandrijving door een autonoom, zelf-evoluerend systeem.
Betrouwbaarheid: Door verifieerbare rewards en gestabiliseerde gebruikerssimulatie wordt het trainingsproces robuuster tegen ruis.
Open Source: Het gebruik van volledig open-weight modellen (Qwen3) en het openbaar maken van code en data democratiseert de toegang tot state-of-the-art agenten, wat belangrijk is voor toepassingen zoals klantenservice en workflow-automatisering.

Samenvattend toont het paper aan dat de combinatie van zelf-evoluerende synthetische data en verifieerbaar-versterkt leren een effectieve strategie is om complexe, multi-turn interactieve vaardigheden in taalmodellen te leren.

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

1. De Probleemstelling: De "Oefenkeuken" is te duur

2. De Oplossing: De Zelf-verbeterende Keuken (AReaL-SEA)

3. De Oefening: De "Geduldige Oefenpartner"

4. Het Eindresultaat: Van Leerling tot Meester

Samenvattend in één zin:

1. Het Probleem

2. Methodologie

A. AReaL-SEA: Zelf-Evoluerende Data Synthese

B. Verifieerbaar-Beloning RL (Verifiable-Reward RL)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem