EnterpriseBench Corecraft: Training Generalizable Agents on High-Fidelity RL Environments

Dit paper introduceert CoreCraft, een hoogwaardige RL-omgeving voor klantenservice die aantoont dat het trainen van AI-agenten op realistische, complexe bedrijfswerkprocessen niet alleen de prestaties op specifieke taken verbetert, maar ook leidt tot significante generalisatie naar diverse, buiten-de-distributie benchmarks.

Sushant Mehta, Logan Ritchie, Suhaas Garre, Ian Niebres, Nick Heiner, Edwin Chen

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Hoe je een AI-leraar bouwt met een echte "simulator"

Stel je voor dat je iemand wilt leren autorijden. Je hebt twee opties:

  1. Je zet ze in een virtuele wereld waar de weg altijd recht is, er geen andere auto's zijn en het nooit regent.
  2. Je zet ze in een echte auto op een drukke weg, met andere bestuurders, verkeerslichten en onverwachte gaten in de weg.

De meeste AI-onderzoekers hebben tot nu toe gekozen voor optie 1. Ze trainen hun kunstmatige intelligenties (AI-agenten) op simpele, neppe oefeningen. Het probleem? Zodra die AI's de echte wereld in gaan, raken ze in paniek. Ze kunnen wel een rechte weg afrijden, maar falen als er een kind de weg oversteekt.

Dit artikel van Surge AI introduceert een nieuwe aanpak: Corecraft.

Wat is Corecraft?

Corecraft is geen simpele oefening. Het is een hyper-realistische simulatie van een klantenservice-afdeling voor een computeronderdelenwinkel.

  • Het is alsof je een AI in een volledig werkend bedrijf stopt.
  • Er zijn meer dan 2.500 "personages" (klanten, bestellingen, producten).
  • Er zijn 23 verschillende "gereedschappen" (zoals databases zoeken, tickets aanmaken, retouren verwerken).
  • De AI moet complexe taken doen, zoals: "Klant X heeft een kapotte videokaart gekocht, maar de garantie is net verlopen. Zoek de bestelling, check de datum, en schrijf een beleefde e-mail waarin je uitlegt waarom we hem niet kunnen helpen, maar wel een alternatief bieden."

Het Grote Experiment

De onderzoekers wilden weten: Als we een AI trainen in deze moeilijke, echte wereld, wordt hij dan slimmer in alles, of alleen maar in deze specifieke winkel?

Ze namen een slimme AI (GLM 4.6) en gaven hem één dag (één "epoch") training in Corecraft. Ze gebruikten een slimme methode (GRPO) waarbij de AI probeert, faalt, en dan een "score" krijgt van een menselijke expert die precies kijkt of alle regels zijn gevolgd.

Het resultaat was verbazingwekkend:

  1. Binnen de simulatie: De AI werd van 25% goed naar 37% goed. Dat klinkt niet als veel, maar in de wereld van AI is dat een enorme sprong. Het deed het zelfs beter dan de allerbeste modellen die niet waren getraind op deze specifieke taak.
  2. Buiten de simulatie (Het Magische): Dit is het belangrijkste deel. De AI werd getest op hele andere taken waar hij nooit van gehoord had:
    • Het aansturen van software (zoals het programmeren van servers).
    • Het gebruiken van verschillende apps tegelijk.
    • Het oplossen van complexe klantvragen in een andere winkel.

De AI werd overal beter!

  • +4,5% beter in het aansturen van software.
  • +7,4% beter in klantenservice (in een andere context).
  • +6,8% beter in het gebruik van lange reeksen tools.

Waarom werkt dit? De 3 Sleutels

De onderzoekers ontdekten drie redenen waarom deze "echte wereld" zo goed werkt, terwijl de simpele oefeningen dat niet doen:

  1. De "Gym" voor de hersenen: In Corecraft zijn de taken niet zomaar "zoek iets op". Ze zijn ontworpen om de AI te dwingen om na te denken. Het is alsof je een atleet niet alleen laat rennen op een loopband, maar hem laat klimmen in een rotsachtig landschap. De AI leert strategie, niet alleen herhaling.
  2. De "Strenge Trainer": In plaats van een simpele "goed/slecht" score, gebruikt het systeem een gedetailleerde checklist (een "rubric"). De AI krijgt feedback op elk klein detail: "Je hebt de klant niet bedankt", of "Je hebt de verkeerde datum gebruikt". Dit leert de AI om precies te zijn.
  3. De "Echte Chaos": De wereld in Corecraft is rommelig, zoals de echte wereld. Bestellingen zijn soms incompleet, data klopt niet altijd, en klanten zijn verward. Door hierin te trainen, leert de AI omgaan met onzekerheid en fouten, in plaats van alleen te werken in een perfecte, nep-wereld.

De Conclusie in Eén Zin

Als je AI-agenten wilt trainen die echt nuttig zijn in de echte wereld, moet je ze niet trainen in een schone, simpele klaslokaal. Je moet ze in een drukke, chaotische, maar goed gestructureerde "werkplek" zetten. Dan leren ze niet alleen hoe ze die ene klus moeten doen, maar ontwikkelen ze algemene vaardigheden die ze overal kunnen gebruiken.

Het is het verschil tussen iemand leren zwemmen in een bad met een stilstaand water, en iemand leren zwemmen in een rivier met stroming, wind en andere zwemmers. De laatste kan overal zwemmen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →