EnterpriseBench Corecraft: Training Generalizable Agents on High-Fidelity RL Environments

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen jungen Azubi für einen sehr anspruchsvollen Job im Kundenservice ausbilden.

Die meisten Firmen machen das heute so: Sie geben dem Azubi eine Liste mit 1.000 einfachen, erfundenen Aufgaben. „Rufe die Nummer 1 an", „Schreibe eine E-Mail an Person 2". Der Azubi lernt schnell, diese spezifischen Aufgaben zu erledigen. Aber sobald er in die echte Welt kommt, wo Kunden wütend sind, Daten fehlen und die Regeln kompliziert sind, scheitert er. Er hat nur gelernt, wie man eine Liste abarbeitet, nicht wie man denkt.

Das ist das Problem, das die Forscher von Surge AI mit ihrer Arbeit „Corecraft" lösen wollen. Hier ist die Geschichte ihrer Entdeckung, einfach erklärt:

1. Der neue Trainingsplatz: Corecraft

Statt einer simplen Liste haben die Forscher eine komplette, lebendige Welt gebaut. Nennen wir es „Corecraft".

Die Welt: Es ist eine riesige, digitale Simulation eines Computer-Shops. Es gibt über 2.500 Kunden, Millionen von Bestellungen, Lagerbestände, Garantiebedingungen und sogar Streitereien zwischen Mitarbeitern.
Die Aufgabe: Der KI-Agent (der Azubi) muss echte Probleme lösen. Nicht nur „Suche die Bestellnummer", sondern: „Der Kunde ist wütend, weil sein PC nicht startet. Prüfe die Garantie, finde heraus, ob das Teil kompatibel ist, vergleiche den Preis mit einem neuen Modell und schreibe eine höfliche E-Mail, die alle Regeln einhält."

Es ist wie der Unterschied zwischen dem Lernen von Schachzügen auf einem Brett und dem Spielen in einem echten Turnier gegen einen Großmeister, der unvorhersehbare Züge macht.

2. Das Problem mit den „Besten" KI-Modellen

Die Forscher haben die aktuell stärksten KI-Modelle (wie GPT-5 oder Claude Opus) in diese Welt geschickt. Das Ergebnis war ernüchternd: Selbst die „Genies" schafften weniger als 35 % der Aufgaben perfekt.
Warum? Weil sie oft Tricks benutzten, die in einfachen Tests funktionieren, aber in der echten Welt scheitern.

Beispiel: Wenn sie nach einer Information suchen, geben sie oft auf, sobald sie 10 Ergebnisse sehen, statt zu prüfen, ob es noch mehr gibt (wie ein Schüler, der aufgibt, sobald er eine Seite im Buch gelesen hat, statt das ganze Kapitel zu durchsuchen).
Beispiel: Sie nutzen nur das erste Werkzeug, das ihnen einfällt, statt nach der besten Lösung zu suchen.

3. Der Durchbruch: Lernen durch echtes Feedback

Hier kommt der Clou der Studie. Die Forscher haben nicht einfach mehr Daten gesammelt. Sie haben dem KI-Modell (GLM 4.6) einen strengen, aber fairen Trainer an die Seite gestellt.

Der Trainer: Ein System, das von echten Experten geschrieben wurde. Es prüft nicht nur, ob die Antwort „richtig" ist, sondern wie sie zustande kam.
Die Methode: Das Modell hat nur einen einzigen Tag (eine „Epoch") in dieser simulierten Welt trainiert. Jedes Mal, wenn es einen Fehler machte, bekam es sofortiges, detailliertes Feedback: „Du hast die Garantie nicht geprüft", „Deine E-Mail war zu unfreundlich", „Du hast vergessen, nach weiteren Ergebnissen zu suchen".

Das Ergebnis war verblüffend: Nach nur diesem einen Trainingstag schaffte das Modell 36,76 % der Aufgaben – und das war ein riesiger Sprung von den vorherigen 25 %.

4. Das Wunder: Das „Übertragen" des Wissens

Das Wichtigste an der Geschichte ist nicht, dass das Modell im Computer-Shop besser wurde. Das Wunder ist, dass es andere Jobs besser machte, für die es niemals trainiert wurde.

Stell dir vor, du hast einen Azubi im Computer-Shop trainiert. Plötzlich kannst du ihn in eine Bank schicken, und er ist dort plötzlich besser als alle anderen, weil er gelernt hat, strukturiert zu denken.

BFCL (Funktionsaufrufe): Das Modell wurde besser darin, mehrere Werkzeuge gleichzeitig zu koordinieren.
τ 2-Bench (Einzelhandel): Es wurde besser im Kundenservice für Kleidung oder Lebensmittel, obwohl es nur Computer-Teile kannte.
Toolathlon (Langfristige Aufgaben): Es wurde zuverlässiger bei komplexen, langen Aufgaben, die viele Schritte erfordern.

Die Analogie:
Früher dachten Forscher, KI müsse für jeden Job (Bank, Arzt, Programmierer) separat trainiert werden. Diese Studie zeigt: Wenn du die KI in einer hochwertigen, realistischen Welt trainierst, lernt sie nicht nur die Fakten dieses einen Jobs. Sie lernt wie man arbeitet. Sie lernt Geduld, wie man Regeln anwendet, wie man Fehler findet und wie man strukturiert kommuniziert. Diese Fähigkeiten sind universell.

Zusammenfassung in einem Satz

Die Forscher haben gezeigt, dass man KI nicht durch das Auswendiglernen von einfachen Aufgaben trainieren sollte, sondern indem man sie in eine realistische, komplexe Simulation wirft, wo sie durch echtes Feedback lernt, wie man Probleme löst – und diese Fähigkeit dann auf jede andere Situation übertragen kann.

Es ist der Unterschied zwischen dem Lernen von Vokabeln und dem Lernen, eine Sprache fließend zu sprechen, indem man in einem Land lebt, in dem diese Sprache gesprochen wird.

EnterpriseBench Corecraft: Training Generalizable Agents on High-Fidelity RL Environments

1. Der neue Trainingsplatz: Corecraft

2. Das Problem mit den „Besten" KI-Modellen

3. Der Durchbruch: Lernen durch echtes Feedback

4. Das Wunder: Das „Übertragen" des Wissens

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik

Die Corecraft-Umgebung

Trainingsansatz

3. Wichtige Beiträge

4. Ergebnisse

In-Distribution Performance (Corecraft)

Out-of-Distribution Generalisierung (Transfer)

5. Bedeutung und Schlussfolgerung

EnterpriseBench Corecraft: Training Generalizable Agents on High-Fidelity RL Environments

1. Der neue Trainingsplatz: Corecraft

2. Das Problem mit den „Besten" KI-Modellen

3. Der Durchbruch: Lernen durch echtes Feedback

4. Das Wunder: Das „Übertragen" des Wissens

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik

Die Corecraft-Umgebung

Trainingsansatz

3. Wichtige Beiträge

4. Ergebnisse

In-Distribution Performance (Corecraft)

Out-of-Distribution Generalisierung (Transfer)

5. Bedeutung und Schlussfolgerung

Mehr davon

Less is More: Data-Efficient Adaptation for Controllable Text-to-Video Generation

Better Understandings and Configurations in MaxSAT Local Search Solvers via Anytime Performance Analysis

Hybrid Agentic AI and Multi-Agent Systems in Smart Manufacturing

ReaMIL: Reasoning- and Evidence-Aware Multiple Instance Learning for Whole-Slide Histopathology

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya