EnterpriseBench Corecraft: Training Generalizable Agents on High-Fidelity RL Environments

本文介绍了 Surge AI 推出的高保真企业级强化学习环境 CoreCraft,通过在该环境中对 GLM 4.6 模型进行单轮 GRPO 训练,不仅显著提升了其解决复杂企业任务的能力,还实现了在多个分布外基准测试中的泛化性能提升,证明了高质量、多样化且贴近现实的环境是构建通用智能体的关键。

Sushant Mehta, Logan Ritchie, Suhaas Garre, Ian Niebres, Nick Heiner, Edwin Chen

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**如何训练 AI 助手变得真正“靠谱”和“通用”**的故事。

想象一下,现在的 AI 就像是一个在模拟飞行游戏里考了满分的飞行员。他在游戏里能完美地处理各种预设的紧急情况,但一旦让他真的去驾驶一架载满乘客的波音 747 去穿越真实的暴风雨,他可能会因为缺乏真实世界的复杂经验而手忙脚乱。

这篇论文的作者(来自 Surge AI)认为,问题出在训练环境上。他们开发了一个名为 Corecraft 的全新“训练场”,并证明了在这里训练的 AI,不仅能在这个训练场里表现更好,还能把学到的本事迁移到完全陌生的其他工作中。

下面我用几个简单的比喻来拆解这篇论文的核心内容:

1. 以前的训练场 vs. Corecraft 训练场

  • 以前的训练场(简化版): 就像是在一个只有红绿灯的封闭公园里教人开车。任务很简单:看到红灯停,绿灯行。AI 在这里学会了“见红灯就停”的简单规则,但它没学会怎么处理突然冲出来的行人、复杂的立交桥或者暴雨天打滑的情况。
  • Corecraft 训练场(高保真版): 这是一个完全模拟的真实世界
    • 场景: 一个拥有 2500 多个角色(客户、订单、产品、政策等)的巨型电脑配件公司客服中心。
    • 任务: 不是简单的问答,而是像真人客服一样处理复杂问题。比如:“客户买了一个显卡,但发现机箱装不下,而且他想要退货,但已经过了 30 天,不过他是 VIP 会员,这时候该怎么办?”
    • 特点: 这里充满了“噪音”和意外。数据可能不完整,规则很死板,工具很多但容易用错。

2. 他们做了什么?(训练过程)

作者用了一个叫 GLM 4.6 的 AI 模型,把它扔进这个 Corecraft 训练场里进行“特训”。

  • 特训方法(GRPO): 这就像给 AI 配了一位极其严格的金牌教练
    • 每当 AI 完成一个任务,教练不会只说“对”或“错”。
    • 教练手里拿着一份专家写的评分表(Rubric),上面列出了几十条细节标准:比如“是否查清了订单日期?”“是否考虑了 VIP 政策?”“回复语气是否专业?”
    • AI 每做对一步,就加分;做错了(比如没翻页看全数据,或者没检查兼容性),就扣分。
  • 结果: 仅仅经过**一个周期(Epoch)**的疯狂特训,这个 AI 在 Corecraft 内部的考试通过率就从 25% 飙升到了 36%。这不仅仅是分数的提升,而是它学会了像专家一样思考。

3. 最惊人的部分:能力的“迁移”

这才是这篇论文最厉害的地方。作者担心 AI 只是死记硬背了“电脑配件公司”的规矩,但结果发现完全不是这样。

比喻: 就像你在一个复杂的迷宫游戏里学会了“如何观察地图、如何规划路线、如何避开陷阱”。当你被扔到另一个完全不同的迷宫(比如去处理银行转账、或者操作复杂的软件系统)时,你依然能游刃有余。

实验结果:

  • BFCL(函数调用测试): 就像让 AI 同时操作多个遥控器。AI 的准确率提升了 4.5%
  • τ²-Bench(零售客服测试): 换了一个卖衣服的场景,AI 的准确率提升了 7.4%
  • Tool Decathlon(工具十项全能): 这是一个包含 108 种不同软件任务的超级大考(涉及代码、教育、旅行等)。AI 的通过率提升了 6.8%

结论: AI 并没有学会“怎么卖电脑”,它学会的是通用的工作技能

  1. 多步走棋: 知道先查 A,再查 B,最后做 C,而不是乱撞。
  2. 遵守约束: 知道什么时候该停,什么时候该查规则。
  3. 专业表达: 知道怎么把复杂的信息整理成客户能看懂的专业回复。

4. 为什么这很重要?

目前的 AI 虽然很聪明,但在实际工作中(比如帮人订票、处理公司报销)经常因为“不靠谱”而被人类接管。这篇论文告诉我们:

想要 AI 真正好用,不能只靠给它看更多的书(数据),而是要给它一个更真实、更复杂的“实习环境”。

  • 高质量的环境(像 Corecraft 这样有真实逻辑、有专家评分的环境)比大量的简单数据更重要。
  • 只要环境设计得好,AI 就能学会举一反三,把在一个领域学到的“工作直觉”带到任何新领域去。

总结

这就好比:
以前我们教 AI 是让它背字典(死记硬背规则);
现在,我们把它送进真实的职场去实习,让它处理真实的麻烦事,并由专家手把手教它如何思考

结果证明,这种“实战训练”出来的 AI,不仅在这个职场里是高手,到了别的职场,它依然是个能独当一面的好员工。这就是Corecraft带来的启示:环境决定能力,真实造就通用。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →