EnterpriseBench Corecraft: Training Generalizable Agents on High-Fidelity RL Environments

Surge AI が企業向け顧客サポートシミュレーション環境「CoreCraft」を提案し、高忠実度 RL 環境でのトレーニングが、GPT-5.2 や Claude Opus 4.6 などの最先端モデルが未解決だった複雑なタスクの成功率向上だけでなく、BFCL Parallel や Tau2-Bench などの分布外ベンチマークにおける汎化能力の向上にも寄与することを示しました。

Sushant Mehta, Logan Ritchie, Suhaas Garre, Ian Niebres, Nick Heiner, Edwin Chen

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI 助手を本当に仕事ができるように育てるには、どうすればいいか?」**という問いに対する、とても面白い答えを提示しています。

一言で言うと、**「AI に『本物の職場』で修行させたら、他の仕事も上手にできるようになった!」**という話です。

以下に、難しい専門用語を使わず、日常の例え話で解説します。


🏗️ 物語の舞台:「Corecraft(コアクラフト)」という仮想会社

まず、研究者たちは「Corecraft」という、PC 部品を売る架空の会社のサポートセンターをシミュレーション(仮想空間)として作りました。

  • 普通のテスト: 多くの AI 研究では、AI に「簡単なクイズ」や「作り物の会話」を解かせて評価します。これは、**「模擬試験」や「暗記テスト」**のようなものです。
  • Corecraft のテスト: ここでは、**「本物の会社」**を再現しています。
    • 2,500 人以上の「顧客」や「注文履歴」がいます。
    • 「在庫管理」「返品処理」「トラブル対応」など、23 種類のツールを使って、複雑な手順を踏む必要があります。
    • 顧客からの問い合わせは、**「1 回で終わらない」**ことが多く、複数の情報を照らし合わせて、ルールに従って答えを出す必要があります。

まるで、**「AI を新人研修に放り込んで、実際に顧客対応をやらせる」**ような環境です。

📉 問題点:「模擬試験」は得意でも、「実戦」は苦手

この環境で、最新の AI(Claude や GPT などの超高性能モデル)を試したところ、驚くほど失敗しました。
どんなに頭の良い AI でも、「完璧に正解する」のは 35% 未満でした。

  • なぜ失敗した?
    • 検索が下手: 「モニターが壊れた」と言われたら、まずは「その人の注文履歴」を見るべきなのに、いきなり「一般的な修理マニュアル」を探し始めて失敗する。
    • 諦めが早い: 検索結果が 10 件返ってきて「これ以上ない」と勘違いして、実はもっとあるのに探さずに終わってしまう。
    • 道具の使い方が狭い: 「安く買う方法」を調べるとき、一つの方法しか考えず、他の安い選択肢(セット販売など)を見つけられない。

これらは、「模擬試験の解き方」は知っているが、「実戦の勘所」がわからない状態です。

🚀 解決策:「本物の職場」で AI に修行させる

そこで研究者たちは、この「本物の職場(Corecraft)」を使って、AI を**「強化学習(RL)」**という方法で鍛え直しました。

  • やり方:
    1. AI にタスクを与えて行動させる。
    2. 人間の専門家(サポートのベテラン)が作った**「評価基準(ルブリック)」**を使って、AI の答えを厳しくチェックする。
      • 「情報は正確か?」「ルールを守ったか?」「顧客への説明は丁寧か?」
    3. 正しければご褒美(報酬)、間違っていれば反省(ペナルティ)を与えて、AI が「次はこうすればいいんだ!」と学習させる。

これをたった 1 回(1 エポック)のトレーニングで実施しました。

🌟 結果:驚異的な成長と「他分野」への転移

このトレーニングの結果、「Corecraft」以外のテストでも劇的に良くなりました。

  1. Corecraft 内での成績:

    • トレーニング前:25.3% 正解
    • トレーニング後:36.7% 正解
    • なんと、11.3 ポイントもアップしました。これは、トップクラスの AI 同士の差(7 ポイント)を超える成長です。
  2. 他の分野への転移(ここがすごい!):
    AI は「Corecraft」でしか練習していませんが、全く別の分野のテストでも成績が伸びました。

    • プログラミング関連: +4.5% 向上
    • 他のカスタマーサポート: +7.4% 向上
    • 複雑なツール操作: +6.8% 向上

💡 なぜこんなことが起きたの?(重要な教訓)

なぜ「PC 部品のサポート」を練習しただけで、「プログラミング」や「他の仕事」も上手くなったのでしょうか?

それは、AI が**「特定の答え」を暗記したのではなく、「仕事のやり方(スキル)」を身につけたから**です。

  • 例え話:
    • 悪い練習: 「A という問題には B という答えを書く」という**「解き方の暗記」**をさせると、問題が変わったら解けなくなります。
    • Corecraft の練習: 「情報を集めて、ルールを確認し、論理的に考え、相手に分かりやすく伝える」という**「仕事の基本動作」**を身につけさせました。

AI は、Corecraft で**「多段階の思考」「制約条件の扱い」「丁寧なコミュニケーション」という「汎用的なスキル」**を学びました。だから、PC 部品の話じゃなくても、他の仕事でも同じように活躍できるのです。

🎯 まとめ:何が一番大切だった?

この研究が教えてくれるのは、**「AI を強くするには、環境(練習場所)の質が最も重要」**ということです。

  1. 本物っぽさ: 現実の複雑な職場を再現すること。
  2. 多様性: いろんな種類の難しいタスクを用意すること。
  3. 専門家による評価: 曖昧な「なんとなく良い」ではなく、具体的な基準で厳しく評価すること。

「AI に本物の職場で修行させれば、それは『特定の作業員』ではなく、『どんな現場でも活躍できるプロ』に育つ」

これが、この論文が私たちに伝えたかった、とてもシンプルで重要なメッセージです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →