Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

LLM の専門分野における能力評価の課題を解決するため、専門家が作成した 1,346 件のタスクと詳細な評価基準、そして専門家例示に基づく LLM 判定者「ShotJudge」を導入した高忠実度ベンチマーク「XpertBench」を提案し、最先端モデルでも専門家の水準に達する能力に大きなギャップがあることを実証した論文です。

Xue Liu, Xin Ma, Yuxin Ma, Yongchang Peng, Duo Wang, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xinyu Chen, Tianci He, Jiani Hou, Liang Hu, Ziyun Huang, Yongzhe Hui, Jianpeng Jiao, Chennan Ju, Yingru Kong, Yiran Li, Mengyun Liu, Luyao Ma, Fei Ni, Yiqing Ni, Yueyan Qiu, Yanle Ren, Zilin Shi, Zaiyuan Wang, Wenjie Yue, Shiyu Zhang, Xinyi Zhang, Kaiwen Zhao, Zhenwei Zhu

公開日 2026-04-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

XpertBench(エクスパートベンチ)の解説:AI の「プロフェッショナル試験」

この論文は、ByteDance Seed(バイトダンスの研究所)が発表した、**「AI に本当の専門家としての能力があるか試すための、新しい超難関テスト」**についての報告です。

これまでの AI のテストは、どちらかというと「学校の定期試験」や「クイズ大会」のようなものでした。しかし、この新しいテスト「XpertBench」は、**「実際の職場で、プロが直面する複雑な問題を解決できるか」**を測るものです。

わかりやすくするために、いくつかの比喩を使って説明します。


1. なぜ新しいテストが必要なのか?

【これまでのテスト:クイズ大会】
これまでの AI の評価は、MMLU などの「知識クイズ」が主流でした。

  • 例: 「日本の首都はどこ?」「2+2 は?」
  • 問題点: AI はこれに完璧に答えられるようになりました。でも、それは「知識を暗記しているだけ」で、**「実際に現場で使えるか」**はわかりません。
  • 比喩: 料理のレシピをすべて暗記している人が、実際に厨房に入って「今日のお客様の好みに合わせて、手元の材料で美味しい料理を作る」ことができるかどうかは、レシピ暗記テストではわかりません。

【XpertBench:実戦演習】
この新しいテストは、**「実戦演習(ロールプレイ)」**です。

  • 例: 「金融危機に直面した企業の CFO として、3 つの選択肢から最もリスクの少ない戦略を提案し、その根拠を法的・経済的に説明してください」
  • 特徴: 正解が一つではなく、状況判断、論理的思考、専門知識、そして「プロとしての勘」が求められます。

2. テストの内容:どんな問題が出ている?

このテストには、1,346 問の難問が用意されています。これらはすべて、1,000 人以上の実際の専門家(医師、弁護士、研究者、金融アナリストなど)が、自分の仕事で実際に直面する「本当に難しい課題」から作られました。

【7 つの専門分野】

  • 金融: 企業の財務分析やリスク管理。
  • 法律: 複雑な契約書の作成や訴訟戦略。
  • 医療: 臨床診断や治療計画。
  • 教育: 生徒一人ひとりに合わせたカリキュラム作成。
  • 理工学(STEM): 実験の設計や技術的な問題解決。
  • 人文・社会科学: 歴史的な文書の分析や哲学的な議論。
  • その他: 工学やコンピュータサイエンスなど。

比喩:
これは、AI に「料理のレシピを暗記させる」のではなく、**「高級レストランのシェフとして、限られた時間で、最高の料理を作り出す実技試験」**をさせているようなものです。

3. 採点方法:どうやって正解を判定する?

AI の回答を採点するのは、**「人間の専門家」「AI 裁判官(ShotJudge)」**のチームです。

  • ルビックス(評価基準):
    各問題には、15〜40 個もの細かいチェック項目が用意されています。

    • 「事実が正しいか?」
    • 「論理が破綻していないか?」
    • 「専門用語の使い方は適切か?」
    • 「リスク管理は考慮されているか?」
      これらを一つずつチェックして、点数を付けます。
  • ShotJudge(ショットジャッジ):
    人間が全部採点するのは大変なので、AI 裁判官を使います。しかし、ただの AI 裁判官だと「自分の好きな答えを採点してしまう(バイアス)」恐れがあります。
    そこで、**「人間の専門家による正解例(ヒント)」**を AI 裁判官に見せて、「こういう考え方で採点しなさい」と教えます。

    • 比喩: 新人の裁判官(AI)に、ベテランの裁判官(人間)が「この事件では、A という点を重視して判断しなさい」という**「採点のガイドラインと見本」**を渡して、同じ基準で採点させる仕組みです。

4. 結果:AI はどこまでできる?

最新の AI たち(Claude や GPT など)にこのテストを受けさせた結果、**「まだプロにはなれていない」**ことがわかりました。

  • 最高成績でも 66%:
    最強の AI でも、正解率は約 66% でした。つまり、3 割以上の確率で失敗するということです。

  • 得意不得意が激しい:

    • ある AI は「金融」の問題では 84% と素晴らしい成績ですが、「理工学」の問題では 42% と苦戦しました。
    • 別の AI は「法律」や「人文」は得意ですが、「計算や論理」が苦手でした。
    • 結論: 「何でもできる万能な専門家 AI」はまだ存在しません。
  • 失敗のパターン:

    • 検索の罠: ネットで情報を集めすぎて、重要なポイントを見失う。
    • 最初のミスが致命傷: 問題の最初の理解を間違えると、その後の推理がすべて崩壊してしまう。
    • 専門用語の誤用: 一見専門的に見えるが、中身は間違っている(ハルシネーション)。

5. この研究の意義

この論文は、**「AI はもうクイズに勝つ段階を超えて、本当の『仕事』ができるかどうかの時代に入った」**と告げています。

  • 現状: AI は「優秀なアシスタント」ですが、「頼れる専門家(パートナー)」にはまだ届いていません。
  • 未来: このテスト(XpertBench)を使って、AI の弱点を特定し、より信頼できるプロフェッショナルな AI を作っていくことが次の目標です。

まとめ

XpertBench は、**「AI に『知識のテスト』ではなく、『実務のテスト』を受けさせる」**という、AI 開発の新しい基準です。

今の AI は、**「勉強はできるが、実戦経験が浅い新人」**のような状態です。このテストを通じて、AI が本当の意味で「プロフェッショナル」として社会に溶け込めるようになるための道筋を作ろうとしています。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →