\$OneMillion-Bench: How Far are Language Agents from Human Experts?

この論文は、法律や金融などの専門分野における経済的に重要なシナリオを評価し、既存のベンチマークでは捉えきれない言語エージェントの実務能力を測定するために、専門家が作成した 400 件のタスクと厳格な評価基準を備えた新しいベンチマーク「\$OneMillion-Bench」を提案しています。

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

100 万ドルのテスト:AI は「プロ」の仕事をこなせるのか?

この論文は、**「$OneMillion-Bench(100 万ドルベンチマーク)」**という新しいテストについて紹介しています。

これまでの AI のテストは、どちらかといえば「学校の定期試験」のようなものでした。「この問題を解いて」「この文章を要約して」といった、正解が一つ決まっているような課題が多かったのです。しかし、現実世界のビジネスや専門職の現場では、そんな単純な問題ばかりではありません。

この新しいテストは、**「AI が実際にプロの専門家として、どれくらい価値ある仕事ができるか」**を測るためのものです。

🌟 3 つの重要なポイント

1. 「テスト」ではなく「実戦シミュレーション」

これまでのテストが「試験問題」なら、この新しいテストは**「実務の現場」**です。

  • 例え話: 従来のテストが「数学の公式を暗記しているか」を問うのに対し、このテストは「複雑な状況で、必要な資料を自分で探して、法律やルールを守りながら、正しい判断を下せるか」を問います。
  • 5 つの分野: 法律、金融、医療、自然科学、産業(製造業など)の 5 つの専門分野で、それぞれ「プロが 1 時間かけて行うような難しいタスク」が 400 問用意されています。

2. 「正解」だけでなく「価値」で測る

このテストの最大の特徴は、**「その仕事がどれだけの金額(経済的価値)に相当するか」**を評価基準にしている点です。

  • 例え話: 料理の味を評価する際、単に「美味しいか」だけでなく、「その料理を作るためにシェフが何時間かかり、その時間の市場価値はいくらか」まで計算して評価するようなものです。
  • 仕組み: 各タスクには、熟練のプロが解決するのに必要な時間と、その地域の時給を掛け合わせた「金額」が付けられています。合計すると100 万ドル(約 1 億 5000 万円)以上の価値があるタスク群です。
  • 目的: AI が「ただのチャットボット」ではなく、「実際に企業や専門家に代わって働けるか」を、お金の価値というわかりやすい指標で測ります。

3. 「ルビックス(評価基準)」による厳しすぎるチェック

AI の答えが「正解」かどうかだけでなく、**「プロセスが適切だったか」**を細かくチェックします。

  • 例え話: 料理の味見をする際、単に「美味しい」だけでなく、「食材は新鮮か?衛生管理は守られたか?レシピの指示通りに作られたか?」を、チェックリスト(ルビックス)を使って一つずつ評価します。
  • 特徴:
    • 事実の正確性: 間違った情報(ハルシネーション)を入れていないか?
    • 論理的整合性: 筋道が通っているか?
    • 専門ルールの遵守: 業界のルールや法律を無視していないか?
    • マイナス点: 専門家の常識を破ったり、危険なことを言ったりすると、大きく減点されます。

📊 結果はどうだった?(現在の AI の実力)

このテストで、最新の AI モデル(Claude, GPT-5, Gemini など)をテストした結果、いくつかの面白いことがわかりました。

  1. 「検索機能」は両刃の剣:
    • 強い AI は、インターネットで情報を検索すると、さらに賢く正解に近づきます。
    • しかし、弱い AI や、検索の使い方が下手な AI は、検索結果に惑わされて、かえって成績が悪くなることもあります。「情報が多すぎて混乱する」状態です。
  2. 「専門研究用 AI」は万能ではない:
    • 複雑な調査を得意とする「Deep Research」タイプの AI も、必ずしも最強の「汎用 AI」には勝てませんでした。単純に「長い調査をする」ことよりも、「指示通りに正確に行動する」ことのほうが重要でした。
  3. まだ「プロ」には届かない:
    • 多くの AI は、部分的には良い答えを出せますが、**「完全にプロの基準を満たす」**レベルにはまだ達していません。特に、金融や法律など、ミスが許されない分野では、まだ人間のプロの代わりにはなれないようです。

💡 結論:AI は「月を見る」ために必要?

論文の冒頭にある言葉が示す通り:

「もし AI が散らばった六ペンス(小さな仕事やデータ)を集めることを学べば、人間は月(より高い目標や創造性)を見上げる自由を得るだろう。」

このテストは、AI が「本当に信頼できるプロの助手」になれるかどうかを確かめるための、新しい物差しです。
AI が単に「おしゃべり」ができるだけでなく、**「責任を持って、価値ある仕事」**をこなせるようになるためには、まだ乗り越えるべき課題が多いことがわかりました。

このベンチマークは、AI 開発者が「より実用的で、信頼できる AI」を作るための道しるべとなるでしょう。