Each language version is independently generated for its own context, not a direct translation.

100 万ドルのテスト：AI は「プロ」の仕事をこなせるのか？

この論文は、**「$OneMillion-Bench（100 万ドルベンチマーク）」**という新しいテストについて紹介しています。

これまでの AI のテストは、どちらかといえば「学校の定期試験」のようなものでした。「この問題を解いて」「この文章を要約して」といった、正解が一つ決まっているような課題が多かったのです。しかし、現実世界のビジネスや専門職の現場では、そんな単純な問題ばかりではありません。

この新しいテストは、**「AI が実際にプロの専門家として、どれくらい価値ある仕事ができるか」**を測るためのものです。

🌟 3 つの重要なポイント

1. 「テスト」ではなく「実戦シミュレーション」

これまでのテストが「試験問題」なら、この新しいテストは**「実務の現場」**です。

例え話: 従来のテストが「数学の公式を暗記しているか」を問うのに対し、このテストは「複雑な状況で、必要な資料を自分で探して、法律やルールを守りながら、正しい判断を下せるか」を問います。
5 つの分野: 法律、金融、医療、自然科学、産業（製造業など）の 5 つの専門分野で、それぞれ「プロが 1 時間かけて行うような難しいタスク」が 400 問用意されています。

2. 「正解」だけでなく「価値」で測る

このテストの最大の特徴は、**「その仕事がどれだけの金額（経済的価値）に相当するか」**を評価基準にしている点です。

例え話: 料理の味を評価する際、単に「美味しいか」だけでなく、「その料理を作るためにシェフが何時間かかり、その時間の市場価値はいくらか」まで計算して評価するようなものです。
仕組み: 各タスクには、熟練のプロが解決するのに必要な時間と、その地域の時給を掛け合わせた「金額」が付けられています。合計すると100 万ドル（約 1 億 5000 万円）以上の価値があるタスク群です。
目的: AI が「ただのチャットボット」ではなく、「実際に企業や専門家に代わって働けるか」を、お金の価値というわかりやすい指標で測ります。

3. 「ルビックス（評価基準）」による厳しすぎるチェック

AI の答えが「正解」かどうかだけでなく、**「プロセスが適切だったか」**を細かくチェックします。

例え話: 料理の味見をする際、単に「美味しい」だけでなく、「食材は新鮮か？衛生管理は守られたか？レシピの指示通りに作られたか？」を、チェックリスト（ルビックス）を使って一つずつ評価します。
特徴:
- 事実の正確性: 間違った情報（ハルシネーション）を入れていないか？
- 論理的整合性: 筋道が通っているか？
- 専門ルールの遵守: 業界のルールや法律を無視していないか？
- マイナス点: 専門家の常識を破ったり、危険なことを言ったりすると、大きく減点されます。

📊 結果はどうだった？（現在の AI の実力）

このテストで、最新の AI モデル（Claude, GPT-5, Gemini など）をテストした結果、いくつかの面白いことがわかりました。

「検索機能」は両刃の剣:
- 強い AI は、インターネットで情報を検索すると、さらに賢く正解に近づきます。
- しかし、弱い AI や、検索の使い方が下手な AI は、検索結果に惑わされて、かえって成績が悪くなることもあります。「情報が多すぎて混乱する」状態です。
「専門研究用 AI」は万能ではない:
- 複雑な調査を得意とする「Deep Research」タイプの AI も、必ずしも最強の「汎用 AI」には勝てませんでした。単純に「長い調査をする」ことよりも、「指示通りに正確に行動する」ことのほうが重要でした。
まだ「プロ」には届かない:
- 多くの AI は、部分的には良い答えを出せますが、**「完全にプロの基準を満たす」**レベルにはまだ達していません。特に、金融や法律など、ミスが許されない分野では、まだ人間のプロの代わりにはなれないようです。

💡 結論：AI は「月を見る」ために必要？

論文の冒頭にある言葉が示す通り：

「もし AI が散らばった六ペンス（小さな仕事やデータ）を集めることを学べば、人間は月（より高い目標や創造性）を見上げる自由を得るだろう。」

このテストは、AI が「本当に信頼できるプロの助手」になれるかどうかを確かめるための、新しい物差しです。
AI が単に「おしゃべり」ができるだけでなく、**「責任を持って、価値ある仕事」**をこなせるようになるためには、まだ乗り越えるべき課題が多いことがわかりました。

このベンチマークは、AI 開発者が「より実用的で、信頼できる AI」を作るための道しるべとなるでしょう。

Each language version is independently generated for its own context, not a direct translation.

$OneMillion-Bench: 言語エージェントは専門家レベルにどこまで近づいたか？

技術的サマリー（日本語）

本論文は、大規模言語モデル（LLM）を単なるチャットボットから、多段階の推論やツールの使用が可能な「エージェント」へと進化させる中で、既存の評価ベンチマークが現実の専門職の要求を満たしていないという課題を指摘し、** $OneMillion-Bench（$ 1M-Bench）**という新しい評価基準を提案した研究です。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 問題定義 (Problem)

現在の言語モデルの評価は、構造化された試験問題や単一のタスクに依存しており、以下のような現実世界の専門職の複雑な要求を捉えきれていません。

現実との乖離: 保険数理士によるIFRS17に基づく準備金評価、M&A弁護士による越境コンプライアンスの検証、投資アナリストによる高圧的なバリュエーションモデルの構築など、専門職は文脈に依存し、専門知識と厳格な制約下での多段階推論を必要とします。
評価の限界: 従来のベンチマークは飽和状態にあり、モデルが「正解」を導き出せるかどうかだけでなく、経済的価値のある専門環境で信頼性を持って価値を生み出せるかを測る指標が不足しています。
プロセスの無視: 最終的な答えだけでなく、権威ある情報の検索、矛盾する証拠の解決、ドメイン固有のルールの適用、制約条件への準拠といった「推論プロセス」の質が重要ですが、これが十分に評価されていません。

2. 手法と構築 (Methodology)

$OneMillion-Bench は、5 つの専門分野（金融、法律、医療、自然科学、産業）にまたがる400 件の専門家キュレーションされたタスクで構成されています。

2.1 経済的価値に基づく評価 (Economic-grounded Evaluation)

命名の由来: 全タスクの推定価値が 100 万ドルを超えていることに由来します。
価値の算出: 各タスクの価値は、熟練専門家の所要時間 × 時給 で計算されます。
- 米国では労働統計局（BLS）のデータ、中国では都市別の賃金ガイドラインを参照し、福利厚生を含む総報酬（Overhead multiplier 1.3 倍など）を考慮して時給を算出しています。
- これにより、エージェントの能力を「どれだけ多くの専門的な労働価値を生み出せるか」という経済的指標で定量化します。

2.2 ルーブリックベースの評価プロトコル (Rubric-based Evaluation)

単なる正誤判定ではなく、専門家によって設計された詳細な評価基準（ルーブリック）を用います。

Expert Score: 各タスクに対して、事実の正確性、論理的整合性、実用性、専門的コンプライアンスなどを評価し、0〜1 のスコアを算出します。
Pass Rate: Expert Score が閾値（0.7）を超えるタスクの割合を測定します。
ネガティブペナルティ: 業界規範の違反、安全上の問題、事実のハルシネーション、指示の無視などに対して、スコアを大幅に減点する「ネガティブ・ルーブリック」を導入し、実世界のリスクを反映させています。
評価タグ: 検索、推論、定式化、指示遵守の 4 つの能力カテゴリーに分類して分析します。

2.3 データキュレーションパイプライン

3 段階のプロセス: 専門家によるタスク作成 → 同業者レビュー（ピアレビュー） → 合意形成と修正。
敵対的検証: 最先端の複数のエージェントでテストし、基準を満たさなければタスクを廃棄する「難易度調整」を行い、タスクの差別化能力を確保しています。
バイリンガル対応: 英語 200 件、中国語 200 件。中国語タスクは単なる翻訳ではなく、中国の法規制や業界標準（サイバーセキュリティ法、会計基準など）に特化した独自に作成されたものです。

3. 主要な貢献 (Key Contributions)

経済的価値に根ざした評価枠組み: エージェントの能力を「経済的価値（ドル換算）」で定量化し、実務における ROI（投資対効果）を評価可能にしました。
専門職に特化した包括的ベンチマーク: 5 つの主要分野、37 のサブドメイン、86 の第三レベルカテゴリを網羅し、現実のワークフローをシミュレートしたタスクを提供します。
プロセス重視のルーブリック評価: 最終回答だけでなく、証拠の検索、論理の飛躍、コンプライアンス遵守など、推論プロセス全体を多面的に評価するメカニズムを確立しました。
大規模なモデル評価データ: 35 のモデル（ベースライン、検索機能付き、深層研究エージェント）を評価し、詳細な性能分析結果を公開しました。

4. 評価結果 (Results)

35 のモデル（Claude-Opus-4.6, GPT-5.4-High, Qwen3.5-Plus など）と深層研究エージェント（o3-DeepResearch など）を評価した結果、以下の知見が得られました。

リーダーの明確化と検索の二面性:
- Claude-Opus-4.6 が全体的に最高性能を示しました。
- 検索機能（Web Search）の効果: 高性能モデル（Claude-Opus-4.6 など）では検索によりスコアが向上しますが、一部のモデル（Hunyuan-2.0 など）では、ノイズのある情報や矛盾する証拠によりスコアが低下しました。検索は万能ではなく、情報の選別能力が鍵となります。
- 深層研究エージェント: 専門的な検索エージェントは中程度の性能を示しましたが、検索機能を備えた汎用モデルには及ばないケースが多く、複雑なパイプラインよりも「ルーブリックの網羅性と遵守」が重要であることが示唆されました。
ドメインごとの難易度:
- 金融分野は多くのモデルでスコアが低く、最も困難な領域でした。
- 医療や法律ではトップモデルが比較的高いスコアを達成しましたが、それでも「Pass Rate（合格基準の達成率）」は 25% 未満にとどまるモデルが多く、完全な専門能力にはまだ程遠いことが浮き彫りになりました。
時間感応性（Diachronical Analysis）:
- 時間的に不変な質問よりも、時間変化に敏感な質問（最新のニュースやデータが必要なもの）での性能低下が顕著でした。特にトップモデルでも 15-20% の性能低下が見られ、時間的な文脈理解が課題です。
コストと価値のトレードオフ:
- 検索機能付きエージェントは、ベースモデルに比べて推論コストは増えますが、生み出す経済的価値が劇的に高まり、高い利益率（Pareto 最適）を示しました。

5. 意義と結論 (Significance & Conclusion)

評価パラダイムの転換: 「正解を出すこと」から「専門職として信頼性高く価値を生み出すこと」へと評価の焦点をシフトさせました。
現実への適用可能性: 現在の AI エージェントは、専門的なタスクにおいて一貫性と証拠に基づく根拠を欠いており、自律的な専門労働にはまだ準備ができていないことを示しました。
将来の指針: $OneMillion-Bench は、AI システムが単に「強力」であるだけでなく、「信頼性が高く、経済的に意味のある」ものとして実社会に導入されるための重要な基準となります。

本論文は、AI の専門職への導入における信頼性ギャップを可視化し、より安全で効果的な AI 展開に向けた道筋を示す重要なマイルストーンです。

\$OneMillion-Bench: How Far are Language Agents from Human Experts?