\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 $OneMillion-Bench（100 万美元基准测试） 的全新“考试”，用来测试现在的 AI 智能体（Agent）到底有没有真本事，能不能像人类专家一样处理复杂的工作。

为了让你更容易理解，我们可以把这篇论文的内容想象成一场**“从做题家到职场精英”的终极考验**。

1. 为什么要搞这个新考试？（背景）

以前的 AI 考试（比如 MMLU 或 GPQA），就像是在做**“高难度数学题”或“百科问答”**。

现状： AI 在这些考试里经常拿满分，就像是一个背熟了所有教科书、擅长做选择题的“做题家”。
问题： 但现实世界的工作不是做选择题。比如，一个律师要处理跨国并购，一个医生要制定复杂的治疗方案，或者一个精算师要计算保险储备金。这些工作需要查资料、理清逻辑、遵守行业规矩，甚至要在信息冲突时做决策。
比喻： 以前的考试是问“苹果和梨哪个重？”，现在的考试是问“如果你要开一家水果店，怎么根据天气、库存和竞争对手的价格，制定下周的进货和定价策略，还要保证不赔钱？”

2. 这个新考试长什么样？（核心设计）

这个基准测试由 400 个真实世界的高难度任务组成，涵盖了法律、金融、医疗、自然科学和工业五大领域。

价值锚定（为什么叫 100 万美元？）：
作者没有随便出题，而是请了真正的行业专家（比如资深律师、医生）来设计题目。他们计算了完成这些任务需要多少小时，再乘以专家的小时工资。
- 比喻： 这就像是一个**“模拟职场”**。如果你能帮老板省下 100 万美元的咨询费，或者帮你赚回 100 万美元的价值，那你的能力就是值钱的。所有题目的总价值超过了 100 万美元，所以叫 $1M-Bench。
评分标准（不再只看答案）：
以前的考试只看“答案对不对”。现在的考试看**“过程好不好”**。
- 比喻： 就像评厨师。以前只看菜好不好吃（答案），现在还要看：你用的食材新不新鲜（事实准确性）、切菜刀工稳不稳（逻辑连贯性）、有没有遵守食品安全规定（专业合规性）、有没有浪费食材（可行性）。
- 如果 AI 瞎编了一个正确答案（幻觉），或者虽然答案对了但违反了行业规定，它会被扣分，甚至直接不及格。

3. 考试结果怎么样？（主要发现）

作者测试了 35 个最新的 AI 模型（包括 GPT-5、Claude、Gemini 等），结果发现了一些有趣的现象：

真正的“学霸”出现了，但差距拉大了：
像 Claude-Opus-4.6 这样的模型表现最好，它不仅能回答问题，还能像专家一样思考。
- 比喻： 有些 AI 是“普通大学生”，有些则是“资深专家”。
“上网搜索”是把双刃剑：
给 AI 加上联网搜索功能，对强者是如虎添翼，对弱者可能是画蛇添足。
- 比喻： 就像给一个经验丰富的侦探（强模型）配了个超级数据库，他能迅速找到线索破案；但给一个新手侦探（弱模型）配了个数据库，他可能会在海量信息里迷路，或者被假新闻带偏，反而把案子搞砸了。
“深度研究”模型并不总是赢：
有些专门设计用来做长文本研究的 AI（Deep Research Agents），表现并没有比那些“带搜索功能的通用大模型”强多少。
- 结论： 关键不在于你读了多少书（搜索了多少网页），而在于你能不能精准地理解规则并遵守它们。
时间敏感性是个大坑：
AI 在处理“过时信息”或“实时变化”的问题时，经常翻车。
- 比喻： 就像让你用 2020 年的地图去开 2026 年的车，AI 很容易迷路。

4. 这个考试意味着什么？（未来展望）

这篇论文的核心思想是：AI 的进化方向变了。

从“能说话”到“能干活”： 我们不再满足于 AI 能写出漂亮的文章，我们更关心它能不能在真实的商业环境中，安全、可靠、合规地帮人类解决实际问题。
经济价值是试金石： 未来的 AI 好不好，不看它考试考多少分，而看它能帮人类省多少钱、赚多少钱。
人机关系的新篇章： 正如论文引言所说：“如果 AI 学会了捡起散落的六便士（处理琐碎、高价值的工作），人类就能获得仰望月亮的自由（去从事更有创造性的工作）。”

总结

$OneMillion-Bench 就像是一个**“职场入职体检”**。它不再问 AI“你知不知道这个知识点”，而是问“你能不能像个真正的专家一样，在复杂的现实世界里，把这件值钱的活儿干好”。

目前的 AI 虽然已经很强，但在处理这种需要深度推理、严格合规和实时决策的“专家级工作”时，离真正的人类专家还有距离。这个基准测试就是为了推动 AI 从“聪明的聊天机器人”进化为“可靠的职场合伙人”。

Each language version is independently generated for its own context, not a direct translation.

以下是关于论文 "$OneMillion-Bench: How Far are Language Agents from Human Experts?" 的详细技术总结：

1. 研究背景与问题 (Problem)

随着大语言模型（LLMs）从简单的聊天助手演变为具备多步推理和工具使用能力的智能体（Agents），现有的评估基准（Benchmarks）大多局限于结构化试题或考试风格的任务。这些基准存在以下核心缺陷：

脱离真实专业场景：无法反映法律、金融、医疗等高风险领域中对专业知识、严格约束和复杂工作流的实际需求。
缺乏经济价值评估：现有基准难以量化智能体在真实世界中创造的经济价值。
评估维度单一：往往只关注最终答案的正确性，而忽略了推理过程、证据溯源、合规性及专业判断的严谨性。

因此，亟需一个能够模拟真实专业工作流、具备高经济价值且能多维度评估智能体能力的基准。

2. 方法论 (Methodology)

2.1 数据集构建 ($OneMillion-Bench)

规模与覆盖：包含 400 个 由专家精心策划的开放性问题，覆盖 5 大核心领域：金融（Finance）、法律（Law）、医疗（Healthcare）、自然科学（Natural Science）和工业（Industry）。
双语与本地化：包含 200 个英文和 200 个中文任务。中文任务并非简单翻译，而是针对中国大陆的法律法规、行业标准（如中国会计准则、医保政策）和文化语境专门构建。
经济价值锚定：每个任务都根据资深专家完成该任务所需的时间及其市场时薪进行定价。所有任务的总估算价值超过 100 万美元，这也是基准名称的由来。
数据构建流程：
1. 任务创建：领域专家设计半开放式任务，定义参考答案和评分细则（Rubrics）。
2. 对抗性验证：使用前沿模型进行测试，仅保留那些现有模型无法轻易通过的任务，确保区分度。
3. 同行评审：由同领域的第二位专家进行独立评审和修订，确保公平性和专业性。
4. 双向截断：剔除过易（所有模型都能做）和过难（所有模型都完全无法做）的任务。

2.2 评估机制

基于评分细则（Rubrics-based）的评估：不同于传统的“对错”判断，采用多维度的评分细则。
- 专家评分（Expert Score）：基于加权评分细则计算，涵盖事实准确性、逻辑连贯性、实际可行性和专业合规性。
- 通过率（Pass Rate）：衡量智能体是否达到专业及格线（Expert Score $\ge$ 0.7）。
- 负向惩罚机制：引入负分细则（如违反行业规范、事实幻觉、忽略关键约束），模拟真实世界中“错误成本”的不对称性。
能力分类：将任务能力细分为四个维度：网络搜索（Web Search）、推理（Reasoning）、表达（Verbalization）和指令遵循（Instruction Following）。
经济价值计算： $V = T_{Expert} \times W_{Hourly}$ ，将智能体的表现转化为可量化的经济产出。

3. 主要贡献 (Key Contributions)

首个基于经济价值的专业智能体基准：将智能体的能力评估从“准确率”转向“经济价值”和“专业可靠性”，量化了智能体在专业劳动中的实际产出。
高保真的专业工作流模拟：任务设计强调多步推理、权威信源检索、冲突证据解决及严格约束下的决策，填补了静态考试与真实部署之间的空白。
细粒度的评估框架：提出了包含正向加分和负向惩罚的评分细则体系，能够精准诊断智能体在事实检索、逻辑推理、指令遵循等方面的具体短板。
大规模实证研究：对 35 个主流模型（包括 Vanilla 模型、带搜索的 Agent、深度研究 Agent）进行了全面评测，揭示了当前技术在专业领域的真实差距。

4. 实验结果 (Results)

4.1 模型表现概览

领先者：Claude-Opus-4.6 在原生模型和开启搜索的模型中均表现最佳，其 Expert Score 和 Pass Rate 均处于领先地位。
搜索工具的双刃剑效应：
- 对于强模型（如 Claude-Opus-4.6, GPT-5.2），开启网络搜索能显著提升表现（尤其是事实检索和推理能力）。
- 对于部分弱模型，搜索反而导致性能下降，因为模型难以从噪声或冲突信息中筛选出有效证据，甚至产生“奖励黑客”行为。
深度研究 Agent 的局限：专门的深度研究 Agent（如 o3-DeepResearch）表现中等，但在整体专业深度和合规性上，并未显著超越具备搜索能力的通用强模型。
领域差异：金融领域普遍最难（得分最低），医疗和法律领域相对得分较高，但不同语言（Global vs. CN）下的表现差异较小，说明难度主要源于领域知识的复杂性而非语言本身。

4.2 关键发现

“接近但未通过”现象：许多模型在 Expert Score 上表现尚可（~45-50%），但 Pass Rate 极低（<25%）。这表明模型往往能部分满足要求，但难以在大量问题上完全达到专业及格线。
指令遵循最脆弱：在开启搜索后，指令遵循（Instruction Following）能力的波动最大，部分模型因检索干扰而偏离任务约束。
帕累托最优分析：具备搜索工具的 Agent 在“投入成本 vs. 经济产出”上呈现出显著的帕累托优势，能够以较低成本解决高价值专业问题。
时间敏感性：模型在处理随时间变化的信息（Time-sensitive）时表现明显下降，显示出对实时信息更新的推理能力仍有不足。

5. 意义与影响 (Significance)

重新定义评估标准：$OneMillion-Bench 推动了 AI 评估从“做题能力”向“做事能力”的转变，强调智能体在真实经济活动中的可靠性和合规性。
揭示当前差距：实验表明，尽管模型在通用任务上进步巨大，但在需要深度专业知识、严格约束和长链条推理的高价值专业场景中，距离人类专家仍有显著差距（尤其是通过率和一致性方面）。
指导模型优化：通过细粒度的评分细则，为模型开发者提供了明确的改进方向，如增强证据溯源能力、提升对负向约束的敏感度以及优化多步推理的稳定性。
促进可信 AI 落地：该基准为金融、医疗等关键领域的 AI 部署提供了更严格的“安全网”和评估工具，有助于加速 AI 系统从“强大”向“可信且经济有效”的演进。

总结：$OneMillion-Bench 不仅是一个新的基准，更是一套评估语言智能体是否具备“专业级”工作能力的完整方法论。它证明了当前的 AI 系统在处理高价值、高风险的专业任务时，仍面临事实准确性、逻辑严谨性和合规性方面的重大挑战，需要进一步的技术突破才能胜任真正的专家级工作。