\$OneMillion-Bench: How Far are Language Agents from Human Experts?

本文提出了\$OneMillion-Bench,一个涵盖法律、金融、工业、医疗和自然科学五大领域的专家级基准测试,旨在通过评估语言智能体在权威信息检索、矛盾证据处理及专业规则应用等复杂场景中的表现,衡量其从聊天助手向具备专业深度与可靠性的长程智能体迈进的程度。

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 $OneMillion-Bench(100 万美元基准测试) 的全新“考试”,用来测试现在的 AI 智能体(Agent)到底有没有真本事,能不能像人类专家一样处理复杂的工作。

为了让你更容易理解,我们可以把这篇论文的内容想象成一场**“从做题家到职场精英”的终极考验**。

1. 为什么要搞这个新考试?(背景)

以前的 AI 考试(比如 MMLU 或 GPQA),就像是在做**“高难度数学题”或“百科问答”**。

  • 现状: AI 在这些考试里经常拿满分,就像是一个背熟了所有教科书、擅长做选择题的“做题家”。
  • 问题: 但现实世界的工作不是做选择题。比如,一个律师要处理跨国并购,一个医生要制定复杂的治疗方案,或者一个精算师要计算保险储备金。这些工作需要查资料、理清逻辑、遵守行业规矩,甚至要在信息冲突时做决策
  • 比喻: 以前的考试是问“苹果和梨哪个重?”,现在的考试是问“如果你要开一家水果店,怎么根据天气、库存和竞争对手的价格,制定下周的进货和定价策略,还要保证不赔钱?”

2. 这个新考试长什么样?(核心设计)

这个基准测试由 400 个真实世界的高难度任务组成,涵盖了法律、金融、医疗、自然科学和工业五大领域。

  • 价值锚定(为什么叫 100 万美元?):
    作者没有随便出题,而是请了真正的行业专家(比如资深律师、医生)来设计题目。他们计算了完成这些任务需要多少小时,再乘以专家的小时工资。

    • 比喻: 这就像是一个**“模拟职场”**。如果你能帮老板省下 100 万美元的咨询费,或者帮你赚回 100 万美元的价值,那你的能力就是值钱的。所有题目的总价值超过了 100 万美元,所以叫 $1M-Bench。
  • 评分标准(不再只看答案):
    以前的考试只看“答案对不对”。现在的考试看**“过程好不好”**。

    • 比喻: 就像评厨师。以前只看菜好不好吃(答案),现在还要看:你用的食材新不新鲜(事实准确性)、切菜刀工稳不稳(逻辑连贯性)、有没有遵守食品安全规定(专业合规性)、有没有浪费食材(可行性)。
    • 如果 AI 瞎编了一个正确答案(幻觉),或者虽然答案对了但违反了行业规定,它会被扣分,甚至直接不及格。

3. 考试结果怎么样?(主要发现)

作者测试了 35 个最新的 AI 模型(包括 GPT-5、Claude、Gemini 等),结果发现了一些有趣的现象:

  • 真正的“学霸”出现了,但差距拉大了:
    Claude-Opus-4.6 这样的模型表现最好,它不仅能回答问题,还能像专家一样思考。

    • 比喻: 有些 AI 是“普通大学生”,有些则是“资深专家”。
  • “上网搜索”是把双刃剑:
    给 AI 加上联网搜索功能,对强者是如虎添翼,对弱者可能是画蛇添足

    • 比喻: 就像给一个经验丰富的侦探(强模型)配了个超级数据库,他能迅速找到线索破案;但给一个新手侦探(弱模型)配了个数据库,他可能会在海量信息里迷路,或者被假新闻带偏,反而把案子搞砸了。
  • “深度研究”模型并不总是赢:
    有些专门设计用来做长文本研究的 AI(Deep Research Agents),表现并没有比那些“带搜索功能的通用大模型”强多少。

    • 结论: 关键不在于你读了多少书(搜索了多少网页),而在于你能不能精准地理解规则并遵守它们
  • 时间敏感性是个大坑:
    AI 在处理“过时信息”或“实时变化”的问题时,经常翻车。

    • 比喻: 就像让你用 2020 年的地图去开 2026 年的车,AI 很容易迷路。

4. 这个考试意味着什么?(未来展望)

这篇论文的核心思想是:AI 的进化方向变了。

  • 从“能说话”到“能干活”: 我们不再满足于 AI 能写出漂亮的文章,我们更关心它能不能在真实的商业环境中,安全、可靠、合规地帮人类解决实际问题。
  • 经济价值是试金石: 未来的 AI 好不好,不看它考试考多少分,而看它能帮人类省多少钱、赚多少钱
  • 人机关系的新篇章: 正如论文引言所说:“如果 AI 学会了捡起散落的六便士(处理琐碎、高价值的工作),人类就能获得仰望月亮的自由(去从事更有创造性的工作)。”

总结

$OneMillion-Bench 就像是一个**“职场入职体检”**。它不再问 AI“你知不知道这个知识点”,而是问“你能不能像个真正的专家一样,在复杂的现实世界里,把这件值钱的活儿干好”。

目前的 AI 虽然已经很强,但在处理这种需要深度推理、严格合规和实时决策的“专家级工作”时,离真正的人类专家还有距离。这个基准测试就是为了推动 AI 从“聪明的聊天机器人”进化为“可靠的职场合伙人”。