Position: Science of AI Evaluation Requires Item-level Benchmark Data

该立场论文主张,为了建立严谨的 AI 评估科学并解决当前评估范式的系统性缺陷,必须采用项目级基准数据以支持细粒度诊断和以证据为中心的评估,并为此推出了 OpenEval 数据仓库。

Han Jiang, Susu Zhang, Xiaoyuan Yi, Xing Xie, Ziang Xiao

发布于 2026-04-07
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章的核心观点可以概括为:要真正搞清楚人工智能(AI)有多聪明,我们不能只看它的“总分”,必须把它的“每一道题”都拿出来细细研究。

为了让你更容易理解,我们可以把现在的 AI 评估比作**“学校考试”**,而这篇文章就是给教育界和科技界的一封“建议书”。

1. 现状:我们只盯着“成绩单”,却忘了“错题本”

现在的做法(像只看总分):
目前,当我们评估一个 AI 模型(比如让它做数学题、写代码或回答常识问题)时,大家通常只关心最后的平均分

  • 比喻: 就像老师发成绩单,只告诉你:“小明这次数学考了 95 分,小红考了 90 分。”
  • 问题: 我们不知道小明是擅长几何但粗心大意,还是靠猜对了最后一道大题才拿的高分。我们也不知道小红是不是因为题目太简单才考好的。

文章指出的问题:

  • 题目太简单(饱和): 很多 AI 现在的水平已经超过了旧题库的难度。就像让一个大学生去考小学一年级的数学,他当然能拿满分,但这不能证明他有多聪明。
  • 作弊嫌疑(数据污染): AI 可能在训练时“背过”了这些考题。就像学生考前偷看了答案,考高分是假的。
  • 题目有歧义: 有些题目本身出得不好,或者 AI 是靠“走捷径”(比如猜关键词)做对的,而不是真的懂了逻辑。

后果: 我们看到的“高分”可能只是假象,无法真实反映 AI 的能力,导致我们在医疗、法律等高风险领域盲目信任 AI。

2. 核心主张:我们需要“逐题分析”(Item-level Data)

这篇文章呼吁:科学家和开发者必须公开每一道题的详细信息,包括:

  • 题目具体是什么?
  • AI 是怎么回答的?(它选了哪个选项?它生成的文字是什么?)
  • 这道题难不难?
  • 这道题能不能区分出“聪明”和“笨”的 AI?

比喻:
这就好比不仅要看总分,还要把**“错题本”“答题过程”**全部公开。

  • 如果 AI 在“逻辑推理”题上全错,但在“死记硬背”题上全对,我们就知道它其实是个“背书机器”,而不是“思考者”。
  • 如果某道题大家(包括人类专家)都觉得有歧义,但 AI 全做对了,那可能是题目出错了,或者是 AI 在“钻空子”。

3. 为什么要这么做?(三大好处)

文章用心理学和教育的经验告诉我们,这样做有三大好处:

  1. 像医生做体检,而不是只看体温:

    • 只看总分就像只量体温,发烧了也不知道是感冒还是肺炎。
    • 逐题分析就像做 CT 扫描,能精准定位 AI 的“病灶”:是逻辑不行?是知识盲区?还是被题目里的陷阱骗了?
  2. 防止“题目过时”和“作弊”:

    • 通过观察每一道题的表现,如果发现某道题 AI 做得太好(甚至好得不正常),或者太难(大家都不行),就能及时把这道题从题库里剔除或修改。
    • 这就像发现考试题目被泄露了,马上换一套新题,保证考试的公平性。
  3. 让 AI 变得更“懂行”:

    • 通过分析 AI 在特定类型题目上的表现,我们可以知道它到底擅长什么。比如,它可能很擅长写诗,但完全不懂复杂的物理公式。这样我们在用它时,就能扬长避短。

4. 作者做了什么?(OpenEval 项目)

为了推动这个改变,作者们建立了一个叫 OpenEval 的“大仓库”。

  • 比喻: 以前大家各自关起门来出题、考试、只发个总分。现在,作者们建了一个**“公开图书馆”**,把成千上万道题目、AI 的每一份答卷、以及详细的得分统计都整理好,免费分享给大家。
  • 目的是让全世界的研究者都能像“阅卷老师”一样,拿着放大镜去研究每一道题,从而建立更科学、更严谨的 AI 评估体系。

5. 总结:从“猜谜”到“科学”

这篇文章其实是在说:AI 评估不能靠“猜”和“大概”,必须靠“证据”。

  • 以前: “这个 AI 很强,因为它在排行榜上第一名。”(像看广告)
  • 以后(作者希望): “这个 AI 很强,因为我们在 1000 道题目中,发现它在逻辑推理、数学计算和长文本理解上都有详细的数据支持,且排除了作弊和题目过时的干扰。”(像看体检报告)

一句话总结:
要想让 AI 真正安全、可靠地服务于人类,我们就不能只盯着冷冰冰的“总分”,必须把每一道题、每一个回答都摊开在阳光下,用**“逐题分析”**的科学方法,去真正读懂 AI 的聪明与愚蠢。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →