SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 SimpleQA Verified 的新工具，你可以把它想象成是给大语言模型（LLM）进行的一场"去伪存真”的“记忆力体检"。

为了让你更容易理解，我们可以用几个生活中的比喻来拆解这篇论文的核心内容：

1. 为什么要搞这个新考试？（背景与问题）

想象一下，以前我们给 AI 做“记忆力测试”（比如之前的 SimpleQA 考试），就像是在用一张有很多漏洞的旧试卷。

题目太重复：就像试卷里全是“苹果是红色的”、“香蕉是黄色的”这种重复题，AI 只要背下答案就能拿高分，但这不代表它真的懂了。
答案有错：有些题目的标准答案本身就是错的，或者模棱两可，导致 AI 答对了反而被扣分，或者答错了被算对。
偏科严重：试卷里全是关于“科学”或“历史”的题目，很少考“艺术”或“体育”，这没法全面衡量 AI 的能力。

这就导致了一个问题：AI 的分数很高，但可能只是因为它“死记硬背”了这张有缺陷的试卷，而不是真的变聪明了。

2. 他们做了什么？（SimpleQA Verified 的诞生）

Google DeepMind 的团队决定重新出题，打造一张更公平、更严格的“新试卷”（SimpleQA Verified）。他们做了一系列像“精筛面粉”一样的工作：

去重（De-duplication）：把试卷里那些长得几乎一样的题目（比如问“哥伦比亚 A 镇什么时候建”和“哥伦比亚 B 镇什么时候建”）删掉，只保留真正有区分度的题目。
尊重版权（Respecting Publisher Choices）：有些网站的主人说“我的内容不许被 AI 抓取学习”。如果题目答案只能在这些网站上找到，他们就删掉这道题，避免让 AI 去“偷看”它不该看的东西。
平衡科目（Balancing Topics）：确保试卷里不仅有科学题，还有艺术、体育、地理等各种题目，不让 AI 偏科。
修正答案（Reconciliation）：人工检查每一道题，把那些有争议、答案模糊或者明显错误的地方修好，确保“标准答案”是铁板钉钉的事实。
增加难度（Increasing Headroom）：最后，他们挑出了最难的那 1000 道题。如果连最顶尖的 AI 都能轻松答对，那这道题就太简单了，直接扔掉。

结果：从原来的 4000 多道题，经过层层筛选，最终留下了1000 道高质量、无重复、答案准确且难度适中的“真·考题”。

3. 怎么给 AI 打分？（评分标准的升级）

以前的评分系统像个死板的机器人，AI 只要多写几句废话，或者稍微改个数字，它可能就判错。

这次他们升级了“阅卷老师”（Autorater）：

数字题更灵活：如果问“有多少人”，标准答案是 8282 人。以前 AI 答 8333 人可能被判错，现在新规则告诉阅卷老师："8199 到 8365 之间都算对”，因为统计数字本来就有误差。
抓重点：如果 AI 答对了核心，但前面啰嗦了一堆，阅卷老师会忽略废话，只看核心答案。
拒绝“和稀泥”：如果 AI 说“可能是 A，也可能是 B，我不确定”，以前可能算“尝试了”，现在直接算“没尝试”，逼着 AI 必须给出一个确定的答案。

4. 考试结果如何？（谁赢了？）

在这张新试卷上，他们测试了市面上最厉害的几款 AI（包括 GPT-5、Claude Opus 4 等）。

冠军：Gemini 2.5 Pro 拿到了第一名（F1 分数 55.6 分）。
表现：虽然分数看起来只有 50 多分（满分 100），但这其实很难得！因为这张试卷是专门为了难倒AI 而设计的，而且没有让 AI 使用搜索引擎（只考它脑子里的知识）。
对比：很多其他模型在这张新试卷上的表现比在旧试卷上差，这说明旧试卷确实存在“水”分，而新试卷更能测出真本事。

总结

这篇论文的核心思想就是：为了看清 AI 到底有没有“真材实料”，我们必须先修好“尺子”。

SimpleQA Verified 就是一把更精准、更公平、更严格的尺子。它不仅能帮开发者发现 AI 哪里还在“胡编乱造”（幻觉），还能防止 AI 只是单纯地“背题”。通过这把尺子，我们能看到 AI 在记忆事实方面真正的进步，从而推动 AI 变得更可靠、更值得信赖。

一句话概括：Google 给 AI 换了一套没有漏洞、难度适中且答案精准的“新考卷”，发现 Gemini 2.5 Pro 目前记忆力最好，同时也给全行业提供了一个更靠谱的“体检标准”。

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

1. 为什么要搞这个新考试？（背景与问题）

2. 他们做了什么？（SimpleQA Verified 的诞生）

3. 怎么给 AI 打分？（评分标准的升级）

4. 考试结果如何？（谁赢了？）

总结

SimpleQA Verified：衡量参数化知识的事实性基准技术总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 数据清洗与去重

2.2 尊重网络发布者意愿

2.3 多样性平衡

2.4 冲突源协调与事实核查

2.5 增加基准难度（Headroom）

2.6 自动评分器（Autorater）改进

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

1. 为什么要搞这个新考试？（背景与问题）

2. 他们做了什么？（SimpleQA Verified 的诞生）

3. 怎么给 AI 打分？（评分标准的升级）

4. 考试结果如何？（谁赢了？）

总结

SimpleQA Verified：衡量参数化知识的事实性基准技术总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 数据清洗与去重

2.2 尊重网络发布者意愿

2.3 多样性平衡

2.4 冲突源协调与事实核查

2.5 增加基准难度（Headroom）

2.6 自动评分器（Autorater）改进

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

Image Captioning via Compact Bidirectional Architecture

Correspondence Analysis and PMI-Based Word Embeddings: A Comparative Study

Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus

ThinkQE: Query Expansion via an Evolving Thinking Process

AgentCoMa: A Compositional Benchmark Mixing Commonsense and Mathematical Reasoning in Real-World Scenarios