Are Large Language Models Truly Smarter Than Humans?

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次给当今最聪明的 AI 模型（大语言模型）进行的“突击体检”。

简单来说，大家现在看到新闻说"AI 在考试里打败了人类专家”，心里可能会想：“哇，它们真的变聪明了吗？”但这篇论文的作者们（Eshwar Reddy M 和 Sourav Karmakar）却提出了一个大胆且有趣的质疑：“它们可能不是变聪明了，它们只是‘背过题’了。”

为了证明这一点，作者对六款顶尖的 AI 模型（包括 GPT-4o、DeepSeek 等）做了三次不同的“考试”，就像给它们做了三次不同的体检。

以下是用通俗的比喻来解释这三次“体检”：

背景：AI 真的“学”会了，还是只是“死记硬背”？

想象一下，如果有一个学生要参加数学考试。

真正的聪明：他理解了数学原理，无论题目怎么变，他都能算出来。
死记硬背：他提前拿到了试卷，把题目和答案都背下来了。如果考试题目一个字都不改，他能考 100 分；但如果老师把题目换个说法，他可能就懵了。

现在的 AI 模型就像这个学生，而互联网上到处都是这些“考题”（因为很多测试题都公开在网上）。作者怀疑，AI 在训练时可能已经“偷看”过这些考题了。

第一次体检：查“作弊小抄” (实验 1)

方法：作者把 AI 考试（MMLU 测试）里的 500 多道题，拿去和互联网上的内容做对比。
比喻：就像老师拿着学生的试卷，去图书馆和互联网上搜，看看有没有人提前把这道题和答案贴在网上。
发现：

果然，13.8% 的题目在互联网上都能找到原题或非常相似的答案。
在哲学类题目中，这个比例高达 66.7%（几乎每 3 道题就有 2 道题被“泄露”过）。
在STEM（科学、技术、工程、数学） 领域，泄露率也高达 18.1%。
结论：AI 在训练时，确实“见过”很多考题。这就像学生提前拿到了“小抄”。

第二次体检：换个说法，还认识吗？ (实验 2)

方法：作者把考题的** wording（措辞）完全改写**，但意思不变。比如把“谁是美国第一任总统？”改成“谁领导了美国独立战争并成为了首任总统？”。
比喻：老师把试卷上的字全换了，但考的还是同一个知识点。如果学生是真正懂了，他应该能答对；如果他是死记硬背的，换个问法他就傻眼了。
发现：

当题目换个说法后，AI 的得分平均下降了 7 个百分点。
在法律和伦理领域，得分暴跌了 19.8 个百分点！这说明 AI 在这些领域并不是真的懂法律逻辑，只是记住了特定的法律条文问法。
特例：DeepSeek-R1 这个模型很怪，它平时分低，但换个说法分也不怎么掉。作者后来发现，它不是“真懂”，而是用了一种更高级的“死记硬背”（后面解释）。

第三次体检：挖出“大脑里的记忆” (实验 3)

方法：作者不直接问问题，而是把题目里的关键信息挖空，让 AI 去填空。比如把“美国第一任总统是____"变成“美国第一任总统是 [空白]"，看 AI 能不能把原来的词填回来。
比喻：这就像问学生：“你背的那道题，选项里那个错误的答案具体是怎么写的？”如果学生只是理解原理，他应该猜不出来具体的错误选项长什么样；但如果他背过题，他就能把那个错误的选项一字不差地背出来。
发现：

72.5% 的题目，AI 都能把被挖空的内容“猜”回来，而且准确率远高于瞎蒙。这证明它们脑子里确实存着这些题。
DeepSeek-R1 的“特异功能”：这个模型虽然能猜出大概意思（76.6%），但它一个字都背不下来（0% 完全匹配）。
- 解释：它不是像其他模型那样死记硬背“原文”，而是把题目的逻辑结构压缩存进了脑子里。就像它记住了“这道题考的是总统”，但没记住“华盛顿”这三个字的具体写法。这解释了为什么它换个问法（实验 2）时分数不掉——因为它记的是“骨架”，不是“皮肉”。

总结：AI 到底聪不聪明？

这篇论文得出了三个核心结论，用大白话来说就是：

作弊很普遍：AI 在公开考试里的“高分”，很大一部分是因为它们提前“背过题”了，而不是因为它们真的像人类专家那样理解了知识。
偏科严重：在科学、技术、工程、数学以及法律、哲学这些领域，AI 最依赖“背题”。一旦题目稍微变个花样，它们的“智商”就大打折扣。
真正的挑战：目前的排行榜（Leaderboard）可能误导了大家。如果我们要评估 AI 是否真的“聪明”，不能只看它做公开题的分数，而要看它在从未见过的、新出的题目上表现如何。

最后的比喻：
现在的 AI 就像是一个超级学霸，但它参加的是开卷考试，而且它把题库都背下来了。

当题目和它背的一模一样时，它比人类强。
但当题目稍微变个花样，或者遇到现实世界中从未见过的复杂情况时，它可能会因为“没背过”而开始胡编乱造（幻觉）。

给普通人的建议：
不要盲目相信 AI 在公开榜单上的高分。在医疗、法律等严肃领域，如果 AI 只是“背过题”，那它可能会因为记不住变体而犯下大错。我们需要更严格的测试，看看它们是不是真的“懂了”，而不是仅仅“记住了”。

Are Large Language Models Truly Smarter Than Humans?

背景：AI 真的“学”会了，还是只是“死记硬背”？

第一次体检：查“作弊小抄” (实验 1)

第二次体检：换个说法，还认识吗？ (实验 2)

第三次体检：挖出“大脑里的记忆” (实验 3)

总结：AI 到底聪不聪明？

论文技术总结：大型语言模型是否真的比人类更聪明？

1. 研究背景与核心问题

2. 方法论：三项互补实验

实验 1：词汇污染检测 (Lexical Contamination Detection)

实验 2：改写与间接引用诊断 (Paraphrase and Indirect-Reference Diagnostic)

实验 3：TS-Guessing 行为探测 (TS-Guessing Behavioral Probe)

3. 关键发现与结果

3.1 污染普遍存在且分布不均 (实验 1)

3.2 表面形式敏感性揭示记忆依赖 (实验 2)

3.3 内部记忆证据与 DeepSeek-R1 的“分布式记忆” (实验 3)

4. 核心贡献

5. 意义与启示

5.1 对 AI 评估的重新审视

5.2 政策与实践建议

6. 结论

Are Large Language Models Truly Smarter Than Humans?

背景：AI 真的“学”会了，还是只是“死记硬背”？

第一次体检：查“作弊小抄” (实验 1)

第二次体检：换个说法，还认识吗？ (实验 2)

第三次体检：挖出“大脑里的记忆” (实验 3)

总结：AI 到底聪不聪明？

论文技术总结：大型语言模型是否真的比人类更聪明？

1. 研究背景与核心问题

2. 方法论：三项互补实验

实验 1：词汇污染检测 (Lexical Contamination Detection)

实验 2：改写与间接引用诊断 (Paraphrase and Indirect-Reference Diagnostic)

实验 3：TS-Guessing 行为探测 (TS-Guessing Behavioral Probe)

3. 关键发现与结果

3.1 污染普遍存在且分布不均 (实验 1)

3.2 表面形式敏感性揭示记忆依赖 (实验 2)

3.3 内部记忆证据与 DeepSeek-R1 的“分布式记忆” (实验 3)

4. 核心贡献

5. 意义与启示

5.1 对 AI 评估的重新审视

5.2 政策与实践建议

6. 结论

类似论文

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents