Each language version is independently generated for its own context, not a direct translation.
这篇论文讲述了一个关于**“大模型到底是在‘真思考’,还是在‘背答案’?”**的有趣故事。
想象一下,现在的 AI 编程助手(比如 GPT-4 或 Claude)就像是一个超级学霸。在普通的编程考试(比如用 Python 写代码)中,它们能考到 95 分以上,几乎满分。大家因此觉得:“哇,这个 AI 太聪明了,它肯定懂编程逻辑!”
但是,作者们(Aman Sharma 和 Paras Chopra)怀疑:这个学霸可能只是把题库背下来了,而不是真的学会了逻辑。
为了解开这个谜题,他们设计了一个全新的考试,叫 EsoLang-Bench。
1. 这个考试考什么?(“天书”挑战)
普通的编程考试(如 Python、Java)就像考**“普通话”。因为互联网上全是中文资料,AI 在训练时“读”过几亿遍,所以它只要靠记忆**就能答对。
而 EsoLang-Bench 考的是**“外星语”**。作者选了 5 种极其冷门、甚至有点“怪诞”的编程语言(比如 Brainfuck、Whitespace 等):
- Brainfuck:只有 8 个符号,像是一串乱码。
- Whitespace:代码里只有空格、制表符和换行符,肉眼根本看不见代码长什么样。
- Shakespeare:代码写成莎士比亚的戏剧剧本,变量是角色,计算是对白。
为什么选这些?
- 没人背过:互联网上关于这些语言的资料极少(比 Python 少 1000 到 10 万倍)。AI 在训练时几乎没“见过”它们,所以不可能靠背题库来作弊。
- 逻辑一样:虽然语言怪,但它们需要的核心逻辑(循环、判断、加减法)和 Python 是一模一样的。
这就好比:
如果 AI 在“普通话考试”里考 95 分,但在“火星语考试”里考 0 分,那就说明它只会背中文,不懂真正的逻辑。如果它真的懂逻辑,它应该能像人类一样,看着说明书(文档)和试错(运行反馈),学会说火星语。
2. 考试结果:学霸“翻车”了
作者让 5 个最顶尖的 AI 模型去考这个试,结果非常令人震惊:
- 简单题(Easy):AI 还能勉强做对一点点(比如 10% 左右)。这就像让 AI 用火星语说“你好”或“1+1=2",它可能猜对了。
- 中等及难题(Medium/Hard):AI 的得分是 0%。 无论怎么提示、怎么给例子,只要题目稍微复杂一点(比如算斐波那契数列、找质数),AI 就彻底懵了。
这说明了什么?
AI 在普通编程上的高分,很大程度上是**“死记硬背”的结果。一旦脱离了它背过的“舒适区”,它的真正推理能力**就原形毕露了。它并没有真正理解“如何写代码”,它只是记住了“代码长什么样”。
3. 尝试“作弊”也没用
作者还试了很多高级技巧,想帮 AI 提分:
- 给几个例子(Few-Shot):就像给学霸看两道例题。结果没用,因为 AI 没见过这种题型,看例题也学不会。
- 让它自己反思(Self-Reflection):让 AI 自己检查错误。结果也没用,因为它连基础语法都搞不定,反思也是白搭。
- 给它一个“编译器”当老师(Agentic Systems):让 AI 写代码,运行报错,再改,再运行。
- 结果:这是唯一有点用的方法,AI 的成绩稍微提高了一点点(从 0% 到了 10% 左右),但依然远不及人类水平。
4. 核心比喻:鹦鹉 vs. 工程师
- 普通编程测试:像是在考鹦鹉。鹦鹉背熟了“你好”、“再见”,就能在人类面前表演。AI 在 Python 测试中就像这只鹦鹉,背熟了海量代码片段。
- EsoLang-Bench:像是在考工程师。工程师需要理解机械原理,即使给他一本没见过的说明书,他也能造出机器。
- 结论:目前的 AI 更像是一只超级鹦鹉,而不是真正的工程师。它擅长模仿,但缺乏真正的“举一反三”和“从零学习”的能力。
5. 这篇论文有什么用?
- 打破幻觉:提醒我们不要盲目相信 AI 在现有榜单上的高分,那可能只是“刷题”刷出来的。
- 新的尺子:EsoLang-Bench 提供了一个更诚实的尺子,用来衡量 AI 是否真的具备通用推理能力。
- 未来的方向:真正的智能,应该是像人类一样,面对从未见过的“外星语言”或新任务时,能通过阅读文档和不断试错,真正学会它,而不是靠死记硬背。
一句话总结:
这篇论文给 AI 出了一套“天书”考题,结果发现,那些在普通编程上拿满分的 AI,其实只是背题高手;一旦题目变得陌生,它们就不会思考了。这提醒我们,离真正的“人工智能”还有很长的路要走。