LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

该论文提出了 LINGOLY-TOO 基准,通过专家设计的模板化正交混淆技术对语言学奥林匹克竞赛问题进行改造,在保留解题逻辑的同时阻断知识记忆捷径,从而有效剥离推理能力与知识储备,更准确地评估大语言模型的真正推理水平。

Jude Khouja, Lingyi Yang, Karolina Korgul, Simeon Hellsten, Vlad A. Neacsu, Harry Mayne, Ryan Othniel Kearns, Andrew M. Bean, Adam Mahdi

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 LINGOLY-TOO 的新测试,它的目的是给现在的顶级人工智能(AI)模型“照照镜子”,看看它们到底是在动脑筋思考,还是仅仅在死记硬背

我们可以用几个生动的比喻来理解这项研究:

1. 核心问题:AI 是在“考试”还是在“作弊”?

想象一下,你让一个学生做数学题。

  • 真正的推理:学生理解了公式,一步步推导出了答案。
  • 死记硬背(捷径):学生以前做过这道题,或者背过答案,直接写出来。

现在的 AI 模型(大语言模型)非常聪明,但它们有一个坏习惯:它们太擅长“死记硬背”了。如果训练数据里有过类似的问题,它们就能直接调取记忆,看起来像是在“推理”,其实只是“背诵”。这就像是一个学生背下了所有数学题的答案,但一旦题目稍微变个数字,他就不会做了。

2. 解决方案:给题目穿上“隐身衣”

为了解决这个问题,作者们设计了一个名为 LINGOLY-TOO 的测试。这个测试基于著名的“语言学奥林匹克竞赛”(UKLO)。

  • 原来的题目:比如,给你一些土耳其语单词和英语翻译,让你找出规律,翻译一个新词。
  • AI 的作弊方式:如果 AI 在训练时见过土耳其语,它可能不需要推理,直接利用内部知识就能猜出答案。
  • LINGOLY-TOO 的“魔法”:作者们给这些题目穿上了一件**“隐身衣”**(也就是论文中提到的“正交模糊化”)。
    • 他们把土耳其语里的字母全部替换成了奇怪的符号(比如把 a 变成 @,把 b 变成 #),但保留了单词内部的逻辑结构
    • 比喻:这就像把一道数学题里的数字 1, 2, 3 全部换成了 A, B, C,但加减乘除的规则完全没变。
    • 效果:AI 以前背过的“土耳其语知识”瞬间失效了,因为它不认识这些新符号。它必须像人类一样,从零开始观察规律、推理规则,才能解出答案。

3. 实验结果:AI 的“真面目”

当作者们用这套“隐身衣”测试了包括 GPT-5、Claude 3.7 等在内的顶级模型时,结果令人惊讶:

  • 没穿“隐身衣”时:AI 得分很高(比如 59 分),看起来像个天才。
  • 穿上“隐身衣”后:AI 的分数断崖式下跌(降到了 48 分甚至更低)。

这说明了什么?
这就好比一个学生,平时背题能考 90 分,但一旦把题目里的汉字换成他看不懂的符号,他只能考 50 分。这证明了他之前的“高分”很大程度上是靠记忆,而不是靠真正的理解

4. 关键发现:语言越“火”,作弊越容易

研究还发现了一个有趣的现象:

  • 对于英语、日语、意大利语这种大家经常接触、数据很多的“热门语言”,AI 的分数下降得特别厉害。
  • 对于冷门、数据少的小语种,AI 的分数反而下降得少一点。

比喻
这就好比 AI 是个“书呆子”,它把互联网上所有热门语言的资料都背下来了。一旦题目用热门语言出,它就能靠背诵作弊;但如果是冷门语言,它没背过,反而被迫开始动脑筋推理了。

5. 结论:我们需要更诚实的考试

这篇论文告诉我们:

  1. 目前的 AI 评分可能被高估了:很多高分是因为模型记住了数据,而不是真的学会了推理。
  2. 真正的推理能力还很弱:即使是最先进的“推理模型”,在面对这种全新的、需要逻辑推导的陌生语言谜题时,表现依然不够稳定,经常出错。
  3. 未来的方向:我们需要像 LINGOLY-TOO 这样的测试,把“记忆”和“推理”分开,才能知道 AI 到底是不是真的变聪明了。

一句话总结
这篇论文给 AI 出了一套“变装谜题”,发现它们很多所谓的“聪明”其实只是“背题”,一旦题目换个写法,它们就原形毕露了。这提醒我们,AI 离真正的“像人一样思考”,还有很长的路要走。