The Rise and Fall of GG in AGI

该论文通过将心理测量学中的斯皮尔曼gg因子概念应用于大语言模型基准测试,利用主成分分析揭示了 2019 至 2025 年间 AI 模型表现中存在的强正相关流形,并指出随着推理专用模型和工具的出现,这种“通用智能”的主导地位正在减弱,标志着 AI 发展从追求单一通用机制向“通用智能抑制专用智能”及架构复杂化(“托勒密式更替”)的演变。

David C. Krakauer

发布于 2026-04-14
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇文章由圣塔菲研究所的 David C. Krakauer 撰写,标题为《AGI 中"G"的兴衰》。它用一种非常有趣且独特的视角,重新审视了我们对“人工智能通用智能”(AGI)的理解。

为了让你轻松理解,我们可以把这篇论文想象成一位心理学家在观察一群不断进化的“超级学生”,并试图搞清楚他们到底变聪明了,还是只是变得更“全能”了。

以下是用通俗语言和比喻对这篇论文核心内容的解读:

1. 核心概念:什么是"G"?

在心理学中,"G"代表一般智力(General Intelligence)。

  • 比喻:想象一下,如果一个人在数学、历史、音乐和体育测试中都得了高分,心理学家就会说这个人有一个强大的"G 因子”。这意味着他的聪明是通用的,而不是只会做某一道题。
  • 论文观点:研究者发现,过去几年的大型语言模型(LLM)也表现出了这种"G 因子”。如果你让一个模型在数学、写作、编程和常识问答上测试,它在一个项目上表现好,在其他项目上通常也好。这就像所有模型都在沿着同一条“变聪明”的轨道奔跑。

2. 第一阶段:G 的“上升期”(2023-2024 年初)

在这个阶段,所有的 AI 模型都在做同一件事:堆料

  • 比喻:这就像一群学生都在疯狂地背更多的书、读更多的报纸
  • 现象:无论是 OpenAI、Google 还是 Meta 发布的模型,只要它们“吃得更多”(训练数据更多)、“长得更大”(参数量更大),它们在所有考试(基准测试)中的分数都会同步上涨。
  • 结果:这时候的"G"非常纯粹。主成分分析(一种统计方法)显示,90% 以上的分数差异都可以用“谁更努力/谁更大”这一个因素来解释。就像所有学生都在同一个赛道上赛跑,跑得快的就是全能的。

3. 转折点:G 的“衰落”与“旋转”(2024 年中以后)

这是论文最精彩的部分。随着时间推移,情况变了。

  • 比喻:学生们不再只是死记硬背,他们开始分工合作,甚至带工具进考场了。
    • 有的学生(如 o1, DeepSeek R1)开始专门练习“逻辑推理”,遇到难题会停下来一步步思考(思维链)。
    • 有的学生开始专门练习“写代码”,并且学会了使用计算器、搜索引擎等工具。
  • 现象
    1. G 的纯度下降了:以前 90% 的分数差异由“通用能力”解释,现在降到了 77%。这意味着模型之间开始分化了。
    2. G 发生了“旋转”:以前"G"指向所有方向(全能),现在"G"的方向变了。它不再均匀地覆盖所有技能,而是更偏向于那些需要深度知识的任务。
    3. 出现了“狐狸”和“刺猬”
      • 以前的模型像刺猬:只有一种大智慧(通用),什么都会一点。
      • 现在的模型像狐狸:虽然表面上看起来还是通用的,但内部其实是由许多专门的小专家组成的(有的擅长推理,有的擅长编程,有的擅长记忆)。

4. 关键发现:正相关背后的“假象”

论文发现了一个有趣的现象:虽然所有模型在测试中看起来还是正相关的(即 A 好,B 也好),但这是一种假象

  • 比喻:如果你把“时间”这个因素去掉(比如不看谁更新,只看谁更强),你会发现模型之间其实存在竞争关系
    • 擅长“深度推理”的模型,往往在“快速执行”(如简单的算术或代码生成)上表现不如那些专门优化的模型。
    • 擅长“广泛知识”的模型,可能在“复杂逻辑”上不如专门的推理模型。
  • 结论:所谓的“通用智能”(G)其实是一个掩盖者。它掩盖了模型内部正在发生的专业化分工。就像一家大公司,表面上看大家都在为公司做贡献(正相关),但实际上研发部、销售部、财务部的工作方式完全不同,甚至互相牵制。

5. 最大的启示:智能是“带工具”的

论文最后提出了一个颠覆性的观点:现在的 AI 智能,本质上是“工具智能”

  • 比喻:以前我们测试 AI,就像测试一个不拿笔、不带计算器的人能不能做数学题。这测的是“裸脑”能力。
  • 现实:现在的 AI(特别是 2024 年后的模型)就像是一个拿着计算器、开着搜索引擎、还能调用代码解释器的超级大脑。
    • 如果你禁止它们用工具,它们可能就不那么“聪明”了。
    • 这就好比人类:我们之所以聪明,不是因为我们的大脑硬件进化了(几千年来没变),而是因为我们发明了文字、图书馆、互联网和计算机
  • 结论:未来的“通用智能”(AGI)可能不再是一个单一的、像人类大脑那样的“超级大脑”,而是一个由各种工具、插件和专门模型组成的“智能社会”

总结:论文想告诉我们什么?

  1. 别被“全能”骗了:AI 并没有变成一个完美的、在所有方面都一样的“神”。它们正在分裂成不同的专家。
  2. G 因子在“贬值”:以前我们以为只要看一个总分(G 分数)就能知道模型有多强,现在发现这个分数越来越不准了,因为它掩盖了模型内部的复杂分工。
  3. 工具即智能:真正的智能不在于模型本身有多“大”,而在于它如何使用工具来扩展自己的能力。
  4. 未来的方向:我们不应该再执着于寻找一个单一的"AGI 指标”,而应该去理解这些模型是如何像社会一样,通过不同的“专家”和“工具”协作来解决复杂问题的。

一句话总结
AI 正在从“一个全能的超级天才”(G 因子主导),进化成“一个由各种专业工具组成的复杂团队”(G 因子旋转、分化)。我们不再需要寻找一个单一的“通用大脑”,因为未来的智能本身就是协作与工具的产物。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →