The Rise and Fall of $G$ in AGI

⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇文章由圣塔菲研究所的 David C. Krakauer 撰写，标题为《AGI 中"G"的兴衰》。它用一种非常有趣且独特的视角，重新审视了我们对“人工智能通用智能”（AGI）的理解。

为了让你轻松理解，我们可以把这篇论文想象成一位心理学家在观察一群不断进化的“超级学生”，并试图搞清楚他们到底变聪明了，还是只是变得更“全能”了。

以下是用通俗语言和比喻对这篇论文核心内容的解读：

1. 核心概念：什么是"G"？

在心理学中，"G"代表一般智力（General Intelligence）。

比喻：想象一下，如果一个人在数学、历史、音乐和体育测试中都得了高分，心理学家就会说这个人有一个强大的"G 因子”。这意味着他的聪明是通用的，而不是只会做某一道题。
论文观点：研究者发现，过去几年的大型语言模型（LLM）也表现出了这种"G 因子”。如果你让一个模型在数学、写作、编程和常识问答上测试，它在一个项目上表现好，在其他项目上通常也好。这就像所有模型都在沿着同一条“变聪明”的轨道奔跑。

2. 第一阶段：G 的“上升期”（2023-2024 年初）

在这个阶段，所有的 AI 模型都在做同一件事：堆料。

比喻：这就像一群学生都在疯狂地背更多的书、读更多的报纸。
现象：无论是 OpenAI、Google 还是 Meta 发布的模型，只要它们“吃得更多”（训练数据更多）、“长得更大”（参数量更大），它们在所有考试（基准测试）中的分数都会同步上涨。
结果：这时候的"G"非常纯粹。主成分分析（一种统计方法）显示，90% 以上的分数差异都可以用“谁更努力/谁更大”这一个因素来解释。就像所有学生都在同一个赛道上赛跑，跑得快的就是全能的。

3. 转折点：G 的“衰落”与“旋转”（2024 年中以后）

这是论文最精彩的部分。随着时间推移，情况变了。

比喻：学生们不再只是死记硬背，他们开始分工合作，甚至带工具进考场了。
- 有的学生（如 o1, DeepSeek R1）开始专门练习“逻辑推理”，遇到难题会停下来一步步思考（思维链）。
- 有的学生开始专门练习“写代码”，并且学会了使用计算器、搜索引擎等工具。
现象：
1. G 的纯度下降了：以前 90% 的分数差异由“通用能力”解释，现在降到了 77%。这意味着模型之间开始分化了。
2. G 发生了“旋转”：以前"G"指向所有方向（全能），现在"G"的方向变了。它不再均匀地覆盖所有技能，而是更偏向于那些需要深度知识的任务。
3. 出现了“狐狸”和“刺猬”：
  - 以前的模型像刺猬：只有一种大智慧（通用），什么都会一点。
  - 现在的模型像狐狸：虽然表面上看起来还是通用的，但内部其实是由许多专门的小专家组成的（有的擅长推理，有的擅长编程，有的擅长记忆）。

4. 关键发现：正相关背后的“假象”

论文发现了一个有趣的现象：虽然所有模型在测试中看起来还是正相关的（即 A 好，B 也好），但这是一种假象。

比喻：如果你把“时间”这个因素去掉（比如不看谁更新，只看谁更强），你会发现模型之间其实存在竞争关系。
- 擅长“深度推理”的模型，往往在“快速执行”（如简单的算术或代码生成）上表现不如那些专门优化的模型。
- 擅长“广泛知识”的模型，可能在“复杂逻辑”上不如专门的推理模型。
结论：所谓的“通用智能”（G）其实是一个掩盖者。它掩盖了模型内部正在发生的专业化分工。就像一家大公司，表面上看大家都在为公司做贡献（正相关），但实际上研发部、销售部、财务部的工作方式完全不同，甚至互相牵制。

5. 最大的启示：智能是“带工具”的

论文最后提出了一个颠覆性的观点：现在的 AI 智能，本质上是“工具智能”。

比喻：以前我们测试 AI，就像测试一个不拿笔、不带计算器的人能不能做数学题。这测的是“裸脑”能力。
现实：现在的 AI（特别是 2024 年后的模型）就像是一个拿着计算器、开着搜索引擎、还能调用代码解释器的超级大脑。
- 如果你禁止它们用工具，它们可能就不那么“聪明”了。
- 这就好比人类：我们之所以聪明，不是因为我们的大脑硬件进化了（几千年来没变），而是因为我们发明了文字、图书馆、互联网和计算机。
结论：未来的“通用智能”（AGI）可能不再是一个单一的、像人类大脑那样的“超级大脑”，而是一个由各种工具、插件和专门模型组成的“智能社会”。

总结：论文想告诉我们什么？

别被“全能”骗了：AI 并没有变成一个完美的、在所有方面都一样的“神”。它们正在分裂成不同的专家。
G 因子在“贬值”：以前我们以为只要看一个总分（G 分数）就能知道模型有多强，现在发现这个分数越来越不准了，因为它掩盖了模型内部的复杂分工。
工具即智能：真正的智能不在于模型本身有多“大”，而在于它如何使用工具来扩展自己的能力。
未来的方向：我们不应该再执着于寻找一个单一的"AGI 指标”，而应该去理解这些模型是如何像社会一样，通过不同的“专家”和“工具”协作来解决复杂问题的。

一句话总结：
AI 正在从“一个全能的超级天才”（G 因子主导），进化成“一个由各种专业工具组成的复杂团队”（G 因子旋转、分化）。我们不再需要寻找一个单一的“通用大脑”，因为未来的智能本身就是协作与工具的产物。

Each language version is independently generated for its own context, not a direct translation.

1. 研究问题 (Problem)

核心议题：人工智能领域常声称大型语言模型（LLM）展现出“通用人工智能”（AGI）的能力，这种能力通常通过在不同基准测试（Benchmarks）上的广泛表现来证明。然而，这种“通用性”是真实的认知通用性（类似人类心理测量学中的 $g$ 因子），还是仅仅是统计上的相关性或训练数据的重叠？
现有争议：
- 心理测量学中， $g$ 因子（一般智力）被定义为不同认知任务得分之间的正相关（正流形，Positive Manifold）。
- AI 社区对此缺乏共识：Chollet 等人认为基准测试衡量的是技能而非通用推理能力；而 Bubeck 等人则认为 GPT-4 等模型展现了跨领域的通用智能。
- 关键缺口：缺乏对 LLM 基准测试数据随时间演变的动态分析，特别是缺乏将 LLM 视为“受试者”、基准测试视为“认知测试”的心理测量学视角的纵向研究。
研究目标：利用主成分分析（PCA）分析 2019 年至 2025 年间 39 个模型在 14 个基准测试上的表现，探究 LLM 的“通用智能”因子（G）是否真实存在、其结构是否随时间变化，以及是否存在潜在的“专业化”结构。

2. 方法论 (Methodology)

论文构建了一个严谨的统计框架，将 LLM 的评估过程类比为人类心理测量学实验：

数据结构：
- 受试者： $N=39$ 个 LLM 模型（来自 OpenAI, Anthropic, Google, Meta, DeepSeek 等），按发布时间排序。
- 测试： $K=14$ 个基准测试（如 MMLU, GSM8K, MATH, HumanEval, GPQA 等）。
- 矩阵：构建了一个 $N \times K$ 的分数矩阵 $X$ ，分数归一化至 [0, 100]。
核心分析技术：
- 正流形验证 (Positive Manifold)：计算基准测试间的成对皮尔逊相关系数，验证是否存在全正相关。
- 主成分分析 (PCA)：
  - 定义 G 因子 为标准化分数矩阵的第一主成分（PC1）。
  - 定义 G 分数 为模型在 PC1 上的投影。
  - 使用特征值诊断（方差解释率 $\rho_1$ 、主导比 $\delta$ 、有效维度 $d_{eff}$ ）来评估单因子结构的强度。
- 时间分解与动态分析：
  - 分 epoch 分析：将模型发展划分为四个算法时代（Epoch I-IV），分析每个时代内部的因子结构。
  - 扩展窗口分析 (Expanding-window)：按时间顺序逐步添加模型，观察 G 因子结构的动态变化。
  - 去趋势分析 (Detrending)：通过线性回归去除随时间推移的分数自然增长趋势，以区分“真实的通用结构”与“时间通胀”。
  - 偏相关分析 (Partial Correlation)：在剔除 G 因子（PC1）后，分析残差矩阵，以揭示潜在的“组因子”（Group Factors）或专业化结构。
  - 特征向量旋转：计算不同时间窗口间第一特征向量的夹角，检测 G 因子定义的基准权重是否发生结构性偏移。

3. 主要结果 (Key Results)

3.1 正流形的确认与 G 因子的主导地位

正流形存在：在 8 个具有足够样本覆盖的基准测试中，所有 28 对成对相关性均为正（平均 $r=0.82$ ），符合 Spearman 的 $g$ 因子定义。
强单因子结构：在包含 5 个核心基准（MMLU, GSM8K, MATH, HumanEval, GPQA）的 19 个完整数据模型中，PC1（G 因子）解释了 90% 的总方差。这远高于人类心理测量学中 $g$ 因子通常解释的 40-60%。
G 分数的增长：G 分数随模型发布时间单调递增，从 Llama 2 (G=0) 到 o1-preview/DeepSeek R1 (G=100)。

3.2 G 因子的“兴衰” (The Rise and Fall of G)

上升期 (Epoch II, 2023.03–2024.03)：在纯缩放（Scaling）主导时期，G 因子达到顶峰，解释了 92% 的方差。此时所有模型在所有任务上同步提升，结构高度单一。
衰退期 (Epoch III/IV, 2024.04–2025)：随着推理专用模型（如 o1, DeepSeek R1）和工具增强模型的引入，G 因子的解释力下降至 77%。
- 去趋势验证：去除时间趋势后，全样本的 G 解释率也降至 77%，与 Epoch III 的数值一致。这表明 G 的下降并非统计假象，而是架构分化的真实反映。
- 维度增加：有效维度 $d_{eff}$ 从 1.19 上升至 1.62，表明基准测试空间不再能被单一维度完全压缩。

3.3 特征向量的旋转与专业化

G 因子的旋转：当 DeepSeek V3 等具有独特推理/知识特征的模型进入分析窗口时，G 因子的第一特征向量发生了 6.4 度 的显著旋转（相比之下，4 基准测试集仅旋转 0.57 度）。
含义：G 的定义发生了改变。在“缩放时代”，G 代表“更大的 Transformer"；在“工具时代”，G 向知识密集型基准（MATH, GPQA）倾斜，而远离程序执行基准（HumanEval），因为工具接管了部分执行任务。

3.4 潜在的专业化结构 (AI-狐狸与刺猬)

偏相关分析：在剔除 G 因子后，残差矩阵显示出显著的负相关结构（7/10 对为负），揭示了被 G 掩盖的“组因子”：
- 推理组 (Reasoning)：MATH 和 GPQA 高度正相关（ $r_{resid}=0.59$ ）。
- 执行/流畅度组 (Execution)：GSM8K 和 HumanEval 高度正相关（ $r_{resid}=0.53$ ）。
- 隔离点：MMLU 在去除 G 后与其他基准几乎无相关或负相关。
结论：模型并非在所有能力上均匀提升，而是出现了“推理”与“执行”之间的权衡（Trade-off）。这暗示了模型内部正在分化，形成类似“狐狸（知道很多事）”和“刺猬（知道一件大事）”的混合体，而非单一的通用智能。

4. 关键贡献 (Key Contributions)

心理测量学视角的引入：首次系统地将 Spearman 的 $g$ 因子理论和心理测量学方法（PCA、偏相关、Horn 平行分析）应用于 LLM 的纵向基准测试数据，为 AGI 的评估提供了量化框架。
揭示 G 因子的动态演变：证明了 LLM 的“通用性”并非静态不变。随着架构从单纯缩放转向推理增强和工具使用，G 因子的结构发生了根本性变化（从 92% 降至 77% 的解释率），且特征向量发生旋转。
发现“抑制”结构：通过偏相关分析，揭示了在强正流形（General Intelligence）表象下，隐藏着不同能力维度（推理 vs. 执行）之间的负相关（抑制效应）。这意味着模型在某一方面的提升可能以牺牲另一方面的相对表现为代价。
重新定义 AGI 的评估范式：指出传统的“通用智能”概念可能正在失效。随着工具（代码解释器、搜索引擎）的集成，智能不再是单一子系统的属性，而是“个体 - 工具系统”的扩展属性。

5. 意义与启示 (Significance)

对 AGI 定义的修正：论文挑战了 AGI 作为单一、统一能力的传统观点。数据表明，AI 正在演变为一个**“心智社会” (Society of Minds)**，由不同的专业化模块（推理、执行、知识检索）组成，而非单一的通用智能体。
基准测试的局限性：当前的基准测试（无工具环境）可能正在失去意义。随着模型开始使用工具，评估其“原始认知能力”变得不再适用，就像评估一个会写字的人却不允许其使用笔一样。
托勒密式的 succession (Ptolemaic Succession)：作者提出，当前的 AI 发展类似于天文学中的托勒密体系——每出现一个新能力（新现象），就增加一个新的基准（本轮），导致模型越来越复杂。未来的方向应是寻找更简洁的潜在维度（开普勒式）或统一定律（牛顿式），而非不断堆砌基准。
未来方向：呼吁从关注单一的“通用智能”分数，转向探索智能的多维性和工具依赖性，尊重人类、非人类生命及机器智能的不同推理维度。

总结：这篇论文通过严谨的数据分析表明，LLM 的“通用智能”在早期（缩放时代）确实表现为一个强大的单一因子，但随着技术演进（推理与工具时代），这种通用性正在“衰落”并分化为多个专业化的子能力。这标志着 AI 发展进入了一个新的阶段，即从追求单一的通用智能，转向构建由多样化专业模块组成的复杂智能系统。

The Rise and Fall of GGG in AGI