原作者： Konstantin Nikolaou, Jonas Scheunemann, Sven Krippendorf, Samuel Tovey, Christian Holm

发布于 2026-06-01

📖 1 分钟阅读☕ 轻松阅读

原作者： Konstantin Nikolaou, Jonas Scheunemann, Sven Krippendorf, Samuel Tovey, Christian Holm

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

大局观：为什么更大的模型学得更好

想象一下你正在学习一门新语言。

小模型就像那些只学习最显而易见、最常见词汇的学生（比如“你好”、“猫”、“跑”）。一旦掌握了这些，它们就会停止进步，因为它们无法理解复杂的语法或生僻的成语。
大模型则像是那些不仅掌握了常用词，还能不断深入挖掘，去学习晦涩词汇、复杂句式和细微差别的学生。

这篇论文探讨的是：为什么大模型能持续学习，而小模型却会停滞不前？

作者发现，大模型拥有一种特殊的超能力，他们称之为**“谱向触达”（Spectral Reach）**。这就像拥有一把更长的梯子。小模型只能触及顶部的横木（容易、明显的模式），而大模型可以一直爬到最底部的横木（微小、隐藏且困难的模式），从而持续提升。

核心概念：“谱尾”（The Spectral Tail）

为了理解这一点，请将学习过程想象成一个巨大的图书库，每一本书代表数据中的一种不同模式。

畅销书（头部/The Head）： 这些是流行、易于学习的模式。它们声音响亮、清晰，易于捕捉。无论模型大小，都会首先学习这些内容。
晦涩档案室（尾部/The Archives）： 这些是安静、微弱且难以捉摸的模式。它们被埋藏在图书馆的最深处。

问题在于： 随着模型的训练，它会先读完“畅销书”。一旦读完，它需要进入“档案室”才能继续进步。

小模型撞到了墙。它们缺乏阅读档案室中那些微弱书籍的“脑力”，因此陷入停滞。
大模型拥有一种“超级听力”。它们能听到档案室里的细微耳语。它们会继续阅读，学习那些别人会错过的微妙细节。这种深入探索“谱尾”的能力就是**“谱向触达”（Spectral Reach）**。

新工具：“谱向位置”计（The "Spectral Position" Meter）

作者发明了一个名为**“谱向位置”（Spectral Position，或 $\chi_{pos}$ ）**的新工具。你可以把它看作是模型学习旅程中的 GPS 追踪器。

高 GPS 值（接近 1）： 模型目前正在阅读“畅销书”。它正在学习宏大、简单的模式。
低 GPS 值（接近 0）： 模型已经深入到了“档案室”。它现在正在学习微小、困难的模式。

他们的发现：

时空旅行： 随着训练的进行，GPS 值会下降。模型自然地从简单的模式转向困难的模式。
规模差异： 大模型的 GPS 值下降得比小模型更低。它们能进入更深的档案室。这解释了为什么它们的误差更低（性能更好）——因为它们仅仅是学到了更多隐藏的细节。

秘密武器：特征学习（Feature Learning）

你可能会问：“为什么大模型能听到那些微弱的耳语？”

论文通过冻结模型的“大脑”（防止其内部特征发生变化），仅让最后一层进行学习，测试了这一点。

冻结的模型： 这些模型很早就停止了学习。它们无法触及深层的档案室。
活跃的模型： 这些模型会不断改变它们的内部“特征”（即它们看待世界的方式）。

类比： 想象你在尝试收听一个微弱的广播电台。

冻结的模型就像一台天线损坏的收音机。无论你如何调大音量，都无法听到那个微弱的电台。
学习中的模型则像是一台在收听过程中不断构建更好天线的收音机。随着学习的深入，它会重塑其内部结构，以放大那些微弱的信号。这种“构建天线”（特征学习）的能力，让模型即使在信号变得非常微弱时，也能维持进步。

“LNP”分解法：拆解数学逻辑

作者创建了一个公式来衡量这一切，而无需进行不可能的计算。他们将学习过程分解为三个部分，就像一份食谱：

损失规模 ( $\chi_{loss}$ )： 当前错误有多“响”。（如果模型错了，这个值就高）。
网络规模 ( $\chi_{net}$ )： 模型对变化的敏感程度。（大模型可以在这里构建更强的“天线”）。
谱向位置 ( $\chi_{pos}$ )： GPS 值。模型目前在图书馆的哪个位置阅读？

神奇之处： 他们发现，随着模型深入“档案室”（谱向位置下降），大模型的“网络规模”（天线强度）实际上是增加的。这种额外的强度补偿了信号的微弱，使其能够持续学习。小模型没有这种增益，因此选择了放弃。

研究总结

学习是一场旅程： 模型从简单的模式开始，逐渐转向困难、精细的细节。
规模至关重要： 比起小模型，大模型可以走得更远，触及更深的“困难细节”（谱尾）。
适应性是关键： 这种能力不仅仅在于拥有更多内存；更在于模型能够主动重塑自身（特征学习），以放大微弱的信号。
度量工具： 新的“谱向位置”工具让科学家能够实时观察这一旅程，即使面对庞大的模型，也不需要依靠超级计算机进行不可能的数学运算。

简而言之，大模型之所以胜出，是因为当简单的任务完成后，它们并不会停止学习；它们拥有“触达力”，能够持续挖掘那些小模型无法找到的隐藏瑰宝。

技术摘要：谱向度（Spectral Reach）：理解神经缩放作为向谱尾部的进阶

问题陈述

神经缩放定律描述了模型规模、数据集规模、计算量与性能之间可预测的幂律关系，这已成为现代基础模型的基石。然而，支撑这些定律的机制仍不为人所熟知。现有的理论解释通常依赖于理想化的假设（例如，具有冻结表示的随机特征模型），或者需要进行在观察到缩放定律的规模下难以实现的核计算。因此，目前缺乏可扩展的分析工具来揭示大规模训练背后的底层谱动力学，从而留下了一个悬而未决的问题：缩放定律是如何在实际深度学习场景中涌现的。

方法论

为了解决测量瓶颈，作者引入了损失-网络-位置（Loss-Network-Position, LNP）分解法。该框架将瞬时（线性化）损失变化分解为三个可解释的组成部分：

网络规模 ( $\chi_{net}$ )：网络输出对参数的雅可比矩阵的 Frobenius 范数 ( $\|\nabla_\theta f\|_F^2$ )，等价于经验神经切向核（eNTK）的迹。它捕捉了网络对参数更新的敏感性。
损失规模 ( $\chi_{loss}$ )：损失函数对网络输出的梯度平方欧几里得范数 ( $\|\nabla_f L\|_2^2$ )，反映了预测误差的大小。
谱位置 ( $\chi_{pos}$ )：一个范围在 $[0, 1]$ 之间的无标度量，指示当前驱动损失下降的是哪些 eNTK 特征值。它被定义为归一化特征值的加权平均值，其中权重由损失梯度在 eNTK 本征模上的投影决定。

核心创新：虽然计算 $\chi_{pos}$ 传统上需要昂贵的完整 eNTK 构建，但 LNP 分解允许通过比例 $\chi_{pos} = \delta L / (\chi_{net} \cdot \chi_{loss})$ 进行间接计算，其中 $\delta L$ 是线性化损失变化。这使得能够通过每样本梯度大小进行伴随训练的测量，其计算开销极低（小于 2 倍），避免了显式的核构建。

作者在具有幂律数据谱的受控随机特征模型（RFM）上验证了该框架，其中理论预测与经验测量相匹配。随后，他们将该诊断工具应用于涉及 SimpleStories 和 CIFAR-5M 的 Llama 2 语言模型，以及 CIFAR-5M 的 Vision Transformer 的缩放实验中。

核心贡献与结果

1. 谱位置在训练过程中下降

作者观察到，随着训练的进行，谱位置 $\chi_{pos}$ 下降了数个数量级。这表明了一种系统性的学习动态转变：模型最初从占主导地位的高特征值模（粗糙模式）中学习，并随着主导模收敛且不再对损失梯度做出贡献，逐渐转向关注谱尾部（细粒度细节）。

2. “谱向度”的定义

论文引入了**谱向度（Spectral Reach）**这一概念，将其定义为模型从 eNTK 谱中不断减小的特征值模中学习的能力。

观察：较大的模型比较小的模型实现了更低的最终 $\chi_{pos}$ 值。
解释：较小的模型会“趋于平缓”，达到一个容量极限，即无法再访问更细粒度的谱模。较大的模型则能维持这种下降轨迹，访问较小模型无法触及的微弱谱信号。这表明，较大的模型之所以能实现更低的损失，是因为它们可以持续精炼细粒度的细节，而较小的模型无法解析这些细节。

3. 特征学习的作用

通过线性探测实验（对比预训练骨干网络与随机、冻结的骨干网络），作者确定特征学习是实现谱向度的关键驱动力。

机制：在具有冻结表示的模型（随机骨干）中， $\chi_{net}$ 保持不变，且谱位置趋于平台期。相比之下，具备特征学习能力的模型在训练推进过程中表现出 $\chi_{net}$ （梯度量级）的自适应增加。
补偿：这种 $\chi_{net}$ 的增加作为 $\chi_{pos}$ 下降的抗衡力量。虽然 $\chi_{pos}$ 在下降（表明正在从更弱的信号中学习），但增长的 $\chi_{net}$ 放大了梯度量级，在冻结表示会停滞不前的地方维持了学习进程。这证明了学习到的表示通过重塑 eNTK 谱来支持向谱尾部的持续下降。

4. 跨架构与参数化的验证

研究结果在语言模型（Llama 2）和视觉模型（Vision Transformers）中具有普适性。至关重要的是，作者在**最大更新参数化（muP）**下重复了实验，muP 在不同宽度下保持特征学习强度恒定。在 muP 下谱向度排序的持久性证实，这一现象是由模型容量驱动的，而非由依赖宽度的特征学习强度驱动。

意义与主张

本文声称提供了一个可扩展的诊断工具，弥合了理论谱解释与实际深度学习之间的鸿沟。通过证明较大的模型可以通过特征学习维持对弱谱信号的学习，从而实现更低的损失，这项工作为神经缩放提供了一种机械论层面的解释。

作者将研究发现定位为对优化问题的重新审视：与其仅仅询问“我们如何降低损失？”，不如将重点转向“我们如何增强谱向度？”。这一视角提出了具体的干预途径，例如：

加速谱下降：通过优化器设计（例如，针对性的学习率、梯度缩放）。
重塑谱结构：通过架构选择或初始化方案（例如，muP、He、Xavier）使次级模态变得更易访问。

论文结论较为谦逊，指出虽然 LNP 分解捕捉了阶一效应和精确的瞬时属性，但非线性修正项仍有待分析。此外，尽管结果将谱位置与规模和性能联系起来，但关于特征学习具体如何重构 eNTK 谱的因果机制，仍需要进一步的受控干预才能得到确切建立。这项工作为未来进行语义结构和训练范式转换的模态级分析奠定了基础。

Spectral Reach: Understanding Neural Scaling as Progress into the Spectral Tail