What Scales in Cross-Entropy Scaling Law?

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大语言模型（LLM）做了一次深度的“体检”，试图解开一个困扰科学界已久的谜题：为什么模型越大，表现越好，但“进步的速度”却在变慢？

为了让你轻松理解，我们可以把训练一个大模型想象成教一个学生（模型）去猜下一个字是什么。

1. 传统的“成绩单”：交叉熵（Cross-Entropy）

过去，科学家只用一把尺子来衡量学生学得怎么样，这把尺子叫“交叉熵”。

以前的发现：学生越聪明（模型越大），或者书读得越多（数据越多），他的“错误率”（交叉熵损失）就会按照一个非常完美的数学规律（幂律）下降。就像你越练跑步，速度就越快，而且这个变快的速度是可以预测的。
现在的困惑：最近大家发现，当学生变得超级聪明（模型极大）时，这个规律失效了。他的进步变慢了，不再像以前那样“突飞猛进”。这让大家很焦虑：难道模型越大，提升空间就越小了吗？

2. 论文的核心发现：把“成绩单”拆开看

这篇论文的作者认为，问题出在我们用的那把尺子太粗糙了。就像你只看到一个学生考了 80 分，却不知道他是因为“做对了题”还是“运气好蒙对了”才得的 80 分。

作者把“交叉熵”这把大尺子，拆解成了三个小零件，就像把一道复杂的菜拆成了主料、调料和摆盘：

零件一：错误熵 (Error-Entropy) —— 真正的“硬实力”

比喻：这是学生真正做对题的能力。它不看学生猜得有多“自信”，只看他是不是把正确答案排在了第一位。
发现：这是唯一真正遵循“越练越强”规律的零件。模型越大，这个“硬实力”就按完美的数学规律提升。
结论：这才是模型变强的核心引擎。

零件二：自我对齐 (Self-Alignment) —— 学生的“性格”

比喻：这是学生对自己排名的态度。比如，学生觉得“正确答案排第一，错误答案排第二”，他是否真的相信这个排名？
发现：这个零件在模型变大时，并没有明显的规律。它更像是一种随机的“性格”波动，有时候高，有时候低，跟模型大小没太大关系。

零件三：置信度 (Confidence) —— 学生的“自信心”

比喻：这是学生喊口号的声音有多大。比如，他不仅知道答案，还大声喊出“我 100% 确定是这个！”
发现：模型越大，学生喊得越响（置信度越高），但这并不代表他更聪明。这就像一个人声音越大，不代表他解题越快。

3. 解开谜题：为什么大模型“变慢”了？

现在我们可以回答那个大问题了：

小模型阶段：学生刚起步，主要靠硬实力（错误熵）。这时候，他的进步完全由“硬实力”驱动，所以看起来进步飞快，符合完美的数学规律。
大模型阶段：学生已经很强了，硬实力的提升空间变小了。但是，模型还在拼命喊口号（置信度），或者调整性格（自我对齐）。
真相：因为“硬实力”在总分数里的占比变小了，而“喊口号”和“性格”这些不遵循规律的部分占比变大了。这就导致整体看起来，模型进步变慢了，好像“幂律”失效了。

打个比方：
想象你在看一辆赛车。

刚开始，引擎（硬实力）在全力加速，车速提升很快。
后来，引擎已经到极限了，但车手开始疯狂按喇叭（置信度）或者调整座椅（自我对齐）。
如果你只看“整体表现”，会发现车速提升变慢了。但如果你只看“引擎转速”，你会发现引擎其实还在按规律工作，只是它不再是决定速度的唯一因素了。

4. 这篇论文有什么用？

作者提出了一个新的**“错误熵缩放定律”**，这就像给科学家换了一把更精准的尺子：

更准的预测：以后我们不用被“整体变慢”的假象迷惑，只要盯着“硬实力（错误熵）”看，就能更准确地预测模型未来的能力。
更好的训练：既然知道了“喊口号（置信度）”对提升硬实力没帮助，那我们在训练模型时，就可以少花点力气去教它“喊得更大声”，多花点力气去提升它“做对题”的能力。
理解智能：这让我们明白，人工智能的进化，核心在于识别对错的能力，而不是自信的程度。

总结一句话：
这篇论文告诉我们，大模型并没有“变笨”或“遇到瓶颈”，只是我们以前看它的尺子太粗了。把“真正的能力”和“虚张声势”分开后，我们发现模型的核心能力依然在按照完美的规律进化，只是它现在变得更自信、更“啰嗦”了。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的会议论文，题为《WHAT SCALES IN CROSS-ENTROPY SCALING LAW?》（交叉熵缩放律中究竟什么在缩放？）。该论文由清华大学的研究团队完成，旨在解决大语言模型（LLM）发展中交叉熵损失（Cross-Entropy Loss）缩放律在超大尺度下失效的问题。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

交叉熵缩放律的局限性：传统的交叉熵缩放律指出，随着模型参数量和数据集规模的增加，交叉熵损失会以可预测的幂律（Power-law）形式下降。然而，近期证据表明，在非常大的模型尺度下，这一规律开始失效：损失下降的速度比预期慢，导致难以准确预测超大模型的性能。
核心疑问：为什么交叉熵缩放律在小模型上准确，但在大模型上失效？交叉熵本身是否真的遵循缩放律？还是说其中隐藏着某个特定的分量在主导这一行为？
研究目标：探究交叉熵缩放律失效的根本原因，并识别出其中真正遵循缩放律的组件，从而建立更准确的模型行为描述。

2. 方法论 (Methodology)

论文提出了一种新颖的交叉熵分解方法，将交叉熵损失精确分解为三个具有明确物理意义的分量。

2.1 基于排名的误差 (Rank-based Error, RBE)

作者认为，相比于概率分数，正确 Token 的排名更能反映模型性能，因为排名不受温度缩放、Top-k 采样等后处理操作的影响。
定义 $RBE(v_i)$ 为正确 Token $v_i$ 在模型预测分布中的排名（即有多少个其他 Token 的得分高于它）。

2.2 交叉熵的数学分解

基于 RBE，作者将交叉熵损失 $L_{CE}$ 分解为以下三项之和：
$L_{CE} = \underbrace{-\sum_e p_e \log p_e}_{\text{Error-Entropy (误差熵)}} + \underbrace{\sum_e p_e \log \frac{p_e}{q_e}}_{\text{Self-Alignment (自对齐)}} - \underbrace{\log C}_{\text{Confidence (置信度)}}$

其中：

$p_e$ (RBE 分布)：正确 Token 出现在排名 $e$ 的概率分布。
$q_e$ (归一化分数分布)：在排名为 $e$ 的组内，Token 分数的几何平均值（归一化后）。
$C$ (置信度范数)：所有分数的总和（归一化常数）。

三个分量的含义：

Error-Entropy (误差熵)： $p_e$ 的香农熵。衡量模型预测排名的不确定性。最小化该项意味着让正确 Token 的排名尽可能靠前（分布集中在头部）。
Self-Alignment (自对齐)： $p_e$ 和 $q_e$ 之间的 KL 散度。衡量模型输出的概率分数分布是否与其内部的误差分布（排名分布）一致。
Confidence (置信度)： $-\log C$ 。衡量模型对预测结果的置信程度（分数的绝对大小）。

3. 关键贡献 (Key Contributions)

提出了交叉熵的三分量分解理论：从数学上严格证明了交叉熵可以分解为误差熵、自对齐和置信度，并揭示了它们在训练动态中的不同作用。
发现了“误差熵缩放律” (Error-Entropy Scaling Law)：通过大量实验证明，在交叉熵的三个分量中，只有 Error-Entropy 真正遵循稳健的幂律缩放，而 Self-Alignment 和 Confidence 在大模型尺度下并不遵循缩放律（甚至呈现随机或反向趋势）。
解释了缩放律失效的原因：揭示了交叉熵缩放律在小模型有效而在大模型失效的机制。在小模型中，Error-Entropy 占据损失的主导地位（约 90%），因此整体表现为幂律；随着模型增大，Error-Entropy 的占比下降，不遵循缩放律的 Self-Alignment 和 Confidence 占比上升，导致整体交叉熵偏离幂律。

4. 实验结果 (Results)

实验设置：在 Wikipedia、C4、GitHub 三个数据集上，使用了跨越 5 个数量级（从 14M 到 70B 参数）的 32 个不同模型家族（包括 Pythia, GPT-2, LLaMA, Qwen, Mistral 等）进行验证。
定量分析：
- 拟合优度 ( $R^2$ )：Error-Entropy 的幂律拟合优度（ $R^2 \approx 0.9$ ）在几乎所有情况下都优于原始交叉熵，且比 Self-Alignment 和 Confidence 更稳定。
- 缩放指数差异 ( $|\Delta|$ )：Error-Entropy 的缩放指数与交叉熵最接近，而 Self-Alignment 偏差最大。
训练动态：
- 在训练初期，模型主要优化 Error-Entropy（降低排名误差）。
- 随着训练深入，Error-Entropy 被最小化后，模型才开始优化 Self-Alignment 和 Confidence。
- 随着模型规模增大，Error-Entropy 在总损失中的相对占比逐渐下降（从约 90% 降至更低），这直接解释了为何大模型的交叉熵缩放律变慢。

5. 意义与影响 (Significance)

理论层面：
- 澄清了交叉熵缩放律的本质，指出其并非交叉熵本身的属性，而是由“误差熵”这一核心分量驱动的。
- 将信息论学习（ITL）中的误差熵概念引入大语言模型领域，建立了新的理论联系。
实践层面：
- 更准确的预测：使用 Error-Entropy 而非原始交叉熵来预测大模型性能，可以提供更可靠、更准确的缩放曲线。
- 训练目标优化：论文提出了一种受 Error-Entropy 启发的补偿损失函数（ $L_\lambda = CE + \lambda \cdot CONF$ ），通过惩罚置信度项，引导模型更专注于优化排名能力（即 Error-Entropy），而非仅仅增加分数的绝对值。
- 解决“变慢”谜题：合理解释了为何随着模型变大，交叉熵下降变慢，为未来设计更高效的训练策略提供了方向。

总结

该论文通过数学分解和大规模实证研究，颠覆了对交叉熵缩放律的传统认知。它证明了**“误差熵”才是大语言模型性能提升的真正驱动力**，而原始交叉熵在大尺度下的表现失真是由于非缩放分量（置信度和自对齐）占比增加所致。这一发现为理解 LLM 的扩展行为、优化训练目标以及预测未来模型性能提供了新的理论基础和实用工具。