What Scales in Cross-Entropy Scaling Law?

本文提出将交叉熵分解为误差熵、自对齐和置信度三个部分,通过理论与实验证明仅误差熵遵循稳健的幂律缩放规律,从而揭示了传统交叉熵缩放律在超大模型尺度下失效的根本原因。

Junxi Yan, Zixi Wei, Qingyao Ai, Yiqun Liu, Jingtao Zhan

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大语言模型(LLM)做了一次深度的“体检”,试图解开一个困扰科学界已久的谜题:为什么模型越大,表现越好,但“进步的速度”却在变慢?

为了让你轻松理解,我们可以把训练一个大模型想象成教一个学生(模型)去猜下一个字是什么

1. 传统的“成绩单”:交叉熵(Cross-Entropy)

过去,科学家只用一把尺子来衡量学生学得怎么样,这把尺子叫“交叉熵”。

  • 以前的发现:学生越聪明(模型越大),或者书读得越多(数据越多),他的“错误率”(交叉熵损失)就会按照一个非常完美的数学规律(幂律)下降。就像你越练跑步,速度就越快,而且这个变快的速度是可以预测的。
  • 现在的困惑:最近大家发现,当学生变得超级聪明(模型极大)时,这个规律失效了。他的进步变慢了,不再像以前那样“突飞猛进”。这让大家很焦虑:难道模型越大,提升空间就越小了吗?

2. 论文的核心发现:把“成绩单”拆开看

这篇论文的作者认为,问题出在我们用的那把尺子太粗糙了。就像你只看到一个学生考了 80 分,却不知道他是因为“做对了题”还是“运气好蒙对了”才得的 80 分。

作者把“交叉熵”这把大尺子,拆解成了三个小零件,就像把一道复杂的菜拆成了主料、调料和摆盘

零件一:错误熵 (Error-Entropy) —— 真正的“硬实力”

  • 比喻:这是学生真正做对题的能力。它不看学生猜得有多“自信”,只看他是不是把正确答案排在了第一位。
  • 发现:这是唯一真正遵循“越练越强”规律的零件。模型越大,这个“硬实力”就按完美的数学规律提升。
  • 结论:这才是模型变强的核心引擎

零件二:自我对齐 (Self-Alignment) —— 学生的“性格”

  • 比喻:这是学生对自己排名的态度。比如,学生觉得“正确答案排第一,错误答案排第二”,他是否真的相信这个排名?
  • 发现:这个零件在模型变大时,并没有明显的规律。它更像是一种随机的“性格”波动,有时候高,有时候低,跟模型大小没太大关系。

零件三:置信度 (Confidence) —— 学生的“自信心”

  • 比喻:这是学生喊口号的声音有多大。比如,他不仅知道答案,还大声喊出“我 100% 确定是这个!”
  • 发现:模型越大,学生喊得越响(置信度越高),但这并不代表他更聪明。这就像一个人声音越大,不代表他解题越快。

3. 解开谜题:为什么大模型“变慢”了?

现在我们可以回答那个大问题了:

  • 小模型阶段:学生刚起步,主要靠硬实力(错误熵)。这时候,他的进步完全由“硬实力”驱动,所以看起来进步飞快,符合完美的数学规律。
  • 大模型阶段:学生已经很强了,硬实力的提升空间变小了。但是,模型还在拼命喊口号(置信度),或者调整性格(自我对齐)
  • 真相:因为“硬实力”在总分数里的占比变小了,而“喊口号”和“性格”这些不遵循规律的部分占比变大了。这就导致整体看起来,模型进步变慢了,好像“幂律”失效了。

打个比方
想象你在看一辆赛车。

  • 刚开始,引擎(硬实力)在全力加速,车速提升很快。
  • 后来,引擎已经到极限了,但车手开始疯狂按喇叭(置信度)或者调整座椅(自我对齐)。
  • 如果你只看“整体表现”,会发现车速提升变慢了。但如果你只看“引擎转速”,你会发现引擎其实还在按规律工作,只是它不再是决定速度的唯一因素了。

4. 这篇论文有什么用?

作者提出了一个新的**“错误熵缩放定律”**,这就像给科学家换了一把更精准的尺子:

  1. 更准的预测:以后我们不用被“整体变慢”的假象迷惑,只要盯着“硬实力(错误熵)”看,就能更准确地预测模型未来的能力。
  2. 更好的训练:既然知道了“喊口号(置信度)”对提升硬实力没帮助,那我们在训练模型时,就可以少花点力气去教它“喊得更大声”,多花点力气去提升它“做对题”的能力。
  3. 理解智能:这让我们明白,人工智能的进化,核心在于识别对错的能力,而不是自信的程度

总结一句话
这篇论文告诉我们,大模型并没有“变笨”或“遇到瓶颈”,只是我们以前看它的尺子太粗了。把“真正的能力”和“虚张声势”分开后,我们发现模型的核心能力依然在按照完美的规律进化,只是它现在变得更自信、更“啰嗦”了。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →