Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

该论文通过对 92 个开源预训练模型的元分析,揭示了除模型规模和训练数据量之外,数据构成(如代码占比)和架构选择(如旋转位置编码)等设计决策对下游性能有显著影响,从而构建了一个能更准确预测模型能力的框架。

Emmy Liu, Amanda Bertsch, Lintang Sutawika, Lindia Tjuatja, Patrick Fernandes, Lara Marinov, Michael Chen, Shreya Singhal, Carolin Lawrence, Aditi Raghunathan, Kiril Gashteovski, Graham Neubig

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大语言模型(LLM)做一次全面的“体检”和“基因分析”。

通常,大家认为让 AI 变聪明只有一个秘诀:“大力出奇迹”。也就是模型参数越大(脑子越大)、训练数据越多(读书越多),它就越厉害。这就像认为只要把一个人喂得足够饱,他就能成为世界级的厨师。

但这篇论文的作者们(来自卡内基梅隆大学等机构)发现,“吃得多”并不等于“吃得好”。他们研究了 92 个开源模型,发现除了“大小”和“数据量”之外,“怎么吃”(架构设计)和“吃什么”(数据成分) 才是决定 AI 最终表现的关键。

下面我用几个生动的比喻来解释他们的发现:

1. 核心发现:不仅仅是“大”就是好

想象一下,你正在预测两个学生谁能在期末考试中得高分。

  • 旧方法(缩放定律): 只看两个指标:A 学生的书包有多重(参数量),B 学生读了多少本书(训练 token 数)。
  • 新方法(本文): 除了看书包和读书量,还要看:A 学生是不是只读了漫画书?B 学生是不是在学编程?他们的学习方法(架构)是不是更高效?

结果: 作者发现,如果只靠“书包重”和“读书多”来预测,准确率一般。但如果加上“读了什么书”和“怎么学的”,预测准确率能提升 3% 到 28%。这意味着,选对教材和教学方法,比单纯堆砌书本数量更重要。

2. 关键发现一:代码是“双刃剑”

论文发现,在训练数据中加入代码(编程内容)非常有趣,它像是一种**“调味剂”**,加多了或加少了都不行:

  • 加一点(15%-25%): 就像在炖肉里加一点盐,能让模型在逻辑推理写代码任务上变得非常聪明。
  • 加太多(超过 25%): 就像盐放多了,模型反而在日常对话常识理解(比如“猫为什么怕水”)上变笨了。
  • 结论: 想要模型既懂代码又懂人话,数据里代码的比例控制在 15% 到 25% 是最佳平衡点。

3. 关键发现二:互联网数据可能让 AI“变傻”

作者发现了一个有趣的现象:互联网上的数据(Web Data)虽然多,但往往包含很多谣言、虚假信息和八卦。

  • 如果模型在训练时“吃”了太多互联网上的垃圾信息,它在回答**“什么是真实的”**(TruthfulQA 任务)时,表现就会变差。
  • 这就好比一个人如果整天混迹于充满谣言的论坛,他可能很会聊天,但很难分清真假。

4. 关键发现三:AI 的“说话风格”暴露了它的“出身”

作者们做了一个很聪明的实验:他们不直接看模型的训练数据(因为很多公司不公开),而是让模型**“自言自语”**(生成一些没有提示的文本),然后分析它说了什么。

  • 如果模型生成的文本里充满了“问题词”(如“为什么”、“怎么做”),说明它可能读过很多教科书或问答集,这种模型在常识推理上通常表现更好。
  • 如果生成的文本很像网页文章(充满广告、链接感),那它在真实性测试中往往表现不佳。
  • 比喻: 这就像通过一个人的口音和用词习惯,就能猜出他是在大学图书馆长大的,还是在嘈杂的菜市场长大的。

5. 总结:我们该怎么做?

这篇论文给 AI 开发者们画了一张**“藏宝图”**:

  • 不要盲目追求大: 并不是模型越大越好,小模型如果数据选得好、架构设计得巧,也能打败大模型。
  • 精心挑选食谱: 训练数据不能是大杂烩。代码要适量(15-25%),要减少低质量互联网数据的比例,增加高质量教科书或专业文档的比例。
  • 关注细节: 模型的层数、注意力机制等“硬件设计”细节,虽然不如数据成分影响大,但在某些特定任务上也能起到关键作用。

一句话总结:
以前我们以为 AI 变强全靠“堆量”(更多参数、更多数据),但这篇论文告诉我们,“质”比“量”更重要。就像做菜,食材的搭配比例(数据成分)和烹饪手法(架构设计),比单纯把锅填得满满的更能决定最终的味道。