How Large Language Models Get Stuck: Early structure with persistent errors

该论文通过训练 OPT 模型并评估其在 BLiMP 基准上的表现,发现模型在部分语法类别中会因早期训练阶段形成的错误统计偏差而陷入难以纠正的“错误固化”状态,并据此提出了旨在解释这一现象的“双词假设”(Bigram Hypothesis)。

Alokesh Manna, William Snyder, Whitney Tabor

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大型语言模型(LLM,比如我们熟悉的聊天机器人)做一场“成长发育体检”。研究人员发现,这些模型并不是在慢慢变聪明的过程中“走一步看一步”,而是在非常早期的训练阶段就形成了一些根深蒂固的“坏习惯”,并且很难改过来。

为了让你更容易理解,我们可以把训练一个语言模型想象成教一个刚出生的婴儿学习说话和语法

1. 核心发现:婴儿期的“错误定型”

通常我们认为,模型学得越多,错误就越少。但这篇论文发现了一个令人惊讶的现象:

  • 比喻:想象你在教孩子说话。有些语法点(比如“猫在桌子上”),孩子学得很慢,但最后学会了。而有些语法点(比如复杂的“岛屿约束”,即某些句子结构里不能随意提问),孩子在刚开始学的时候,就误以为“错误的说法”才是对的
  • 关键点:一旦这种错误的理解在“婴儿期”(训练的前几千次迭代)形成,哪怕后面给了它海量的数据(像给这个孩子读了很多书),它也很难纠正过来。它就像是一个在起跑线上就选错了方向的人,跑得越快,离目标越远。

2. 实验方法:用“最小对比对”做体检

研究人员没有让模型去写诗或写代码,而是用了一套名为 BLiMP 的“语法视力表”。

  • 比喻:这就好比给模型看成对的句子,就像医生用视力表测眼睛。
    • 好句子(正确的):“Jason 在读书之前提交了哪份报告?”
    • 坏句子(错误的):“ Jason 提交了报告在读书之前哪份?”(这听起来很别扭,但在语法上是错的)。
  • 研究人员观察模型在训练过程中,是更喜欢“好句子”还是“坏句子”。他们把训练过程分成了早期、中期、晚期,看看模型是在什么时候开始“分得清”好坏的。

3. 三大类“学习轨迹”

研究发现,这 67 种语法现象在模型脑子里的表现分成了三类:

  1. 早早学会且一直正确 (CES)

    • 比喻:像学“猫”和“狗”的区别。模型一开始就分得清,而且越学越稳。
    • 原因:这些通常依赖于简单的词频搭配(比如“红色的”后面常接“苹果”)。
  2. 早早学会但一直错误 (EES) —— 这是论文的重点

    • 比喻:像学“谁在谁前面”。模型在刚开始学的时候,被一些表面的、局部的线索给骗了。
    • 例子:模型发现“关于”(about)这个词后面常接动词,而“令人烦恼的”(irritating)后面接动词的情况很少。于是它错误地认为:“只要看到‘令人烦恼的’,后面接动词就是错的”。
    • 后果:这种错误的“第一印象”太深刻了,导致模型在训练后期,即使看到了正确的语法结构,也坚持认为那个“坏句子”更好。这就是论文标题说的“早期结构,持续错误”。
  3. 晚学会才正确 (CLS)

    • 比喻:像学复杂的数学公式。模型一开始很懵,分不清好坏,但经过大量训练后,终于在大脑深处建立了正确的逻辑,后来居上。

4. 为什么会这样?“双词定律”的陷阱

论文提出了一个有趣的假设,叫**“双词假设” (Bigram Hypothesis)**。

  • 比喻:想象模型在刚开始学说话时,就像是一个只记“前一个词”和“后一个词”关系的笨小孩。它不看整句话的逻辑,只看“这两个词经常一起出现吗?”
    • 如果“坏句子”里的两个词经常一起出现(比如“去”和“到”),而“好句子”里的词很少一起出现,这个“笨小孩”就会坚定地认为“坏句子”是对的。
    • 等到模型长大一点,开始看长句子、理解复杂逻辑时,它发现“哎呀,好像不对”,但这时候它已经形成了肌肉记忆,很难改过来了。

5. 这对我们意味着什么?

这篇论文给未来的 AI 训练提出了一个重要的建议:

  • 不要只盯着“练得久不久”:如果模型在刚开始训练的前几千步就“学歪了”,后面练再久也没用。
  • 关键在“起跑线”:我们需要在训练的最早期,就通过特殊的方法(比如调整数据、改变训练策略),防止模型被那些“表面的词频陷阱”带偏。
  • 就像教孩子:如果你发现孩子一开始就养成了错误的握笔姿势,你不能指望他练一万张字帖后自动变好,你必须在他刚开始拿笔的时候,就手把手纠正过来。

总结

这篇论文告诉我们,大型语言模型并不是全知全能的“天才”,它们更像是有关键发育期的孩子。它们在生命的最初阶段(训练早期)形成的某些错误认知,会像“伤疤”一样伴随整个成长过程。

未来的 AI 研究,不能只追求“喂更多数据”,而应该更聪明地关注**“如何让孩子在刚学说话时,就避开那些听起来顺口但其实是错的陷阱”**。