Unraveling Syntax: How Language Models Learn Context-Free Grammars

本文通过定义子文法并证明语言建模损失可线性递归分解为不可约子文法损失,揭示了语言模型在并行学习子结构方面的机制,指出预训练能优化内部表征但无法完全解决深层递归的局限性。

Laura Ying Schulz, Daniel Mitropolsky, Tomaso Poggio

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大型语言模型(LLM)做了一次“深度解剖”,试图搞清楚它们到底是怎么学会说话(或写代码、做数学题)的。

想象一下,语言模型就像一个超级天才的模仿者。它读了海量的书,能写出非常像样的文章。但我们一直有个疑问:它真的“懂”语法吗?还是说它只是在玩一个高难度的“接龙游戏”,靠概率猜下一个字?

这篇论文把复杂的语言拆解成了一个个**“子语法”(Subgrammars)**,就像把一辆汽车拆解成引擎、轮胎、方向盘等零件,然后研究模型是怎么学习这些零件的。

以下是用通俗语言和比喻对论文核心内容的解读:

1. 核心概念:什么是“子语法”?

想象你在学做一道复杂的**“俄罗斯套娃”式的大餐**(比如多层嵌套的千层蛋糕)。

  • 整体语法:就是整张食谱,告诉你怎么把蛋糕做出来。
  • 子语法:就是食谱里的局部步骤。比如“怎么烤好一个蛋糕胚”、“怎么调好奶油”、“怎么把三层叠起来”。
  • 这篇论文发现,任何复杂的语言结构(比如嵌套的括号、编程代码、句子结构),都可以被拆解成这些独立的“子任务”。

2. 惊人的发现:模型是“多线程”学习的

这是论文最反直觉的结论。

  • 人类学语言:像小孩子学说话,通常是先学会简单的词(“妈妈”、“吃饭”),然后慢慢学会短句,最后才学会复杂的长难句。这是一个循序渐进的过程。
  • AI 学语言:论文发现,当小型的 Transformer 模型(一种常见的 AI 架构)学习这些“子语法”时,它们不是先学会简单的,再学复杂的。相反,它们像是开了“多线程”模式同时在学习所有的子任务!
    • 比喻:就像你让一个学生同时背单词、学语法、练听力。如果是人类,可能会先背单词;但这个 AI 学生,仿佛大脑里开了几十个窗口,同时把所有模块都练了一遍。

3. 数学上的“分账”原理

论文用数学证明了:模型犯错的总次数(损失函数),等于它在每个“子语法”上犯错的总和。

  • 比喻:想象你在经营一家连锁超市。总亏损 = 面包店的亏损 + 水果店的亏损 + 服装店的亏损。
  • 论文证明了,只要把大语言模型看作一个连锁超市,它的总表现就是各个“子部门”(子语法)表现的简单相加。这意味着,如果你能优化好每一个小部门,整体表现就会变好。

4. 实验:先学“子任务”有用吗?(课程学习)

研究人员做了一个实验:先让模型只学“子语法”(比如只学怎么生成括号),然后再让它学整个大语言。

  • 结果:对于非常小的模型,这种“先易后难”的预训练确实有帮助,能让它最终表现更好。
  • 但是:对于大模型,这种帮助就不明显了。大模型本身就很强大,不需要这种“拐杖”。
  • 深层发现:即使大模型最终表现没变,但经过“子语法”预训练后,它的大脑内部结构(内部表征)变得更清晰了。它更能把“有括号的结构”和“没括号的结构”区分开来,就像大脑里的分类文件夹变得更整齐了。

5. 最大的弱点:怕“深”,不怕“长”

这是论文最扎心的发现。

  • 现象:模型可以处理很长的句子(比如写几千字的小说),只要逻辑不深,它就能搞定。但是,一旦遇到嵌套很深的结构(比如括号套了 10 层,或者数学公式里套了 7 层),模型就开始犯迷糊,甚至完全出错。
  • 比喻
    • 长度:就像走一条很长但很平的路,模型能走很远。
    • 深度:就像走一个很深的螺旋楼梯。只要楼梯转得够深,模型就会晕头转向,分不清上下。
  • 即使是现在最先进的模型(如 GPT-5.1),在处理这种“深层嵌套”时,表现也不如人意。这说明目前的 AI 在理解“深层逻辑结构”上,还存在天然的短板。

总结

这篇论文告诉我们:

  1. AI 学语言的方式很独特:它不像人类那样由浅入深,而是喜欢“齐头并进”,同时掌握所有子结构。
  2. 数学上有规律:AI 的总错误可以拆解为各个小部分的错误之和。
  3. 预训练有奇效:对于小模型,先学“子任务”能帮它建立更好的内部结构。
  4. AI 的阿喀琉斯之踵:无论模型多大,它都害怕“深层嵌套”。它能写长文,但搞不定太复杂的逻辑套娃。

这就好比现在的 AI 是一个博闻强记的图书管理员,它能瞬间检索海量的信息,也能同时处理很多任务,但如果你让它去解一个套了十层锁的俄罗斯套娃,它还是会卡住。这提示我们,未来的 AI 研究需要重点攻克“深度逻辑推理”这个难关。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →