Length Generalization Bounds for Transformers

本文证明了针对与 Transformer 密切相关的 CRASP 语言类(即使仅含两层)不存在可计算的长度泛化界,从而表明 Transformer 无法获得此类保证,但同时也为等价于固定精度 Transformer 的 CRASP 正片段提供了最优的指数级可计算长度泛化界。

Andy Yang, Pascal Bergsträßer, Georg Zetzsche, David Chiang, Anthony W. Lin

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个关于人工智能(特别是 Transformer 模型,也就是大语言模型背后的技术)的核心问题:“长度泛化”(Length Generalization)

简单来说,就是:如果我们只给模型看很短的句子(比如 10 个词),它能不能学会处理很长的句子(比如 1000 个词)?

这篇论文得出了一个非常惊人的结论,我们可以把它拆解成三个部分来理解:

1. 核心发现:对于普通 Transformer,这是一个“无解”的数学题

比喻:试图用有限的地图预测无限的迷宫

想象你正在教一个机器人走迷宫。你只给它看了一些很短的迷宫(比如只有 5 步长),然后问它:“如果你遇到一个有 1000 步的迷宫,你能走出来吗?”

  • 以前的想法:研究人员认为,只要模型足够聪明,或者训练数据足够多,它应该能学会这个规律,从而处理任意长度的迷宫。
  • 这篇论文的结论不行。 对于标准的 Transformer 模型(哪怕只有两层),不存在一个通用的算法能保证它学会处理任意长度的输入。

为什么?
作者发现,要判断一个模型是否真的学会了“长句子”的规则,本质上等同于解决一个数学上**“不可判定”**的问题(类似于著名的“希尔伯特第十问题”)。

  • 通俗解释:这就好比你试图写一个程序,让它自动判断“另一个程序会不会死机”。在数学上,这是不可能做到的。
  • 后果:这意味着,如果你训练一个模型,你永远无法确定它是否真的学会了处理长文本。也许它只是背下了短文本的规律,一旦句子变长,它就彻底懵了。而且,为了教会它,你可能需要看到长度超过任何已知数学函数(比如阿克曼函数,增长极快)的样本,这在现实中是不可能完成的任务

2. 唯一的希望:给模型戴上“紧箍咒”(固定精度)

比喻:给计算器限制小数位数

虽然普通 Transformer 在这个问题上“无解”,但作者发现,如果我们给模型加一个限制,情况就完全不同了。

  • 限制是什么? 限制模型内部计算的精度。想象一下,普通的 Transformer 像是一个拥有无限精度的超级计算器,可以算出 3.1415926535... 无限多位小数;而“固定精度 Transformer"像是一个普通的计算器,只能保留小数点后 10 位。
  • 结果:在这种限制下,模型可以学会长度泛化!
  • 代价:虽然能学会,但代价很高。你需要给模型看非常非常长的句子才能教会它。具体来说,训练数据的长度需要是模型大小的指数级(比如模型稍微大一点,需要的训练句子长度就要翻好几倍)。
  • 比喻:这就像教一个只有 10 位精度的计算器做数学题。它虽然能算对,但你必须给它看足够多的例子,直到它覆盖了所有可能的“进位”情况。虽然很难,但在理论上是可计算、可保证的。

3. 为什么这很重要?(现实意义)

这篇论文解释了为什么现在的 AI 在“长文本”任务上表现如此不稳定:

  1. 为什么有时候灵,有时候不灵?
    因为对于普通 Transformer,长度泛化在数学上就是“不可预测”的。模型能不能处理长文本,可能取决于你随机初始化时的权重、学习率等微小参数,而不是因为它真的“理解”了逻辑。这就解释了为什么有时候模型能处理 3 倍长的文本,有时候连 2 倍都处理不了。

  2. 为什么不能只靠“堆数据”?
    很多人认为“只要数据量够大,模型就能学会”。这篇论文告诉你:没用。 如果数学上无法保证长度泛化,那么无论你喂给它多少数据,只要没达到那个“不可计算的巨大长度”,你就无法保证它在更长的文本上表现良好。

  3. 未来的方向
    如果你想让 AI 真正可靠地处理长文本(比如写长篇小说、分析长篇法律文件),你可能不能只依赖标准的 Transformer 架构。你可能需要:

    • 使用固定精度的模型(虽然训练成本高,但有理论保证)。
    • 或者设计新的架构,避免陷入这种“数学无解”的陷阱。

总结

这篇论文就像是一个**“数学警察”**,它给大模型界泼了一盆冷水:

“别做梦了,标准的 Transformer 模型在数学上无法保证能学会处理任意长度的句子。如果你非要让它学会,除非你给它戴上‘固定精度’的紧箍咒,并且准备好海量的训练数据(指数级增长),否则你就是在碰运气。”

这对于理解 AI 的局限性、以及未来如何设计更可靠的长文本模型,具有非常重要的指导意义。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →