Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias

该论文提出“中间迷失”现象是因果解码器在初始化阶段即存在的固有几何属性,源于残差连接与因果掩码共同作用导致的梯度影响分布,表现为首尾信息优势与中间区域的结构化训练敌对,且这一偏差在未经训练的模型中已显现并随标准预训练持续存在。

Borun D Chowdhury

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文揭示了一个关于大型语言模型(LLM)的惊人真相:“中间迷失”(Lost in the Middle)现象,并不是模型“学坏了”,而是它“生来如此”。

想象一下,你正在读一本非常厚的书,但这本书的作者(也就是模型)有一个奇怪的阅读习惯:它只记得书的开头书的结尾,而把中间几百页的内容完全忘掉了。

以前,科学家和工程师们认为这是因为:

  1. 模型学会了某种“作弊技巧”(比如把注意力都集中在第一个词上)。
  2. 或者是模型用来定位的“坐标系统”(比如 RoPE 位置编码)出了问题,导致它记不住中间的内容。

但这篇论文说:都不对。

🎂 核心发现:出生时的“几何诅咒”

作者发现,哪怕模型还没有开始学习任何知识(也就是刚初始化、权重全是随机的时候),这种“两头强、中间弱”的 U 型曲线就已经存在了。

这就好比一个刚出生的婴儿,还没学会走路,但它的腿骨结构天生就决定了它只能向两边跳,很难在中间站稳。这不是因为婴儿“没练好”,而是它的**身体构造(架构)**决定的。

🏗️ 两个“捣乱”的建筑结构

论文把 Transformer 模型比作一座多层建筑,这座建筑有两个导致“中间遗忘”的结构性缺陷:

1. 开头太“拥挤”(Primacy Tail / 首因效应)

  • 比喻: 想象一条单行道的信息高速公路。所有的车(信息)都必须从起点出发。
  • 现象: 在深层网络中,起点的信息就像站在山顶的人,它可以顺着无数条小路(数学上的“组合路径”)传送到终点。路径越多,信号越强。
  • 结果: 开头的信息被无限放大,变得极其重要。

2. 结尾有“传送门”(Recency Delta / 近因效应)

  • 比喻: 想象建筑的最后一层有一个秘密电梯(残差连接)
  • 现象: 最后一个词(结尾)不需要走那些拥挤的楼梯,它可以直接通过“残差连接”这个电梯,瞬间把信息传送到输出层。
  • 结果: 结尾的信息像开了挂一样,直接“瞬移”到了终点,非常清晰。

3. 中间的“死亡地带”(The Dead Zone)

  • 比喻: 夹在山顶和电梯之间的那些楼层(中间的内容)。
  • 现象: 它们既没有山顶那种“无数条小路”的加持,也没有电梯的“瞬移”特权。它们只能走一条又长又窄、还要经过层层稀释的“混合小路”。
  • 数学真相: 随着网络层数(H)的增加,中间信息的信号强度会以**阶乘级(1/(H-1)!)**的速度暴跌。
  • 结果: 中间的内容在数学上被“饿死”了。无论你怎么训练,只要架构不变,这个“死亡地带”就永远存在。

🧪 实验验证:罗盘与指南针

为了证明这不是巧合,作者做了两个实验:

  1. 刚出生的模型(Step 0): 他们拿了一个还没训练过的 Qwen2 模型,发现它天生就有一个巨大的 U 型曲线。
  2. 拔掉“坐标”(RoPE): 他们把模型里的位置编码(RoPE)全部关掉,发现 U 型曲线一模一样
    • 结论: 这不是因为“坐标”没标好,而是建筑本身的“骨架”有问题。

🏋️ 训练能改变吗?

这就好比让一个天生腿骨结构奇怪的人去练跑步。

  • 训练的作用: 模型确实会努力“学习”。它会试图在中间内容上制造一些“小 spikes"(尖峰),就像在死地里种几朵花。
  • 现实的残酷: 但是,它无法改变整个 U 型山谷的宏观地形。中间的地形依然太深、太陡。
  • 优化器的选择: 既然中间太难爬,模型就会“偷懒”,继续依赖开头和结尾这两个最容易获取信息的“捷径”。

💡 这对我们意味着什么?

这篇论文并不是说模型“没救了”,而是告诉我们不要治标不治本

  • 以前的做法: 拼命修改位置编码(RoPE),试图把中间的信号拉平。这就像给那个腿骨奇怪的人换了一双更贵的跑鞋,但没解决腿骨结构问题。
  • 未来的方向: 我们需要改变训练方式。既然中间的信息天生容易被“稀释”,我们就需要在训练时,专门给中间的内容施加巨大的惩罚特殊的奖励(比如专门针对“中间迷失”的强化学习),强迫模型去克服这个几何上的“逆风”。

总结

这篇论文就像给大模型做了一次CT 扫描,发现“中间迷失”不是感冒(可以吃药好的),而是先天性的骨骼结构

  • 开头太拥挤,信号太强。
  • 结尾有电梯,信号直达。
  • 中间是死胡同,信号被层层稀释。

要解决这个问题,我们不能只修修补补(改位置编码),而必须从训练策略上入手,强行把模型从这条“几何捷径”上拉回来,逼它去关注那些被遗忘的中间内容。